Text Clustering

Text Clustering is a process of grouping most similar articles, tweets, reviews, and documents

together. Here each group is known as a cluster. In clustering, documents within-cluster are

similar and documents in different clusters are dissimilar. There are various clustering techniques

are available such as K-Means, DBSCAN, Spectral clustering, and hierarchical clustering.

Clustering is known as the data segmentation method. It partitions the large data sets into similar

groups. Clustering can also be utilized in outlier detection problems such as fraud detection and

monitoring of criminal activities.

Text Clustering is a broadly used unsupervised technique in text analytics. Text clustering has

various applications such as clustering or organizing documents and text summarization.

Clustering is also used in various applications such as customer segmentation, recommender

system, and visualization. Text mining or analytics techniques need text to be converted into

some type of vectors such as Bag of Words(BoW), Term Frequency-Inverse Document

Frequency (TF-IDF), Word2Vec, Doc2Vec, Sent2Vec, USE, Skip-thoughts, or other

transformers.

Page updated

Report abuse