文字探勘(Text mining)是資料探勘(Data mining)的延伸,要進一步從非結構化的文字資料(textual data)中,提取出有意義的資訊。它的原始輸入資料,屬於文字的型態,大多是由人類語言所構成,許多都沒有特定的結構。這些文字資料的來源,反映在日常生活當中,像是新聞、或是人們在社群媒體所發表的近況…等。它們看似雜亂,而且沒有一定的結構,但這些由自然語言構成的文字型資料中,一樣蘊藏著許多有價值的資訊。文字探勘能有系統地識別、擷取、管理、整合與應用文字資料背後所隱藏的知識。
詞彙重要程度:tf-idf(英語:term frequency–inverse document frequency)是一種用於資訊檢索與文字挖掘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。Ex:假如一篇檔案的總詞語數是100個,而詞語「母牛」出現了3次,那麼「母牛」一詞在該檔案中的詞頻就是3/100=0.03。而計算檔案頻率(IDF)的方法是以檔案集的檔案總數,除以出現「母牛」一詞的檔案數。所以,如果「母牛」一詞在1,000份檔案出現過,而檔案總數是10,000,000份的話,其逆向檔案頻率就是lg(10,000,000 / 1,000)=4。最後的tf-idf的分數為0.03 * 4=0.12。 轉成corpus,建立 TermDocumentMatrix,TermDocumentMatrix 指的是關鍵字為列,文件是行的矩陣。儲存的數字是關鍵字在這些文件中出現的次數。