研究工具與數據

Python：LDA主題模型&情感分析

利用python 不同套件功能，以處理數據、分析文本和數據可視化

環境： Visual Studio Code（運行）、Python 3.12、C/C++編譯器

情感分析套件

Jieba

Pandas

matplotib.pyplot

seaborn

re

numpy

SnowNLP

NetworkX

例子

在處理情感分析中，就用了以上的python套件功能

LDA模型套件

LDA模型所用的套件及功能：

os: 管理文件和目錄，例如尋找劇本文件和創建保存結果的資料夾。

json: 讀取和儲存劇本數據（訓練集和測試集）為 JSON 格式文件。

collections.Counter: 統計文本中的特殊符號，幫助清理無用字符。

re: 使用正則表達式清理文本，去除英文和雜亂符號。

jieba: 將中文劇本文本分割成單詞（分詞），為後續分析準備。

jieba.posseg: 標記詞性，提取名詞、動詞、形容詞等重要詞類。

random: 隨機選擇劇本片段，生成測試數據。

sklearn.feature_extraction.text.CountVectorizer: 將劇本文本轉為數字矩陣，計算每個詞的出現次數。

sklearn.decomposition.LatentDirichletAllocation (LDA): 執行主題建模，提取劇本中的隱藏主題。

torch: 處理數學計算，找出劇本最相關的主題。

pandas: 整理和儲存分析結果，生成 Excel 文件。

numpy: 進行數值計算，例如處理詞頻和矩陣數據。

sklearn.metrics.pairwise.cosine_similarity: 比較劇本片段的相似度，用於分類。

sklearn.metrics (accuracy_score, precision_score, recall_score, f1_score): 評估分類結果的準確性。

argparse: 接受用戶輸入的主題數量和測試數據路徑。

pyLDAvis: 創建互動式網頁，展示主題分析結果。

gensim.corpora.Dictionary: 建立劇本詞彙表，為主題分析準備。

gensim.models.LdaModel: 另一種主題建模工具，用於計算主題質量。

gensim.models.coherencemodel.CoherenceModel: 評估主題的語義一致性，確保主題有意義。

matplotlib.pyplot: 繪製圖表，展示主題分析的困惑度和一致性分數。

datetime: 生成時間戳，為結果文件命名。

QGIS

利用QGIS製作地圖

Voyant-tools

以作文本分析和數據可視化：

Cirrus（詞雲）Trends（趨勢圖）Contexts（上下文檢索）

Summary（文本統計）Corpus Terms（語料庫詞頻）

Collocates（共現分析）Links（詞匯網絡）

中國哲學書電子化計劃(CTP API)

N-gram、Regex、Replace、Word Cloud、PCA

Excel: 統計數據

Ctext: 張愛玲剧本詞頻

AI 工具

分析數據、圖片生成、文本摘要、啓發思考

Page updated

Google Sites

Report abuse