利用python 不同套件功能,以處理數據、分析文本和數據可視化
環境: Visual Studio Code(運行)、Python 3.12、C/C++編譯器
在處理情感分析中,就用了以上的python套件功能
os: 管理文件和目錄,例如尋找劇本文件和創建保存結果的資料夾。
json: 讀取和儲存劇本數據(訓練集和測試集)為 JSON 格式文件。
collections.Counter: 統計文本中的特殊符號,幫助清理無用字符。
re: 使用正則表達式清理文本,去除英文和雜亂符號。
jieba: 將中文劇本文本分割成單詞(分詞),為後續分析準備。
jieba.posseg: 標記詞性,提取名詞、動詞、形容詞等重要詞類。
random: 隨機選擇劇本片段,生成測試數據。
sklearn.feature_extraction.text.CountVectorizer: 將劇本文本轉為數字矩陣,計算每個詞的出現次數。
sklearn.decomposition.LatentDirichletAllocation (LDA): 執行主題建模,提取劇本中的隱藏主題。
torch: 處理數學計算,找出劇本最相關的主題。
pandas: 整理和儲存分析結果,生成 Excel 文件。
numpy: 進行數值計算,例如處理詞頻和矩陣數據。
sklearn.metrics.pairwise.cosine_similarity: 比較劇本片段的相似度,用於分類。
sklearn.metrics (accuracy_score, precision_score, recall_score, f1_score): 評估分類結果的準確性。
argparse: 接受用戶輸入的主題數量和測試數據路徑。
pyLDAvis: 創建互動式網頁,展示主題分析結果。
gensim.corpora.Dictionary: 建立劇本詞彙表,為主題分析準備。
gensim.models.LdaModel: 另一種主題建模工具,用於計算主題質量。
gensim.models.coherencemodel.CoherenceModel: 評估主題的語義一致性,確保主題有意義。
matplotlib.pyplot: 繪製圖表,展示主題分析的困惑度和一致性分數。
datetime: 生成時間戳,為結果文件命名。
利用QGIS製作地圖
以作文本分析和數據可視化:
Cirrus(詞雲)Trends(趨勢圖)Contexts(上下文檢索)
Summary(文本統計)Corpus Terms(語料庫詞頻)
Collocates(共現分析)Links(詞匯網絡)
N-gram、Regex、Replace、Word Cloud、PCA
Excel: 統計數據
分析數據、圖片生成、文本摘要、啓發思考