使用中文模組分析ptt文章,找出最相似前五個文章

Google Colab的共用連結為https://colab.research.google.com/drive/1qj5pM7GVGR31SQYfrJJUt5b0VAh38qkU?usp=sharing

Step1)連線資料庫抓取ptt資料放到DataFrame,需要事先使用scrapy抓取ptt文章加入資料庫內,請參考「使用scrapy抓取ptt批踢踢Gossiping版資料儲存到Mysql」。

執行結果

顯示ptt前五個文章與DataFrame大小(15990, 8)

Step2)載入中文模組並分析文章

使用zh_core_web_lg分析文章,每個文章產生一個向量。使用「pip install spacy」安裝模組spacy,接著使用「python -m spacy download zh_core_web_lg」下載zh_core_web_lg模組,分析文章產生向量。

執行結果

(15990, 300)

Step3)儲存與載入nlp向量

Step4)找出相似的文章