使用中文模組分析ptt文章,找出最相似前五個文章
Google Colab的共用連結為https://colab.research.google.com/drive/1qj5pM7GVGR31SQYfrJJUt5b0VAh38qkU?usp=sharing
Step1)連線資料庫抓取ptt資料放到DataFrame,需要事先使用scrapy抓取ptt文章加入資料庫內,請參考「使用scrapy抓取ptt批踢踢Gossiping版資料儲存到Mysql」。
執行結果
顯示ptt前五個文章與DataFrame大小(15990, 8)
Step2)載入中文模組並分析文章
使用zh_core_web_lg分析文章,每個文章產生一個向量。使用「pip install spacy」安裝模組spacy,接著使用「python -m spacy download zh_core_web_lg」下載zh_core_web_lg模組,分析文章產生向量。
執行結果
(15990, 300)
Step3)儲存與載入nlp向量
Step4)找出相似的文章