成果分享

成果說明:

本讀書會研究PTT中文文集並以此做後續應用為目標,並選定以美妝版為主要應用文集。

流程:

  1. 自Hadoop網路檔案系統和Spark叢集運算平台抓取美妝版文集

  2. 使用管院R server處理+清理資料,得出目標文集

  3. 字典建立(dictionary),分類字詞(class)

  4. 建立文件矩陣和關鍵字矩陣,建立co-occurance和co-relation矩陣

  5. 製作雙中心網絡圖

APP介紹

  • 本支App為美妝品牌關鍵字網絡分析,供行銷人員或是消費者使用皆可

介面介紹

  • 左上是讓使用者輸入我們在字典中分類出來的品牌,並可調整網絡圖的節點數量和連結強度(共同出現次數或是相關係數)

  • 右上會顯示網絡圖,右端不同顏色的方框代表不同分類的關鍵字類別(class),圖中每個圓點都是字,字和字之間的鏈結代表它們之間的強度

  • 點擊節點(單詞)或鍊結(兩詞)後,右下會出現相對應(含有那個字)的句子

  • 點擊右下句子後,左下框格會出現相對應的PTT文章

使用方式

可以利用下拉式選單,或是直接輸入想查詢的品牌,再進行觀察

後續待處理問題

  • 文章顯示的顏色目前還須debug

人員分工

珮淳:召集會議、進度控管,PTT字典整理

上暐:PTT字典整理、矩陣運算

岱宜:文集爬取、網絡圖繪製