本研究從線性代數角度出發,說明當「奇異值分解 (SVD)」被應用於高維度的「詞彙-新聞報導矩陣」 時,系統如何透過降維來捕捉資料中最強的語義結構。此技術(亦稱為潛在語義分析, LSA)被應用於大量的新聞文本時,能將原始稀疏的字詞空間,映射到一個更精簡的「潛在主題空間」。同時,該現象也展現於SVD分解後的U 矩陣(詞彙-新聞報導矩陣)中,當我們檢視特定主題(即奇異向量)時,權重最高的對應字詞,即構成了該潛在主題的「關鍵字詞」。此模型亦說明,新聞文章中的「主題」分類或「關鍵字」的浮現,並非僅是字面上的隨機堆疊,而是源自詞彙間內部隱藏的「潛在語義結構」。
書面報告
3分鐘簡介影片
研討會15分鐘報告影片