兩中文稿相似度分析 (Similarity)

分詞後文件一：

鴻夏戀 26 日再傳破局，夏普表明未來不排除其他籌資辦法，不過鴻海回應，到 2015 年 3 月 26 日前，雙方都還有談判機會，為什麼鴻海一定要拿下夏普股權，專家認為，鴻海發展自家大電視品牌「睿俠」，用的就是夏普面板，如果鴻海的品牌之路要走得穩，夏普的技術將是一大助力，另外鴻海董事長郭台銘這麼勤於奔走、與夏普周璇，為的也是背後老大哥蘋果，如果能成功讓美日台連線敗部復活，去三星化對台廠更是一大利多。

分詞後文件二：

蘋果成長性日漸疲弱，夏普轉向三星懷抱，已是既定政策，未來 3 年，夏普不僅要布局智慧手機，車用中小型面板，海外東南亞市場，也要利用三星知名度，擴大冰箱、洗衣機等家電銷售量。另外三星向來覬覦的多功能事務機，也可能攜手合作，讓原本處於競爭的日韓關係，進入全新階段。林宏文：「白色家電如果要幫三星去做代工，打韓國跟其他國家市場，這其實也正中了，三星現在的想法，因為三星最大的勁敵，其實是 LG 樂金，樂金在白色家電，其實是全世界第一。」夏普公布營收後，鴻海也公布第一季財報，雖然稅後盈餘，比去年同期增加，但營益率卻不到 2 %，每股獲利只有 1.38 元，蘋果光芒黯淡，負面效應日漸顯，未來鴻夏戀能否露出一絲曙光，沒有定論前，這段鴻夏戀還有得談。

公式及原理：

程式列表：

#!/usr/bin/env python # -*- coding: utf-8 -*- # 作業系統 import os import sys # 字碼轉換 import codecs # 科學運算 import numpy as np import numpy.linalg as LA # 文字處理 import nltk from nltk.corpus import stopwords # 移除中文停詞 def removeChineseStopWords(textFile): newTextFile = textFile chineseFilter1 = [u'，', u'。', u'、', u'；', u'：', u'？', u'「', u'」'] for chin in chineseFilter1: newTextFile = newTextFile.replace(chin, ' ') return newTextFile # 讀取中文檔案 def getTokensFromFile(textFileName): textFileHandle = codecs.open(textFileName, 'rU','utf8') textContent = textFileHandle.read() for word in stopwords.words('english'): textContent = textContent.replace(word, ' ') textTokens = nltk.word_tokenize(removeChineseStopWords(textContent)) textFileHandle.close() return textTokens # 字詞頻度表 def getTokenFreqList(textTokens): tokenFrequency = nltk.FreqDist(textTokens) # 刪除單一字 for word in tokenFrequency: if len(word) == 1: tokenFrequency.pop(word) # 刪除數字 for word in tokenFrequency: try: val = float(word) tokenFrequency.pop(word) except: pass # 刪除廢詞 chineseFilter = [u'可能', u'不過', u'如果', u'恐怕', u'其實', u'進入', u'雖然', u'這麼', u'處於', u'因為', u'一定'] for word in tokenFrequency: if word in chineseFilter: tokenFrequency.pop(word) return tokenFrequency # 輸出字詞頻度表 def OutputDocWordFreq(wordFrequency): for word in wordFrequency: print '"%s",%d' % (word, wordFrequency[word]) # 計算 2 向量間距離 def getDocDistance(a, b): if LA.norm(a)==0 or LA.norm(b)==0: return -1 return round(np.inner(a, b) / (LA.norm(a) * LA.norm(b)), 4) # 計算文件相似度 def getDocSimilarity(wordFrequencyPair, minTimes=1): dict1 = {} for key in wordFrequencyPair[0].keys(): if wordFrequencyPair[0].get(key, 0) >= minTimes: dict1[key] = wordFrequencyPair[0].get(key, 0) dict2 = {} for key in wordFrequencyPair[1].keys(): if wordFrequencyPair[1].get(key, 0) >= minTimes: dict2[key] = wordFrequencyPair[1].get(key, 0) for key in dict2.keys(): if dict1.get(key, 0) == 0: dict1[key] = 0 for key in dict1.keys(): if dict2.get(key, 0) == 0: dict2[key] = 0 v1 = [] for w in sorted(dict1.keys()): v1.append(dict1.get(w)) print "(1)", w, dict1.get(w) v2 = [] for w in sorted(dict2.keys()): v2.append(dict2.get(w)) print "(2)", w, dict2.get(w) result = 0 try: result = getDocDistance(v1, v2) except(RuntimeError, TypeError, NameError): pass return result # 主程式 if __name__=="__main__": if len(sys.argv) < 2: print(u'需要輸入 2 份文件') exit() trainFileName = sys.argv[1] trainTokens = getTokensFromFile(trainFileName) trainTokenFrequency = getTokenFreqList(trainTokens) testFileName = sys.argv[2] testTokens = getTokensFromFile(testFileName) testTokenFrequency = getTokenFreqList(testTokens) wordFrequencyPair = [trainTokenFrequency, testTokenFrequency] print getDocSimilarity(wordFrequencyPair, 1)

運行結果：