軟體工具

  • 沒有任何工具是完美的,我們歡迎您提出的改進意見
  • 基本文本分析、統計與語境擷取工具
    • 歷次版本
      • (最新版本2015年4月19日公開版修正「關鍵詞彙語境分析」在處理排除名單時的列印問題
        • 「關鍵詞彙時序分析」和「關鍵詞彙語境分析」都可以排除特定狀況的詞彙;例如,在計算「台大」的時候,可以排除「駐台大使館」中的「台大」。
        • 使用方法:在關鍵詞彙檔案中,如果只寫 "台大",會計算任何的「台大」。如果寫 "台大;駐台大使館,來台大力展示",則會排除分號之後兩個詞彙中的「台大」。
      • 2015年4月10日:多語文本處理能力
        • 把輸出檔案的類型設定為UTF-8,則可以分析多國語文,包含日文等,以UTF-8作為內碼的資料。不過以此操作之後,因為.csv檔案的內容也將以UTF-8內碼儲存,所以Windows上設定來處理BIG5內碼的Excel可能無法直接處理這一些.csv檔案,而只能以文字編輯器開啟這一些資料。
        • 解決先前版本在列印語境資料時、遇到文本資料中百分符號(%)時的中斷問題。
      • 2015年4月5日:類似四月一日的更新,針對已斷詞資料,可以計算詞彙與詞彙本身的共現次數
      • 2015年4月1日:調整共現詞彙的計算
        • 可以處理部分重疊詞彙的共現次數,例如「中國」與「國家」在「開發中國家」的狀況
        • 可以計算詞彙與詞彙本身的共現次數(雖然這樣的功能比較少有需要)
      • 2015年3月24日版本:調整使用者介面,以避免一些不必要之錯誤操作
      • 2015年2月28日版本新加功能:單一文本檔案分割檢視檔案中文內碼中文內碼轉換
      • 2015年1月29日版本
    • 相關說明:2015年1月27日工作坊上課資料,請務必參考後續更新說明
    • 功能摘要:給定所欲研究之文件集合
    • 延伸功能:依個人創意;例如,基於以上的分析功能,可以進行文件集合的比對等
    • 實作語言:Java
    • 工作環境:
      • Windows:通過多方測試;假設使用者的應用軟體是採用BIG5。
      • iOS:因缺乏機器設備,目前未完全測試。
        • 已知問題一:如果檔案路徑有包含空白可能存取會有問題。
        • 已知問題二:針對iOS,我們的輸出檔案採用UTF8內碼;您的應用程式預設內碼如果是BIG5,則需要另外做轉碼工作。
    • 作業模式:基本的圖形介面(GUI)、指令檔案批次操作介面、直接的指令操作介面