02 數位文本的製造

從黑手不黑心開始:數位文本的製造

  • 從網站取得:
    • 剪貼網頁:OneNote, Endnote, Evernote。
    • 下載網站的資料:HTTrack
      • 操作
        • 執行WebHTTrack Website Copier
        • 敲一下「下一步」
        • 填入「Project name」(名稱)、填入「Project category」(分類)、填入「Base path」(網站儲存的資料夾路徑)-》敲一下「下一步」
        • 選擇要進行的「Action」(執行的動作)、填入「Web Addresses (URL)」(填入要下載的網站網址)、選擇「Set options」-》敲一下「下一步」
        • 更多選擇(通常可以跳過)-》敲一下「完成」。
        • 開始將網站下載到指定的資料夾
    • 網站資料:
  • 自己製造:
    • Scan 掃瞄成圖像檔
      • 解析度至少300;若有舊式書名號、私名號,最好調到400。
      • 自動掃瞄
        • 有關自動掃瞄書籍機器的發明。(請Google)
    • 辨識圖像檔
      • Acrobat OCR (學校授權軟體)
        • 多語言。
        • 中文有時會切掉一行的尾部。
        • 自動辨識字體。
        • 加上自動翻譯,可以幫助我們閱讀外文、掌握外文材料。
        • 操作:
          • 讀進檔案
          • 敲一下左上方的「工具」選項
          • 敲一下跑出來的輔助視窗的「識別文字」選項
          • 敲一下「在此檔案中」
          • 檢查跳出來的「識別文字」視窗中的選項
          • 如需改變文𢓐中的「語言」(文字),請點選「編輯」
            • 在「主要OCR語言」中選取文件中的主要語言(文字)
            • 選好後,按「確定」
          • 按「確定」
          • 開始辨識(有些文件會將辨識鎖定,此時需要密碼才能操作)。
            • 會自動校正畫面的傾斜度
          • 校正
            • 選擇「工具」>「識別文字」>「尋找所有嫌疑元素」。頁面上所有的嫌疑元素文字都會包含在方塊中。
      • Acrobat
      • 尚書七號
        • 有病毒疑慮。
        • 辨識率高,大概百分之85以上。
        • 未辨識出來的字,可以直接看圖像校正。
        • 不認識的字,會以看不見的代碼暫代,但會以不同的代碼暫代:如「劄」、「羣」等。
        • 操作:
          • 執行程式
          • 「文件」-》「系統配置」
            • 「獲取新圖像」-》選擇「簡体」或「簡繁混合」
            • 「識別」-》選取「自動傾斜校正」
            • 「確定」
          • 可以利用Acrobat將圖像檔拆成各別的tif檔
            • 在Acrobat裏打開檔案
            • 「檔案」-》「另存新檔」-》「影象」-》TIFF
          • 「文件」-》「打開圖像」-》找到所要的資料夾,可以按Ctrl-A選取裏面所有的檔案。
          • 「識別」-》「處理全部文件」-》「開始識別」
          • 「校對」
        • 自動化處理:MacroExpress
  • 學會和電腦說話
    • 操作程序。
    • 電腦語言、程式設計。

參考資料

課程錄影: