02 數位文本的製造

從黑手不黑心開始：數位文本的製造

從網站取得：
- 剪貼網頁：OneNote, Endnote, Evernote。
- 下載網站的資料：HTTrack。
  - 操作
    - 執行WebHTTrack Website Copier
    - 敲一下「下一步」
    - 填入「Project name」（名稱）、填入「Project category」（分類）、填入「Base path」（網站儲存的資料夾路徑）-》敲一下「下一步」
    - 選擇要進行的「Action」（執行的動作）、填入「Web Addresses （URL）」（填入要下載的網站網址）、選擇「Set options」-》敲一下「下一步」
    - 更多選擇（通常可以跳過）-》敲一下「完成」。
    - 開始將網站下載到指定的資料夾
- 網站資料：
  - http://vdisk.weibo.com/（搜尋後下載）
  - 漢典古籍（整批下載文字檔，利用類似Wiki的軟體閱讀）。
  - 凡人大傳（有很多文字檔）：http://www.fanren8.com/index.php
自己製造：
- Scan 掃瞄成圖像檔
  - 解析度至少300；若有舊式書名號、私名號，最好調到400。
  - 自動掃瞄
    - 有關自動掃瞄書籍機器的發明。（請Google）
- 辨識圖像檔
  - Acrobat OCR （學校授權軟體）
    - 多語言。
    - 中文有時會切掉一行的尾部。
    - 自動辨識字體。
    - 加上自動翻譯，可以幫助我們閱讀外文、掌握外文材料。
    - 操作：
      - 讀進檔案
      - 敲一下左上方的「工具」選項
      - 敲一下跑出來的輔助視窗的「識別文字」選項
      - 敲一下「在此檔案中」
      - 檢查跳出來的「識別文字」視窗中的選項
      - 如需改變文𢓐中的「語言」（文字），請點選「編輯」
        在「主要OCR語言」中選取文件中的主要語言（文字）
        選好後，按「確定」
      - 按「確定」
      - 開始辨識（有些文件會將辨識鎖定，此時需要密碼才能操作)。
        會自動校正畫面的傾斜度
      - 校正
        選擇「工具」>「識別文字」>「尋找所有嫌疑元素」。頁面上所有的嫌疑元素文字都會包含在方塊中。
  - Acrobat
    - 書籤
      - 可以利用來進行章節區分，以便快速瀏覽（類似於電子目錄）
      - 或標誌頁面
    - 重新編頁碼
      - https://helpx.adobe.com/tw/acrobat/using/manipulating-deleting-renumbering-pdf-pages.html#renumber_pages
    - 註解
      - 可以做圖像研究（？）
      - QDA(Qualitative Data Analysis)-》MaxQDA、NVivo、Atlas.ti
    - 相關網站：
      - http://help.adobe.com/zh_TW/acrobat/X/pro/using/index.html
  - 尚書七號
    - 有病毒疑慮。
    - 辨識率高，大概百分之85以上。
    - 未辨識出來的字，可以直接看圖像校正。
    - 不認識的字，會以看不見的代碼暫代，但會以不同的代碼暫代：如「劄」、「羣」等。
    - 操作：
      - 執行程式
      - 「文件」-》「系統配置」
        「獲取新圖像」-》選擇「簡体」或「簡繁混合」
        「識別」-》選取「自動傾斜校正」
        「確定」
      - 可以利用Acrobat將圖像檔拆成各別的tif檔
        在Acrobat裏打開檔案
        「檔案」-》「另存新檔」-》「影象」-》TIFF
      - 「文件」-》「打開圖像」-》找到所要的資料夾，可以按Ctrl-A選取裏面所有的檔案。
      - 「識別」-》「處理全部文件」-》「開始識別」
      - 「校對」
    - 自動化處理：MacroExpress
學會和電腦說話
- 操作程序。
- 電腦語言、程式設計。

參考資料

http://save-coco.blogspot.tw/2014/06/ocr.html
其他文字辨識OCR介紹與教學：
- http://chung-fly.blogspot.tw/2015/02/ocr.html?spref=fb
Adobe Acrobat之OCR功能教學：
其一；其二
HTTrack使用教學：
- http://changyang319.pixnet.net/blog
以OneNote的OCR功能，擷取圖檔的文字內容(影音教學)：
- http://www.excel.com.tw/index.php/other-member/onenote/148-onenoteocr.html

課程錄影：

https://www.youtube.com/watch?v=t5E-8h6vHBY

Report abuse