02 數位文本的製造
從黑手不黑心開始:數位文本的製造
- 從網站取得:
- 剪貼網頁:OneNote, Endnote, Evernote。
- 下載網站的資料:HTTrack。
- 操作
- 執行WebHTTrack Website Copier
- 敲一下「下一步」
- 填入「Project name」(名稱)、填入「Project category」(分類)、填入「Base path」(網站儲存的資料夾路徑)-》敲一下「下一步」
- 選擇要進行的「Action」(執行的動作)、填入「Web Addresses (URL)」(填入要下載的網站網址)、選擇「Set options」-》敲一下「下一步」
- 更多選擇(通常可以跳過)-》敲一下「完成」。
- 開始將網站下載到指定的資料夾
- 操作
- 網站資料:
- http://vdisk.weibo.com/(搜尋後下載)
- 漢典古籍(整批下載文字檔,利用類似Wiki的軟體閱讀)。
- 凡人大傳(有很多文字檔):http://www.fanren8.com/index.php
- 自己製造:
- Scan 掃瞄成圖像檔
- 解析度至少300;若有舊式書名號、私名號,最好調到400。
- 自動掃瞄
- 有關自動掃瞄書籍機器的發明。(請Google)
- 辨識圖像檔
- Acrobat OCR (學校授權軟體)
- 多語言。
- 中文有時會切掉一行的尾部。
- 自動辨識字體。
- 加上自動翻譯,可以幫助我們閱讀外文、掌握外文材料。
- 操作:
- 讀進檔案
- 敲一下左上方的「工具」選項
- 敲一下跑出來的輔助視窗的「識別文字」選項
- 敲一下「在此檔案中」
- 檢查跳出來的「識別文字」視窗中的選項
- 如需改變文𢓐中的「語言」(文字),請點選「編輯」
- 在「主要OCR語言」中選取文件中的主要語言(文字)
- 選好後,按「確定」
- 按「確定」
- 開始辨識(有些文件會將辨識鎖定,此時需要密碼才能操作)。
- 會自動校正畫面的傾斜度
- 校正
- 選擇「工具」>「識別文字」>「尋找所有嫌疑元素」。頁面上所有的嫌疑元素文字都會包含在方塊中。
- Acrobat
- 書籤
- 可以利用來進行章節區分,以便快速瀏覽(類似於電子目錄)
- 或標誌頁面
- 重新編頁碼
- 註解
- 可以做圖像研究(?)
- QDA(Qualitative Data Analysis)-》MaxQDA、NVivo、Atlas.ti
- 相關網站:
- 書籤
- 尚書七號
- 有病毒疑慮。
- 辨識率高,大概百分之85以上。
- 未辨識出來的字,可以直接看圖像校正。
- 不認識的字,會以看不見的代碼暫代,但會以不同的代碼暫代:如「劄」、「羣」等。
- 操作:
- 執行程式
- 「文件」-》「系統配置」
- 「獲取新圖像」-》選擇「簡体」或「簡繁混合」
- 「識別」-》選取「自動傾斜校正」
- 「確定」
- 可以利用Acrobat將圖像檔拆成各別的tif檔
- 在Acrobat裏打開檔案
- 「檔案」-》「另存新檔」-》「影象」-》TIFF
- 「文件」-》「打開圖像」-》找到所要的資料夾,可以按Ctrl-A選取裏面所有的檔案。
- 「識別」-》「處理全部文件」-》「開始識別」
- 「校對」
- 自動化處理:MacroExpress
- Acrobat OCR (學校授權軟體)
- Scan 掃瞄成圖像檔
- 學會和電腦說話
- 操作程序。
- 電腦語言、程式設計。
參考資料
- http://save-coco.blogspot.tw/2014/06/ocr.html
- 其他文字辨識OCR介紹與教學:
- Adobe Acrobat之OCR功能教學:
- 其一;其二
- HTTrack使用教學:
- 以OneNote的OCR功能,擷取圖檔的文字內容(影音教學):
課程錄影: