近代デジタルライブラリーが提供している書籍データはすべて光学的読取装置でスキャンされた画像(写真と同じ)である.ファイル形式はPDFあるいはJPGである.
画像ファイルとして保存された電子ドキュメントは画面上で見る場合には紙資料と同じ内容が再現できるが,文章や文字をコピーすることができないなどテキ ストの再利用に大きな制限がある.言い換えると,ワープロで書いた文章をPDF化した場合,PDFファイルから文章の一部を切り出し文字データとしてコピー&ペーストすることができるが,印刷した紙面をスキャンした画像データからは同様の処理はできない.
したがって,書籍のスキャンデータを文字に変換するには画像の形を認識し,同じ形の文字を選び出す必要がある.そのような処理を機械的に行なってくれるソフトが開発されている.しかし,古い資料には,紙面の変色,活字の質,インクの変質など画像自体の質が悪く,目で読み取ってキーボードから入力するしかないものが多い.近代デジタルライブラリーの場合.人間の目で読み取り手で入力する方法しかない資料が多いが,まれに紙が変色していないものも存在する.そうなると光学文字認識(OCR)でテキスト変換できないものかと,つい欲が出てしまう.
OCRのためのアプリケーションを購入してまで試す価値があるものかと迷っていたら,GoogleのドキュメントサービスにOCR機能があることを思い 出した.以前,PDFで試した時はうまくいかなかった.今考えるとファイルが大きすぎたためではないかと思うに至った.そこで,今回はpdfファイルを ページ単位程度で切り出し,JPGで保存したものを用いた.切り出したJPGファイルをGoogleドキュメントにアップロードしたら,不完全ながら変換 してくれた.OCR処理をするには,アップロードの際に「PDF や画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」にチェックを入れる必要がある.
注)OCR, Optical Character Recognition の略で光学文字認識のこと
以下の例を見てほしい.
スクロールすると元資料とその下に変換後の文章を見ることができるが,見にくいので枠下にも示した.
(細川氏時代に於ける肥後の土工及び天災地変 肥後国史略 私立熊本県教育会, 1903)
かなりいい加減な変換ではないかと言われるかもしれないが,縦書きの文章でも自動的に判断し変換してくれる.
漢字も古い字体が多数存在するので,元原稿と見比べながら修正する必要があるのは言うまでもない.
眠惟フ ニ我カ皇祇皇宗國ヲ離ム ル っ ト宏連ニ徳ラ樹 ッ ル コト深厚ナヅ我カ臣民克ク忠ニ克ク孝ニ億兆心 ヲ 一 ニ シテ世々蕨ノ美ヲ酒セル ハ此レ我ヵ國體ノ精 華ニ シテ教育ノ淵源亦實ニ此ニ存ス南臣民父母ニ孝 ニ 兄弟 ニ 友 ニ 夫婦相和シ朋友相信レ恭倫己) テ持シ 博愛衆 ニ 及 ホ シ學ヲ修 ノ 業『 曹ヒ 以テ智能テ 啓發 レ 徳器ヲ成就シ進テ公亮テ鹿ノ世務ヲ開キ常ニ 國憲ラ 重シ団法 ュ 連ヒ 一 旦緩急ァ レ ”義勇公 ニ 奉シ以テ天 壌無窮ノ皇運ヲ扶重ス へ シ是ノ如キ ハ獨ヮ腺ヵ忠良 ノ臣民ク レ 丿 丿 =~ナ・ ル ニ 足 ラ ン フ ・ス 又 以 テ 編 祀 先 斯 ノ 蓮 ハ 實 我 ノ 遺 風 ヲ 顕彰 "^ ー、 ニ カ 白玉 珊 狂 ニ 遵守 ス へ 『皇宗 ノ 遺訓 ニ ュ 施 シ ナ 学 キ 所 之 ヲ 古 今 一一 通 “ 、' テ 子 孫臣 民 ノ † ラ ス 映峨 " ・・ テ 譲 ラ ・"・〟 臣 民 モ 供 ,一 拳 ~服 ス 2 ラ 中 外 幅 シ テ 糞 玉共徳
ヲ一 ニ セン コ計ヲ庶幾フ
明治二十三年十月三十日
御 名 ーバ 御 璽
私は戦後初の小学一年生だから,教育勅語とは無縁である.コンピュータとは言え,上記のような変換をしたら世が世なら大目玉を食らうこと必至である.
しかし,紙が変色し,汚れが多い割には変換できている例である.
その2の画像では,「重賢」は4回でてくるが,まったく認識されなかった.人間は先入観で大幅に補正して「重賢」と読み取るが,コンピュータにそこまで期 待することはできない.紙の変色を薄くするため(見た目で),画像処理ソフトで輝度を上げてやってもほとんど効果はなかった.
結論として使えないことはないが,近代デジタルライブラリーの標準的なデータに対応するように認識能が最適化されれば,もっと改善することはできるはずである.
(2012.6.21)