文書画像から文字データを抽出

Googleドキュメントの光学文字認識機能の利用

近代デジタルライブラリーが提供している書籍データはすべて光学的読取装置でスキャンされた画像(写真と同じ)である.ファイル形式はPDFあるいはJPGである.

画像ファイルとして保存された電子ドキュメントは画面上で見る場合には紙資料と同じ内容が再現できるが,文章や文字をコピーすることができないなどテキ ストの再利用に大きな制限がある.言い換えると,ワープロで書いた文章をPDF化した場合,PDFファイルから文章の一部を切り出し文字データとしてコピー&ペーストすることができるが,印刷した紙面をスキャンした画像データからは同様の処理はできない.

したがって,書籍のスキャンデータを文字に変換するには画像の形を認識し,同じ形の文字を選び出す必要がある.そのような処理を機械的に行なってくれるソフトが開発されている.しかし,古い資料には,紙面の変色,活字の質,インクの変質など画像自体の質が悪く,目で読み取ってキーボードから入力するしかないものが多い.近代デジタルライブラリーの場合.人間の目で読み取り手で入力する方法しかない資料が多いが,まれに紙が変色していないものも存在する.そうなると光学文字認識(OCR)でテキスト変換できないものかと,つい欲が出てしまう.

OCRのためのアプリケーションを購入してまで試す価値があるものかと迷っていたら,GoogleのドキュメントサービスにOCR機能があることを思い 出した.以前,PDFで試した時はうまくいかなかった.今考えるとファイルが大きすぎたためではないかと思うに至った.そこで,今回はpdfファイルを ページ単位程度で切り出し,JPGで保存したものを用いた.切り出したJPGファイルをGoogleドキュメントにアップロードしたら,不完全ながら変換 してくれた.OCR処理をするには,アップロードの際に「PDF や画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」にチェックを入れる必要がある.

注)OCR, Optical Character Recognition の略で光学文字認識のこと


以下の例を見てほしい.

スクロールすると元資料とその下に変換後の文章を見ることができるが,見にくいので枠下にも示した.

例1 比較的画質が良い画像の場合

(細川氏時代に於ける肥後の土工及び天災地変 肥後国史略 私立熊本県教育会, 1903)

肥後迷惑.jpg

寛 政四年正月十八日肥前固温泉嶽俄に鳴動して火焙岩石濃噴 出し地震四隣に及ひ三月末に至りて止む四月朔日夜山嶽崩壊 して海水雄蔑し島原天草地方死者甚た多し宇土飽田玉名階海 の地は海闊隅に至酎溺死四千六百五十三八田地荒損一一千鶴町 に及ぶ所謂子の年の大海朧な強 ー~ ~ ~~ ~ ~ ~~ 當時三郡昭海の地は西方遙に百雷怒號の昔を聴げども暗夜 串物を排ぜざりしに海浦縣に至り家財船舶読く流失し父子 ・兄弟四方に離散し詰然躇する所を失ひ徒に晩泣するのみ藩

-{ ・~ 郡代荘 屋 に 令し 各地 二 、 ~繍 = 才 連 オ 屋 を 踏 み 生存 者 及 ひ窮 民の 飢餓を

救ひ直傷者を療し死屍を埋め更に荒地を開拓し國民をして 産業に復するを排しめたり


かなりいい加減な変換ではないかと言われるかもしれないが,縦書きの文章でも自動的に判断し変換してくれる.

漢字も古い字体が多数存在するので,元原稿と見比べながら修正する必要があるのは言うまでもない.


例2 紙面が変色している画像の場合

その1(学制50年史 文部省 大正11年)

眠惟フ ニ我カ皇祇皇宗國ヲ離ム ル っ ト宏連ニ徳ラ樹 ッ ル コト深厚ナヅ我カ臣民克ク忠ニ克ク孝ニ億兆心 ヲ 一 ニ シテ世々蕨ノ美ヲ酒セル ハ此レ我ヵ國體ノ精 華ニ シテ教育ノ淵源亦實ニ此ニ存ス南臣民父母ニ孝 ニ 兄弟 ニ 友 ニ 夫婦相和シ朋友相信レ恭倫己) テ持シ 博愛衆 ニ 及 ホ シ學ヲ修 ノ 業『 曹ヒ 以テ智能テ 啓發 レ 徳器ヲ成就シ進テ公亮テ鹿ノ世務ヲ開キ常ニ 國憲ラ 重シ団法 ュ 連ヒ 一 旦緩急ァ レ ”義勇公 ニ 奉シ以テ天 壌無窮ノ皇運ヲ扶重ス へ シ是ノ如キ ハ獨ヮ腺ヵ忠良 ノ臣民ク レ 丿 丿 =~ナ・ ル ニ 足 ラ ン フ ・ス 又 以 テ 編 祀 先 斯 ノ 蓮 ハ 實 我 ノ 遺 風 ヲ 顕彰 "^ ー、 ニ カ 白玉 珊 狂 ニ 遵守 ス へ 『皇宗 ノ 遺訓 ニ ュ 施 シ ナ 学 キ 所 之 ヲ 古 今 一一 通 “ 、' テ 子 孫臣 民 ノ † ラ ス 映峨 " ・・ テ 譲 ラ ・"・〟 臣 民 モ 供 ,一 拳 ~服 ス 2 ラ 中 外 幅 シ テ 糞 玉共徳

ヲ一 ニ セン コ計ヲ庶幾フ

明治二十三年十月三十日

御 名 ーバ 御 璽

私は戦後初の小学一年生だから,教育勅語とは無縁である.コンピュータとは言え,上記のような変換をしたら世が世なら大目玉を食らうこと必至である.

しかし,紙が変色し,汚れが多い割には変換できている例である.


その2(偉人と其生活 足立栗園 著 大正12)

重賢と松洞.jpg

翼 翼と妙解寺松調 此の重寶の國王仁わし時' 其の菩提寺なる妙解寺にて成年' 寺主松洞が顕王を継げて饗應し たこさがある。 其畔' 御馳走にさて' 豆臓をおかしく欄は〝 江にて色を着けなきして興あるも のミして差上げた。 所が重認は一見して眉を蠅め縄か.ろ田舎の果まで' 食物に御幌の暁みを 起し' 之が興に嘘をも嘘をも費やすヾ)いふは憂ふべきこさである。 如何にしたさて・ 豆腐の味 は聾るまじ』 ミいった。 之を聞いて和尚は大に赤面しにさ 、 ふ・ )ー である。 一 ' ' 野 丶 」 又同寺にて松洞が侯に侍鹿した時等此頃は富國は大に豆腐の製法離しくなり' 邸にもおさお さ劣らぬやうに費えます』 さ言上し允尻'侯は反て喜ぱず寺田舎は田舎にてあらん~)そよけれ」 さ答へ た。 又顧廣は此寺へ 詣づる騰中' 成市を過ぎり' 語に洗粉ミいふ強を締の網袋に入れ て寶り出せるを' 駕離の中よむ諦め~『我が所領もか ゝ る物を驚買ふばかわ華奢に赴いたか' こ れやがて目の貧を招く華なり』 さ魏息したさいふ。


その2の画像では,「重賢」は4回でてくるが,まったく認識されなかった.人間は先入観で大幅に補正して「重賢」と読み取るが,コンピュータにそこまで期 待することはできない.紙の変色を薄くするため(見た目で),画像処理ソフトで輝度を上げてやってもほとんど効果はなかった.


結論として使えないことはないが,近代デジタルライブラリーの標準的なデータに対応するように認識能が最適化されれば,もっと改善することはできるはずである.

(2012.6.21)