国会図書館デジタルコレクションに収蔵されている古い文書は「画像」として保存されている.ダウンロードする際はPDFフィアルとして保存できるが,最近のワープロで作ったPDF文書とは異なり,コピー&ペーストできない.そのため,引用する際は必要な部分をキーボードから入力する必要がある.面倒と思う人向きには,OCR(光学的文字認識)による入力法があることを以前紹介した.
OCRについては以下の説明を参照してほしい.
OCR(Optical Character Recognition/Reader)とは、手書きや印刷された文字を、イメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術。
ダウンロードしたファイルをプリントアウトした紙原稿をスキャナーで読み取り,専用のOCRアプリで文字変換している人を見掛けたことがあるが,そんなまわりくどいことをする必要はない.Googleのクラウドサービスを利用して,画像ファイルをGoogleドライブに転送すればよい.以前のGoogleドキュメントより認識精度が上がっていると聞いたので,明治時代の「官報」を読む際にテストしてみた.
Googleドライブに文書画像を保存する際に,OCR(光学的文字認識)機能を追加しておけば,自動で文字化することができる.Googleドライブの画面右上端に表示される「歯車マーク」をクリックすると設定画面に移るので,「アップロードしたファイルを変換する」をクリックするだけでよい.
設定画面(以前のように自動では変換されないので,次のステップが必要)
アップロードされたら,ファイルを右クリックして「アプリで開く」から「Googleドキュメント」を選択すればよい.
今回は「官報」(明治22年,縦書き)の文書画像をOCRテストしてみた.構成はゴチャゴチャで画質も悪くOCRに向いていないタイプである.PDFをJPG画像に変換後,不要部分を削除するなど手を加えた(後述).
完全自動で変換した結果を以下に示した.
修正後の文章は以下の通りである.括弧内が正しい文字である.縦書き文書を認識し,文字が大きいと認識度も高い.なお,認識できない場合は星印が表示される.
○熊本地震報告 明治二十二年七月二十八日午後十一時四十分ニ務(発)シタル肥筑地方ノ地震ハ同月三十1(一)日ノ本欄ニ熊本近懸(縣)ノ概況ヲ報シ次テ九州地カ(方)ニ 於ケル午(年)々ノ地震ヲモ報告セシカ今ャ各地ノ報告潮ク到達セシヲ以テ左ニ共(其)質(実)況ヲ詳述セントス(内務省こ( ))
明治二十二年七月二十八日午後十一時四十分熊本懸(縣)下肥後園ニ競(発)盤(震)シ九州全土ァ(ヲ)震ヒ延テ四園(國)四部及中國福(極)四部三(ニ)波及多(シ)其面領(積)海面*(ヲ)合*(セ)*(テ)六千五百三十方里三(ニ)直(亘)杉(レ)—(リ)今先多(ツ)諸測候所及郡市役所n(ヨ)-(リ)到違(達)*(セ)シ地震報告ァ(ヲ)掲撃(挙)スレハ左ノ如シ(記事ハ本文之ヲ記スルヲ以テ省略ス)
國名 郡市名 鞑食略(発震時) 震度 水力(方) 向 性赞(質)
魔镜(肥後) 熊本市 年役(午後)十一味(時)四十分 ,(烈) 南北 上下地平兩動
跑(飽)田邸(郡)年读(午後)十一时(時)三十五分 烈 南東北四 上下地平兩動
山本郡 午後十一時四十分 烈 東四上下地平兩勳
上益城郡 午後十一時三十分 烈 東西地平動
下爸城郡 午後十一時三十分 烈 南東北西地平動
(以下 修正省略)
筑镜 三藏郡 年役十一暗五十五分 强 南西北東地平動
三池郡 午後十一時四十分 强 不詳K&*
圈後 萄池郡 午後十一時零四分 强 東西地平勋
阿蘇郡 午後十一時三十五分 强 南北地平勤
八代郡 午後十一時四十分 强 南西北東地平動
致摩郡 午後十一時 强 南東北四。上下動
筑後 生葉郡 午後十一時二十分 强 南北地平動
スキャンした画像が今回テストした程度の質であれば,どうにか文字化することができるようである.しかし,初期画像データの中に,国名が「肥後」と同じという意味で「〃」の変形文字が使用されていたため,英文字の横列と勘違いするトラブルがあったので,画像から削除した.
資料
変色した文書を文字認識させてみた.テストしたのは以前紹介した画像データ(PDFをJPGに変換後整形)と同じものである.認識能は確実に上がっている.昔の活字は現在のものと異なるものもあるので,系統的に誤認識されることがある.例えば,「と」は「凸版文久見出し明朝」的な書体のため.すべて「ミ」と認識されている.括弧内の文字が正しい文字である.なお,新旧比較のため,古いバージョンのOCR認識結果と較べてほしい.
重賢と妙解寺松洞
比の重賢の園(國)主たりし時、共(其)の菩提寺なる妙解寺にて成(或)年、寺主松洞が領主を離し(請じ)て撃墜(饗応)し たこミ(と)がある。共(其)時、御馳走にミ(と)て、豆腐をおかしく推(拵)べ(へ)、紅にて色を着けなさ(ど)して興あるものミ(と)して差上けた。所が撃(重賢)は一見して眉を鍛(顰)め、「か・(ゝ)る田舎の果まで、食物に継(徒)らの巧みを貸(為)し、之が貸(為)に貼(財)をも暇をも費やすミ(と)いふは憂ふべきこミ(と)である。如何にしたミ(と)て、豆腐の味は鍵(變)るまじ』ミ(と)いつた。之を聞いて和尚は大に赤面したミ(と)いふこミ(と)である。
又同寺にて松洞が侯に侍食した時、『比頃は常(當)國は大に豆腐の製法瀬(精)しくなり、都にもおさおさ劣らぬやうに豊(覚)えます』ミ(と)言上した所、侯は反て喜ばす、『田舎は田舎にてあらんこそよけれ』 ミ(と)答へた。又重賢は比寺へ詣づる途中、或市を過ぎり、某店に洗粉ミ(と)いふ物を槍(繪)の紙袋に入れ
■**(ゴミ?)
て賞(賣)り出せるを、駕籠の中より認め、『我が所領もか、(ゝ)る物を賞(賣)買ふばかり華著に赴いたか、こ れやがて國の貧を招く基なり』ミ(と)敷(歎)息したミ(と)いふ。
GoogleドキュメントのOCRでは「と」は「さ」あるいは「ミ」と変換している.また,「,」は上付き「' 」と認識している.「重賢」はすべて認識できていない.
翼翼(重賢)と妙解寺松調
此の重寶(賢)の國王(主)仁(た)わ(り)し時' (、)其の菩提寺なる妙解寺にて成(或)年'(、) 寺主松洞が顕(領)王(主)を継げ(請じ)て饗應し たこさ(と)がある。 其畔(時)'(、) 御馳走にさ(と)て' 豆臓をおかしく欄(拵)は(へ)〝 江(紅)にて色を着けなき(と)して興あるも のミ(と)して差上げた。 所が重認(賢)は一見して眉を蠅(顰)め縄(,「)か.ろ(かゝる)田舎の果まで'(、) 食物に御幌(徒)の暁(巧)みを 起(為)し'(、) 之が興(為)に嘘(財)をも嘘(暇)をも費やすヾ)(と)いふは憂ふべきこさ(と)である。 如何にしたさて・ (、)豆腐の味 は聾(變)るまじ』 ミ(と)いった。 之を聞いて和尚は大に赤面しに(た)さ(と) 、(い) ふ・ )ー(こと) である。 ?一 ' ' 野 丶 」? 又同寺にて松洞が侯に侍鹿(食)した時等(,『)此頃は富(當)國は大に豆腐の製法離(精)しくなり'(,) 邸(都)にもおさお さ劣らぬやうに費(覚)えます』 さ(と)言上し允尻(所,)'侯は反て喜ぱず寺(,「)田舎は田舎にてあらん~)(こ)そよけれ」 さ(と)答へ た。 又顧廣(重賢)は此寺へ 詣づる騰(途)中' (、)成(或)市を過ぎり'(、) 語(某店)に洗粉ミ(と)いふ強(物)を締(繪)の網(紙)袋に入れ て寶り出せるを' (、)駕離の中よむ(り)諦(認)め~(、)『我が所領もか ゝ る物を驚(売)買ふばかわ(り)華奢に赴いたか' (、)こ れやがて目(国)の貧を招く華(基)なり』 さ(と)魏(嘆)息したさ(と)いふ。
紙面が変色している,焦点が合っていない,ルビがあることを考えると,かなり改善され,十分に使用可能である.結論としては,ひとまわり大きな画像に変換整形してOCR処理すれば,かなり楽をすることができるようである.なお,ダウンロードしたPDFファイルをそのままOCR処理した結果は続編を見てほしい.
引用資料
近代デジタルライブラリー 足立栗園 著 偉人と其生活 大正12 細川重賢の節約と儉約令
国立国会図書館デジタルコレクション ラヂオ研究会 著 八球スーパーヘテロダイン組立図解 昭和4