古典籍や古文書などに書かれたくずし字をコンピュータが読み取り,現代日本語の文字コード(Unicode)に自動変換するソフトウェア「くずし字OCR」が. いよいよ実用段階に入ったようである.
人文学オープンデータ共同利用センター(CODH)から,くずし字OCR(AIくずし字認識)のサービスが提供され話題になっている.注)OCRはOptical Character Recognitionの(光学的文字認識)の略.
本サイトで提供されているくずし字認識サービスには,KuroNetとKogumaNetの2種類がある.KuroNetは複数の文字を一度に認識する多文字認識,KogumaNetは一文字だけしか認識できないが,最上位の候補だけでなく下位の候補も確認できる.利用する際,いずれも無料で使用できるがKuroNetはログインが必要です.私はGoogleアカウントを用いてログインできた.
一文字だけを気軽に確認したい場合はKogumaNet,本格的にくずし字を翻刻したい場合はKuroNetを利用するように薦めている.
本システムは,International Image Interoperability Framework(略: IIIF)に対応した画像データである必要がある.IIIFとは,画像へのアクセスを標準化し相互運用性を確保するための国際的なコミュニティ活動である.詳細は以下を参照してほしい.
IIIFを用いた高品質/高精細の画像公開と利用事例 | ROIS-DS人
国会図書館の場合, 次図のようなマークが表示されている.
ブラウザの別のタブやウィンドウで,くずし字認識を試したい資料を表示する,
次に,IIIFマニフェストのリンクを探す.たとえば,[錦絵貼り合わせ] (明治20年, 小林新吉刊) の場合は,画像ビューアのアイコン(左上の〇の中にi)をクリックすると書誌情報が表示される.
最下部にIIIFマニフェストURLが表示される.
別ウィンドウのKogumanetくずし字認識ビューアにドロップする.
KogumaNetくずし字ビューアに画像が表示される.
ビューア右上隅のマークをクリックすると文字範囲の指定が可能になるので,1文字を選択する,選択を取り消す時はゴミ箱を選ぶ.一文字を範囲選択した後,青枠をクリックすると少し時間をおいて候補が表示される.この場合は最初の候補の「す」が正解である.
シンプルにビューアを開く方法(追記) 現在機能しない
iiifマーク横のURL上にマウスの矢印を置き,右ボタンを押した際に表示される[Open link in IIIF viewer]を選択する.
今回の資料は明治20年の発刊である.崩し字は時代によって特徴が異なることも解読の手掛かりになる.
多文字のOCRはKuroNetで可能である.以前紹介した続日本紀に書かれている「道君首名」の例を以下に示した.ファイルは古典籍データセットから選択した.
以前紹介した木簡・くずし字解読システム(MOJIZO)では文字画像を準備して貼り付ける必要があったが,KogumaNetではIIIF対応の古文書ファイルが存在すれば手軽に利用可能である.多文字のシステムも使用してみたが非常に便利である.スマホ用のアプリ「みを」も開発されていて,スマホで撮った画像をちゃんと認識し変換てくれる.その試用レポートは別稿で紹介したい.
明治時代には読めた当時の文章を現在読める人は全人口の0.01%にすぎないと言われている.人工知能を駆使したこのようなシステムが日本文化の継承に役に立つことを期待したい.