KuroNetくずし字認識サービス

高精細画像IIIF対応

ROIS-DS人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)が提供しているサービスのひとつに,KuroNetくずし字認識サービス(AI OCR)がある.くずし字の認識手段としては,スマホ用アプリケーションとして「みを」や「古文書カメラ」を紹介したが,今回のアプリはパソコンから使用可能である.史料の画像は,高精細IIIF規格でなければならないが,現在.各地の図書館が画像のIIIF(International Image Interoperability Framework:トリプルアイエフ)化に取り組んでいるので,相互の連携が可能になる点で大変都合がよい..

注:ROIS-DS人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH):情報学・統計学の最新技術を用いて人文学資料(史料)を分析する「データ駆動型人文学」や,人文学研究の成果に基づき構築したデータセットを超学際的に活用する「人文学ビッグデータ」など,オープンサイエンス時代の新しい人文学研究を展開している.

以下.熊本県立図書館が始めたデジタルラギャラリーに収載されている「肥後地誌略」の解読手順をメモした.

熊本県立図書館デジタルギャラリーの場合
検索した資料の右下隅のマニフェストをコピーする.マニフェストの文字がコピーされることがあるので注意が必要.

例  肥後地誌略のマニフェスト

https://wwwb4.musetheque.jp/data/iiif/manifest/00002501/manifest_00002527.json


KuroNetくずし字認識サービス(AI OCR)にアクセスする.使用料金要求されないが,ログインを求められるので,Gmailで登録すればよい.

KuroNetくずし字認識サービス(AI OCR)にマニフェスト(https://で始まるURL)を入力する.次図はマニフェストを貼り付け起動待ち状態

別法:IIIFビューアCuration wiewer)を起動させ,入手済みのマニフェストURLをペーストしてもよい

KuroNetのIIIFビューアに資料が表示される.

必要なページを開く.

右上隅の「□に●マーク」で範囲を選択する.ブルーの選択箇所をクリックすると.以下のような画像が表示されるので,「KumoNetくずし字サービス」を押す.

実行状況,履歴を示す一覧画面(ダッシュボード)へ移行し,予約 :実行,処理 :完了のメニューが表示される.「実行」を押すと解析が開始される.処理が完了したら,下図のように成功:閲覧が表示される.閲覧を押すと,解析結果が文書の上に赤字で表示される.複数のユーザーのジョブが同時間帯に存在すると実行待ち状態で待たされる場合がある.

解読結果

結果の表示様式を変更するには
鹿子木 量平/著勝國治水遺」を例に説明

マニフェストの入力

右ページを認識

結果(赤文字)の標準表示.左下端の「文字メーカー表示」で表示様式を指定,「横方向,縦方向移動量」をスライドで調節する.

結果を横にずらして表示

結果を上書き

KoroNetは使い込んでいないので,明確な評価はできていない.「みを」.「古文書カメラ」の結果と比較してみたい.以上,KuroNetくずし字認識ビューアの使用法について備忘録的説明を記した.