熊本大学とTOPPANは,約5万枚の未解読の細川家文書(藩政記録)をTOPPANのAI-OCRを用いて短期間で解読,約950万文字のテキストデータを生成することに成功したと発表した.
注)OCRは,Optical Character Reader(またはRecognition)の略,画像データのテキスト部分を認識し,文字データに変換する光学文字認識機能
細川家文書は,江戸時代に小倉藩主・熊本藩主をつとめた大名細川家に伝来した5万点以上,約288万枚の歴史資料群.
今回はその中で,
細川家奉行所の執務記録である「奉行所日帳」
藩主細川忠利の口頭での命令を日次に記録した「奉書」
参勤中の細川藩主が国元の家老・奉行衆に発した書状の控えである「御国御書案文」
小倉・熊本の惣奉行衆から各業務を担当する奉行たちへ発せられた指示書類の控えである「方々への状控」など,
合計約5万枚の古文書の解読を実現した.
いずれも,研究者でも解読が困難な難易度の高いくずし字で書かれているという.
くずし字文献資料の大規模調査のフロー図(報道発表資料)
くずし字AI-OCRにより作成したテキストデータの活用の具体例がプレスリリースの資料に紹介されている.
テキストデータに対して,「地震」「大雨」「洪水」「虫」「飢」「疫」などの災害に関するキーワードで検索したところ,300件以上の記述が発見された.その中には,これまで知られていなかった自然災害,疫病流行や飢饉など,未知の重要な記述も含まれており,今後研究が進められるという.
次図は,正徳2年(1712)の洪水で,長六橋が流失したことを記述した古文書である.
報道発表資料から引用
古文書のなかには,防災や観光資源の創出・地域の活性化につながる貴重な情報が記されているものがあるという.今後,熊本大学とTOPPANは,更に「細川家文書」の解読と分析を進め,江戸時代の社会史研究の深化に貢献するとともに.新しく発見された災害関連の記録を分析,活用することで,現代における防災意識の醸成,防災計画の策定等にも活用を目指すという.
報道資料には,「くずし字資料の解読システムと連動するキーワード検索システムを構築することにより、江戸時代前期の細川藩領国(小倉領 40 万石から熊本領 54 万石)の、約 90 年間にわたるあらゆる社会的事件や統治制度の変容を示す記述を含んだ資料を即時に検索収集できるようになった」とも記載されている.
今回の成果についての報道内容は,いずれも一見バラ色に見えるが,NHK熊本 熊本WEB特集 クマガジン の「古文書の“くずし字” AIで解読に挑む!(2024年08月23日)」には,AI解読の限界が触れられていて興味深い.熊本大学永青文庫研究センター長 稲葉継陽教授によると,今回の解読の正答率は80%程度,5文字のうち1文字は間違っているとのことである.最終的に専門家が修正した具体的な例が紹介されている.古文書の文字の大きさが一定でないため,前後の文字の一部と見なしたり,読み飛ばす等のため,最終的には人間がチェックする必要があるという.
熊本大学で保管している古文書は,全部で288万枚あり,今回解読した5万枚というのはほんの一部という.熊本藩の出来事を記した書籍としては,細川藩政史研究会編の熊本藩年表稿(1974年3月)があり,熊大レポジトリで閲覧可能である.今回の研究成果が熊本藩年表稿に反映されることを望む.
追記(TOPPANについて)
古文書のほとんどは「くずし字」で書かれているため,現代人にとって判読が困難であり,当時の記録・文献を活用する際の大きな障壁になっている.TOPPANは,これらの課題を解決する新たな手法として,2015年より人間文化研究機構 国文学研究資料館との共同研究を開始.以後,多数の研究機関等とくずし字AI-OCR技術の開発・実証を重ねてきた.
研究成果の一端として,「古文書カメラ」というスマホアプリを公開している.その解読力については,このブログでも取り上げ紹介した.
参考資料
熊本大学とTOPPAN、くずし字AI-OCRを活用した古文書の大規模調査のための独自手法の開発(2024 年7月26日)
NHK熊本 熊本WEB特集 クマガジン の「古文書の“くずし字” AIで解読に挑む!(2024年8月23日)」
古文書カメラ (くずし字, 解読, 凸版印刷)
(2024.9.2)