つくしサーチ
AIによる古文の現代語訳
AIによる古文の現代語訳
日本古典籍データセット, IIIF画像,AI,翻刻結果の現代語訳
「くずし字の解読」はコンピュータ支援によって身近なものになったが,解読結果は古文であり,現代文に翻訳する必要がある.つくしサーチ(試行版)は,生成AIによってそれを可能にする試みのひとつである.現時点では,IIIF (International Image Interoperability Framework)に準拠した画像で記録されている日本古典籍データセット(現在3126誌)のみを対象にしている.
「つくしサーチ」の役割
くずし字(画像)→ くずし字翻刻(テキスト化)/古文・漢文 → 現代文翻訳 (→ 時代変化に応じた内容修正)
くずし字を翻刻して,テキスト(古文)を得ることができたとしても,それを現代文に翻訳するのも一苦労する.その段階もAIに助けてもらおうというわけである.
試しに,日本古典籍データセットに登録されている「かてもの」を翻刻し,現代語訳させてみた.古文書は文章や頁区切りが明確でないため,現代語訳させる際は配慮が必要である.
手順1(画面右上部,ボタンの説明)
1.このコマをリストに追加(削除)
2.ページリストを表示
3.AIチャット画面の開閉
手順2(ページリストの表示)
手順3([テキストを表示]を押すと翻刻結果(3コマ)が下部に表示される)
くずし字→翻刻の画面(4コマ)
AIを起動して現代語訳
画面の右側にAIチャッㇳ画面が表示される
文全体,ページリスト,画像領域から選択
史料全体の要約
あなた
本全体の内容をまとめて ←入力
AI (claude-3-5-sonnet)
このテキストは「か手物」という、享和2年(1802年)に刊行された書物の内容を示しています。主な内容は以下の通りです:
1. 飢饉の際に穀物の代用として使える食用可能な草木果実82種についての解説書です。
2. 前米沢藩主・上杉鷹山の命により編纂されました。
3. 各植物の特徴や調理法、また味噌の備蓄方法などが記されています。
4. 具体的な代用食として以下のようなものが紹介されています:
- イタドリの茎
- イチビの実
- ハスの葉
- トチの実
- ゴボウの根と葉
5. それぞれの植物について、調理方法(煮る、灰水につける、乾燥させるなど)や食べる際の注意点が詳しく記されています。
これは飢饉に備えるための実用的な救荒食物の指南書として作られたものです。
ページを指定して現代語訳
あなた
ページリストを翻訳して ←入力
AI (claude-3-5-sonnet)
このテキストは、凶作の年への備えについて述べており、以下のような内容です:
凶作の年への備えとして、その年の世話や気遣いは深くあるべきで、その年になれば手当ても必要です。また、2年3年と不作が続くこともありえないことではないので、食料は余分に蓄えておく必要があります。麦、そば、稷(きび)、ひえの栽培から、菜や大根の乾物の保存まで、毎年しっかりと準備をしておくべきということを述べています。
AIによる「序文」の現代語訳
序文の現代語訳.右側にAOチャット画面
序文の後半(3コマ左頁)
序文の前半(4コマ右頁)
かてものの序文の翻刻結果
凶年備の事年来御世話の下作末
深き気遣は有ましく其年次に当らは
猶も御手当の事はいふまてもなく候へとも
行立かたきものもあるへく又二年三年
つゝきての不作も知へからす然らは飯料
は余計にたくいふへく麦そば稷ひえの
蒔植より菜大こんの干たくはへまて年々
の心遣はいふまてなく其外もろ〱の
かて物をは其相応にまじへて食ふへきニ事候
然とも其品其製法を知らすして生をあや
まる事の御心元なく広く御医者
衆におほせてかて物になるへき品々其
製法まてを撰はせられ候間民々戸々
豊なるけふより万々一の日の心かけ
いたすへく候
現代語訳
凶作に備えることについて、 これまでの不作への対応で 深い心配がありましたが、 その年になったら、 さらなる 対応が必要なことは言うまでもありません。 しかし、 生 活が困難になるものもあり、 また2年3年と続く不作も予 測できません。 そのため、 食料は余分に蓄えておく必要 があり、 麦 そば きび、 ひえを植えることから、 野菜や 大根を干して保存することまで、 年々の心配は言うまで もありません。 その他の様々な食べ物も、それぞれ適切に混ぜて食べるべきです。
ただし、その食材や調理法を知らずに命を危険にさらす ことは心配なので、 広く医師たちに命じて、 食べ物として適する品々とその調理法まで選ばせました。 そのため、 民衆は今の豊かな日から、 万が一の日に備えて心がけるべきです。
参考ページ
[1] かてもの3コマ
[2] かてもの - 24コマ
[3] かてもの4コマ
「つくしサーチ」の中から利用するAIチャットで得られる現代語訳と比較するため,ChatGPTに別途質問してみた.以下はその結果である.「かてもの」の解釈の表現が微妙に異なるが,基本的には同じであり,現代語訳に有用である.
凶年に備えることについて
近年、皆様には不作の年のためにさまざまなご配慮をいただいております。 その年ごとの対応も、もちろん行われていることとは存じますが、それでもなお対処が難しいこともあるでしょう。 また、二年三年と続いて不作になることも予測できません。 そのような場合に備えて、米を余分に蓄えておくのはもちろんのこと、小麦・そば・稗(ひえ)・粟(あわ)などの穀物を蒔き植えるだけでなく、大根や菜などの野菜を干して保存することも、毎年心がけるべきことです。 さらに、それ以外のさまざまな食べ物についても、適宜組み合わせて食べるべきであります。
しかしながら、それらの食材やその調理法を知らずに、誤って命を落とすことがあってはなりません。 そこで、広く医師たちに命じて、食料となる品々やその調理法を選定させました。 これをもとに、民たちは各家庭で、普段から食生活を豊かにするとともに、万が一の飢饉に備えるよう心がけるべきです。
現在のところ,「つくしサーチ(試行版)」は日本古典籍データセットを対象としたテキスト検索サービスである.日本古典籍と生成AIを組み合わせ,過去の文化と現代の人々との距離を縮めるAIを開発することを目指している.開発者は以下のように記している.
「生成AIチャットを使うと、古文に対して現代日本語で質問し、現代日本語で回答が得られます。まるで古文を現代文に自動翻訳しながら、現代語訳を用いて対話するような体験です。もちろんこの翻訳は常に正しいわけではありません。しかし、くずし字や古文が読めない人も古典籍にアクセスできるようになり、現代の人々と古典籍との距離が縮まることが期待できます。」
参考資料
1)KuroNetくずし字認識サービス(2024年4月のブログで紹介)
KuroNetくずし字認識サービスは,IIIF (International Image Interoperability Framework)に
準拠した画像を対象に,RURIを利用した多文字くずし字OCR機能である.ログインすれば無料で利用できる.
2)つくしプロジェクト
つくしサーチ(試行版),生成AIチャット等について
3)「かてもの」(古典籍に登録済)
関連ブログ かてもの (2025.2.20)
4)AIはくずし字が読めるのか?古今集十本による可読率ランキング
(2025.7.10)
編集メモ
つくしサーチ
日本古典籍データセットを対象としたテキスト検索サービス.生成AIチャットを体験するには,つくしサーチから検索するか,日本古典籍データセットの個別ページから,IIIF Tsukushi Viewerのリンクをたどる.
生成AIチャット
日本古典籍との生成AIチャット(試行版)
IIIF Tsukushi Viewerの生成AIチャット機能
「AIを使いながら日本古典籍を読む」を実現する.典籍の閲覧に用いられてきたIIIF (International Image Interoperability Framework)の世界に,大規模言語モデル(LLM)や大規模マルチモーダルモデル(LMM)などの生成AIを接続し,日本古典籍へのアクセス性を向上することを目指している.