課題内容

概要

古典籍画像の指定領域に含まれるくずし字を認識して,各字のUnicodeを出力する課題です.

1. 課題の難易度

矩形に含まれる文字数に応じて課題の難易度を設定しています.今回は縦方向の3文字を対象としています.

2. 認識対象の文字

認識対象の文字は変体仮名50種程度です.漢字は含みません.

3. 評価方法

くずし字認識の精度を評価します.評価データの時代・出版社・ジャンルなどで難易度が変わるため、データに対するロバスト性を評価基準に組み込みます.

4. 古典籍とくずし字

日本では千年前からくずし字が一般的に使われてきました.しかし1900年以降,学校ではくずし字を教えなくなったため,一般の人々はくずし字が読めなくなりました.当時の平仮名「変体仮名」には複数の「字母」が存在するため,現代の平仮名とは異なる形の文字を読むには,ある程度の訓練が必要となります.近年は機械によるアプローチでくずし字を読む試みが研究されています.詳しくは、第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜をご参照ください.くずし字を読むというチャレンジに対して,機械によるアプローチと人間によるアプローチを用いた研究が紹介されてます.