課題内容
概要
概要
古典籍画像の指定領域に含まれるくずし字を認識して,各字のUnicodeを出力する課題です.
1. 課題の難易度
矩形に含まれる文字数に応じて課題の難易度を設定しています.今回は縦方向の3文字を対象としています.
2. 認識対象の文字
認識対象の文字は変体仮名50種程度です.漢字は含みません.
3. 評価方法
くずし字認識の精度を評価します.評価データの時代・出版社・ジャンルなどで難易度が変わるため、データに対するロバスト性を評価基準に組み込みます.
4. 古典籍とくずし字
日本では千年前からくずし字が一般的に使われてきました.しかし1900年以降,学校ではくずし字を教えなくなったため,一般の人々はくずし字が読めなくなりました.当時の平仮名「変体仮名」には複数の「字母」が存在するため,現代の平仮名とは異なる形の文字を読むには,ある程度の訓練が必要となります.近年は機械によるアプローチでくずし字を読む試みが研究されています.詳しくは、第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜をご参照ください.くずし字を読むというチャレンジに対して,機械によるアプローチと人間によるアプローチを用いた研究が紹介されてます.