課題内容

概要

古典籍画像の指定領域に含まれるくずし字を認識して，各字のUnicodeを出力する課題です．

1. 課題の難易度

矩形に含まれる文字数に応じて課題の難易度を設定しています．今回は縦方向の3文字を対象としています．

2. 認識対象の文字

認識対象の文字は変体仮名５０種程度です．漢字は含みません．

3. 評価方法

くずし字認識の精度を評価します．評価データの時代・出版社・ジャンルなどで難易度が変わるため、データに対するロバスト性を評価基準に組み込みます．

4. 古典籍とくずし字

日本では千年前からくずし字が一般的に使われてきました．しかし1900年以降，学校ではくずし字を教えなくなったため，一般の人々はくずし字が読めなくなりました．当時の平仮名「変体仮名」には複数の「字母」が存在するため，現代の平仮名とは異なる形の文字を読むには，ある程度の訓練が必要となります．近年は機械によるアプローチでくずし字を読む試みが研究されています．詳しくは、第2回CODHセミナーくずし字チャレンジ〜機械の認識と人間の翻刻の未来〜をご参照ください．くずし字を読むというチャレンジに対して，機械によるアプローチと人間によるアプローチを用いた研究が紹介されてます．

Google Sites

Report abuse