右画像のように,古典籍画像の指定領域に含まれるくずし字を認識して,各字のUnicodeを出力する課題です.
矩形に含まれる文字数に応じて課題の難易度を設定しています.レベル1は1文字,レベル2は縦方向の3文字,レベル3は縦横方向の3文字以上の文字を含んでいます.
認識対象の文字は変体かな50種程度です.漢字は含みません.
くずし字認識の精度とアルゴリズムの独創性を評価します.単純に既存手法を適用したものは独創性の評価が低くなります.また,評価データの時代・出版社・ジャンルなどで難易度が変わるため、データに対するロバスト性も評価基準に組み込みます.
1867年以前の書籍を古典籍といいます.筆書きで写本・制作されたため,くずし書きにされた文字で記されています.くずし字は現在では一般に使用されていない平仮名(異体字)であるため,人間でも読むためにある程度の訓練が必要です.近年は機械によるアプローチでくずし字を読む試みが研究されています.詳しくは、第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜をご参照ください.くずし字を読むというチャレンジに対して,機械によるアプローチと人間によるアプローチを用いた研究が紹介されてます.