課題内容
概要
概要
右画像のように,古典籍画像の指定領域に含まれるくずし字を認識して,各字のUnicodeを出力する課題です.
1. 課題の難易度
1. 課題の難易度
矩形に含まれる文字数に応じて課題の難易度を設定しています.レベル1は1文字,レベル2は縦方向の3文字,レベル3は縦横方向の3文字以上の文字を含んでいます.
2. 認識対象の文字
2. 認識対象の文字
認識対象の文字は変体かな50種程度です.漢字は含みません.
3. 評価方法
3. 評価方法
くずし字認識の精度とアルゴリズムの独創性を評価します.単純に既存手法を適用したものは独創性の評価が低くなります.また,評価データの時代・出版社・ジャンルなどで難易度が変わるため、データに対するロバスト性も評価基準に組み込みます.
4. 古典籍とくずし字
4. 古典籍とくずし字
1867年以前の書籍を古典籍といいます.筆書きで写本・制作されたため,くずし書きにされた文字で記されています.くずし字は現在では一般に使用されていない平仮名(異体字)であるため,人間でも読むためにある程度の訓練が必要です.近年は機械によるアプローチでくずし字を読む試みが研究されています.詳しくは、第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜をご参照ください.くずし字を読むというチャレンジに対して,機械によるアプローチと人間によるアプローチを用いた研究が紹介されてます.
データセット
データセット
- 人文学オープンデータ共同利用センターが公開している日本古典籍字形データセットを学習データとして用います.
- 右画像のように,本データセットは文書画像 + アノテーション(矩形とくずし字のunicode)で構成されています。赤枠は字の矩形で,各矩形ごとにUnicodeが関連付けられています.
- 現在8万文字が収録されています.2017年4月には40万字に拡張される予定です.