課題内容

概要

右画像のように，古典籍画像の指定領域に含まれるくずし字を認識して，各字のUnicodeを出力する課題です．

1. 課題の難易度

矩形に含まれる文字数に応じて課題の難易度を設定しています．レベル1は1文字，レベル2は縦方向の3文字，レベル3は縦横方向の3文字以上の文字を含んでいます．

2. 認識対象の文字

認識対象の文字は変体かな５０種程度です．漢字は含みません．

3. 評価方法

くずし字認識の精度とアルゴリズムの独創性を評価します．単純に既存手法を適用したものは独創性の評価が低くなります．また，評価データの時代・出版社・ジャンルなどで難易度が変わるため、データに対するロバスト性も評価基準に組み込みます．

4. 古典籍とくずし字

1867年以前の書籍を古典籍といいます．筆書きで写本・制作されたため，くずし書きにされた文字で記されています．くずし字は現在では一般に使用されていない平仮名（異体字）であるため，人間でも読むためにある程度の訓練が必要です．近年は機械によるアプローチでくずし字を読む試みが研究されています．詳しくは、第2回CODHセミナーくずし字チャレンジ〜機械の認識と人間の翻刻の未来〜をご参照ください．くずし字を読むというチャレンジに対して，機械によるアプローチと人間によるアプローチを用いた研究が紹介されてます．

データセット

人文学オープンデータ共同利用センターが公開している日本古典籍字形データセットを学習データとして用います．
右画像のように，本データセットは文書画像 + アノテーション（矩形とくずし字のunicode）で構成されています。赤枠は字の矩形で，各矩形ごとにUnicodeが関連付けられています．
現在8万文字が収録されています．2017年4月には40万字に拡張される予定です．

Google Sites

Report abuse