課題内容

概要

右画像のように,古典籍画像の指定領域に含まれるくずし字を認識して,各字のUnicodeを出力する課題です.

1. 課題の難易度

矩形に含まれる文字数に応じて課題の難易度を設定しています.レベル1は1文字,レベル2は縦方向の3文字,レベル3は縦横方向の3文字以上の文字を含んでいます.

2. 認識対象の文字

認識対象の文字は変体かな50種程度です.漢字は含みません.

3. 評価方法

くずし字認識の精度とアルゴリズムの独創性を評価します.単純に既存手法を適用したものは独創性の評価が低くなります.また,評価データの時代・出版社・ジャンルなどで難易度が変わるため、データに対するロバスト性も評価基準に組み込みます.

4. 古典籍とくずし字

1867年以前の書籍を古典籍といいます.筆書きで写本・制作されたため,くずし書きにされた文字で記されています.くずし字は現在では一般に使用されていない平仮名(異体字)であるため,人間でも読むためにある程度の訓練が必要です.近年は機械によるアプローチでくずし字を読む試みが研究されています.詳しくは、第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜をご参照ください.くずし字を読むというチャレンジに対して,機械によるアプローチと人間によるアプローチを用いた研究が紹介されてます.

データセット

  • 人文学オープンデータ共同利用センターが公開している日本古典籍字形データセットを学習データとして用います.
  • 右画像のように,本データセットは文書画像 + アノテーション(矩形とくずし字のunicode)で構成されています。赤枠は字の矩形で,各矩形ごとにUnicodeが関連付けられています.
  • 現在8万文字が収録されています.2017年4月には40万字に拡張される予定です.