難読テストデータ

Fax OCRでの手書き文字認識に際しては、ファックスからの文字切り出しに由来する少し特殊な状況に対応する必要があります。それが、「切り出しミス」と「罫線混入」への対応です。我々は、この、切り出しミスおよび罫線混入字の認識精度向上に向けて、それぞれのデータセットを作成しました。各種研究にお役立て頂ければ幸いです。(2018/4/15)

切り出しミスデータ

切り出しミス画像は、A~Eの5クラスに分類してあります。難読字の認識精度向上には、クラスB・C部分を用いた検討が求められると考えられます。

A) 画像上、数値の何処も欠けていない数字

B) 欠けているが、問題なく読むことが

できる数字

C) 欠けにより難読だが、正答しうる

D) 欠けにより難読で、正答しえない

E) 数字と認識できないほど欠けている・その他

データセット中の画像ファイルの統計を以下に示します。

罫線混入画像データ

切り出しミス画像は、A〜Dの4クラスに分類してあります。難読字の認識精度向上には、クラスA部分を用いた検討が求められると考えられます。

A) それなりの頻度で、ありうる罫線混入

B) 極稀に生じうる罫線混入画像

C) 現実的には生じるとは考えにくい罫線混入

D) その他1

以下に、データセット中の画像ファイルの統計を示します。

データの由来

これらのデータセットの生成に際しては、まず、公開中の手書き数字画像データから、ランダムに切り出したり罫線を混入させました。そのうえで、自動生成した画像ファイル群を対象として、10名程度の協力者によりA~Eの目視分類を行い、データセットとしています。元の画像データセット自体が完全に独自収集したものであり、派生した本データセットも、完全にオリジナルのデータとなっています。