前回の記事で書いたように,当時,筆記過程のキーワードで様々な検討を行った.その一つが文字を書く際の筆記の方向性である.文字の筆記の方向性を観察すると,左から右の方向や上から下への方向が極めて多い.下から上に筆記したり,右から左に筆記する場合は多少はあるものの,その頻度はとても少ない.文字を書く際の重要な要素が含まれているという「永字八法」を見ても,多くの筆記方向はこの規則に従っている.
そうなる理由は人間の腕の構造からくるものであろうか?腕の骨格と筋肉の構造から,その制約が生まれるかは,想像してみてもすぐにはわからない.しかし,ペンや筆を持つ手と指の構造を考慮すると,右利きの人にとって,ペンや筆の上部が手前や右側に傾くようにしたほうが,ペンや筆を持ちやすい.傾いた筆やペンを使って文字を書く場合には,たしかに,文字を左から右方向や,上から下方向に筆記するほうが滑らかに筆やペンを動かすことができる.腕の骨格や筋肉の構造は直接的には影響しなくても,ペンや筆という途中の道具との関係において制約が発生していると考えると自然である.文字形状が出来上がる時期に右利きの人が多かったせいであり,もし左利きの人が多かったら現在と異なる文字の形状が出来上がっていったかもしれないと想像すると興味深い.
この性質は,オンライン文字認識における文字の方向性の正規化に利用できる.1文字だけのような少量の文字では何とも言えないが,たくさんの文字があり,その筆記方向の頻度を分析することにより,上から下へ,左から右へのペンの方向性が多くなるように文字列を回転正規化すれば,任意の方向書いた文字列でも正面から書いた文字列に回転正規化することができる.それを発表した論文が文献[1]である.
少量のデータ(例えば1文字)だけでは何も言えないが,沢山のデータ(文字列など)があれば,そのデータの傾向(例えばヒストグラム)から,多くのことがいえるというのは,この例だけではなく,一般的に応用できることであると思う.
[1] 村瀬 洋, 若原 徹, 梅田 三千雄,"ストロークの方向分布を利用した文字・図形の回転正規化," 電子情報通信学会情報・システム部門全国大会, pp.1-86, 1983
私が文字認識を開始した学生時代のことですが,指導教員の一人が研究の別の切り口として手書き文字の個人性の研究を開始した.当時文字認識は多くの研究者が参入し競争の時代であったが,個人性の研究,つまり筆者識別などの研究は研究者の数は少なく,地道に研究を行うには良いテーマであると感じていた.
少し前の記事で述べたように,私が企業の基礎研究所に入社した当時,枠内に筆記した個別文字の認識の研究を手書き文字列認識の研究に発展させたわけであるが,単に認識精度の向上だけでなく,別の切り口も面白いのではないかと思った.そこで,学生時代に指導教員の一人が行っていた個人性の研究に目をつけてみた.個別文字における個人の分析では,はねの方向や,ストロークの傾きなどかなり微妙な特徴を分析しないといけない.一方,手書き文字列における個人性は,個別文字の個人性のような微妙な特徴も重要であるが,たくさんの人が筆記した文字列を見ていると,文字の大きさや縦横比の揺らぎ,文字間隔などの文字ピッチの揺らぎ,文字が直線状に安定して筆記されているかなど,筆記者の癖がかなり影響しているように感じた.自由度が高いほど個人性は多く出現するのは納得性も高く,説明もしやすい.そこで,文字列における文字の配置だけに着目して,個人性を分析し,文字の切り出しの個人的適応化(文献[2])の研究を行った.研究の重要性としては研究全般の中では大きくはないかもしれないが,私個人の中では,当時としては新規性のある異色の研究であったと考えている.
これもアナロジーの一つのバリエーションかもしれないが,対象を変えれば,元の対象と同じように,切り口の異なる研究の展開が可能であると考えられる.
[2] 村瀬 洋, "走書き文字列認識における文字切り出しの個人適応化," 電子情報通信学会論文誌, J72-D-II, No.1, pp.132-139, 1989.
1980年代では,視覚情報,聴覚情報の認識はメディア認識の2大研究対象であった.当然,研究も簡単な対象からより複雑なものへと拡大していく.聴覚情報は,基本的に1次元の時系列の認識である.人間は2つの耳があるのでそれを利用して,音源の方向などの空間的な認識も可能であり,それらの機械認識も興味深い研究対象ではあるものの,やはりニーズが非常に高いのは音声の意味の認識であり,研究も1次元系列の認識が中心になっている.
一方,聴覚情報は人間の目の網膜が2次元のセンサーになっていることで,本質的に2次元情報の認識が中心となる.簡単なものからより複雑なものへと研究対象を並べてみると,個別文字,複数文字列,線図形,一般画像,立体的な空間情報へと広がっていく.当時,前述したように1次元系列の表現方法として,ラティス構造(半順序集合を2端子グラフで表現したもの)に興味を持ち,文字列認識に適用していた.音声や,文字列は本質的に1次元系列であるので,きれいにその枠組みに乗ったのであるが,対象をより複雑にした線図形や一般画像はラティス構造で表現することは簡単ではない.2次元のものを1次元化する方法は,ラスタースキャンなどの方法もあるが,この方法は,1ライン目と2ライン目の相関が強いサイクリックな構造を持っていて,信号処理におけるくし形フィルターなどの別の意味では興味深い構造ではあるが,ラティス構造には適していない.線図形も基本的には2次元構造を持っているが,フローチャートなどの手書き線図形に閉じて考えれば,ペンの動きをX,Y座標の1次元系列ととらえることによりラティス構造との相性は高いことに気がついた.つまり,ラティス構造を用いた手書き線図形認識の手法[3]を提案することができた.
このように研究対象は拡大するものの,データの入力表現などに制限を加えることにより,よりシンプルな別の研究対象の手法を活用することが可能となるわけである.
[3] 村瀬 洋, 若原 徹, 梅田 三千雄, "候補ラティス法による手書きフローチャートのオンライン認識," 電子情報通信学会論文誌, J66-D, No.6, pp.675-682, 1983.