前回の記事で書いたように,当時,筆記過程のキーワードで様々な検討を行った.その一つが文字を書く際の筆記の方向性である.文字の筆記の方向性を観察すると,左から右の方向や上から下への方向が極めて多い.下から上に筆記したり,右から左に筆記する場合は多少はあるものの,その頻度はとても少ない.文字を書く際の重要な要素が含まれているという「永字八法」を見ても,多くの筆記方向はこの規則に従っている.
そうなる理由は人間の腕の構造からくるものであろうか?腕の骨格と筋肉の構造から,その制約が生まれるかは,想像してみてもすぐにはわからない.しかし,ペンや筆を持つ手と指の構造を考慮すると,右利きの人にとって,ペンや筆の上部が手前や右側に傾くようにしたほうが,ペンや筆を持ちやすい.傾いた筆やペンを使って文字を書く場合には,たしかに,文字を左から右方向や,上から下方向に筆記するほうが滑らかに筆やペンを動かすことができる.腕の骨格や筋肉の構造は直接的には影響しなくても,ペンや筆という途中の道具との関係において制約が発生していると考えると自然である.文字形状が出来上がる時期に右利きの人が多かったせいであり,もし左利きの人が多かったら現在と異なる文字の形状が出来上がっていったかもしれないと想像すると興味深い.
この性質は,オンライン文字認識における文字の方向性の正規化に利用できる.1文字だけのような少量の文字では何とも言えないが,たくさんの文字があり,その筆記方向の頻度を分析することにより,上から下へ,左から右へのペンの方向性が多くなるように文字列を回転正規化すれば,任意の方向書いた文字列でも正面から書いた文字列に回転正規化することができる.それを発表した論文が文献[1]である.
少量のデータ(例えば1文字)だけでは何も言えないが,沢山のデータ(文字列など)があれば,そのデータの傾向(例えばヒストグラム)から,多くのことがいえるというのは,この例だけではなく,一般的に応用できることであると思う.
[1] 村瀬 洋, 若原 徹, 梅田 三千雄,"ストロークの方向分布を利用した文字・図形の回転正規化," 電子情報通信学会情報・システム部門全国大会, pp.1-86, 1983
私が文字認識を開始した学生時代のことですが,指導教員の一人が研究の別の切り口として手書き文字の個人性の研究を開始した.当時文字認識は多くの研究者が参入し競争の時代であったが,個人性の研究,つまり筆者識別などの研究は研究者の数は少なく,地道に研究を行うには良いテーマであると感じていた.
少し前の記事で述べたように,私が企業の基礎研究所に入社した当時,枠内に筆記した個別文字の認識の研究を手書き文字列認識の研究に発展させたわけであるが,単に認識精度の向上だけでなく,別の切り口も面白いのではないかと思った.そこで,学生時代に指導教員の一人が行っていた個人性の研究に目をつけてみた.個別文字における個人の分析では,はねの方向や,ストロークの傾きなどかなり微妙な特徴を分析しないといけない.一方,手書き文字列における個人性は,個別文字の個人性のような微妙な特徴も重要であるが,たくさんの人が筆記した文字列を見ていると,文字の大きさや縦横比の揺らぎ,文字間隔などの文字ピッチの揺らぎ,文字が直線状に安定して筆記されているかなど,筆記者の癖がかなり影響しているように感じた.自由度が高いほど個人性は多く出現するのは納得性も高く,説明もしやすい.そこで,文字列における文字の配置だけに着目して,個人性を分析し,文字の切り出しの個人的適応化(文献[2])の研究を行った.研究の重要性としては研究全般の中では大きくはないかもしれないが,私個人の中では,当時としては新規性のある異色の研究であったと考えている.
これもアナロジーの一つのバリエーションかもしれないが,対象を変えれば,元の対象と同じように,切り口の異なる研究の展開が可能であると考えられる.
[2] 村瀬 洋, "走書き文字列認識における文字切り出しの個人適応化," 電子情報通信学会論文誌, J72-D-II, No.1, pp.132-139, 1989.
1980年代では,視覚情報,聴覚情報の認識はメディア認識の2大研究対象であった.当然,研究も簡単な対象からより複雑なものへと拡大していく.聴覚情報は,基本的に1次元の時系列の認識である.人間は2つの耳があるのでそれを利用して,音源の方向などの空間的な認識も可能であり,それらの機械認識も興味深い研究対象ではあるものの,やはりニーズが非常に高いのは音声の意味の認識であり,研究も1次元系列の認識が中心になっている.
一方,聴覚情報は人間の目の網膜が2次元のセンサーになっていることで,本質的に2次元情報の認識が中心となる.簡単なものからより複雑なものへと研究対象を並べてみると,個別文字,複数文字列,線図形,一般画像,立体的な空間情報へと広がっていく.当時,前述したように1次元系列の表現方法として,ラティス構造(半順序集合を2端子グラフで表現したもの)に興味を持ち,文字列認識に適用していた.音声や,文字列は本質的に1次元系列であるので,きれいにその枠組みに乗ったのであるが,対象をより複雑にした線図形や一般画像はラティス構造で表現することは簡単ではない.2次元のものを1次元化する方法は,ラスタースキャンなどの方法もあるが,この方法は,1ライン目と2ライン目の相関が強いサイクリックな構造を持っていて,信号処理におけるくし形フィルターなどの別の意味では興味深い構造ではあるが,ラティス構造には適していない.線図形も基本的には2次元構造を持っているが,フローチャートなどの手書き線図形に閉じて考えれば,ペンの動きをX,Y座標の1次元系列ととらえることによりラティス構造との相性は高いことに気がついた.つまり,ラティス構造を用いた手書き線図形認識の手法[3]を提案することができた.
このように研究対象は拡大するものの,データの入力表現などに制限を加えることにより,よりシンプルな別の研究対象の手法を活用することが可能となるわけである.
[3] 村瀬 洋, 若原 徹, 梅田 三千雄, "候補ラティス法による手書きフローチャートのオンライン認識," 電子情報通信学会論文誌, J66-D, No.6, pp.675-682, 1983.
1990年代になると,1枚の画像中の物体の認識という研究分野には多くの研究者が参入し,この中で新規性を出すのは簡単ではなくなってきた.そこで,研究対象をさらに複雑なものにすれば,認識手法はそれほど新規性がなくても論文として成立するのではないかと考えた.その背景の中で,研究対象を静止画像から動画像に拡張しようと考えるのは自然である.
最近のAIの技術では複雑な動画像の意味を解釈することができるようになっているものの,当時としてはすぐに複雑な動画像の意味解釈は難しいと考え,なるべく画像中の物体認識などの既存の研究の枠組みで認識できる対象を探そうと考えた.まず考えたのはリップリーディング(読唇術)である.これは当時,すでに何人かの研究者が研究を行っていて,音声認識において入力を音声信号の代わりに画像の信号に置き換えることで実現できる.またリップリーディングは騒音下での音声認識の精度向上にも役立つため,技術的な有用性もある.但し,リップリーディングで精度を向上させるのは文脈の知識など音声認識に類似したさまざまな知識が必要であることが想像され,それらについては音声認識の研究経験の豊富な研究者のほうが有利であると思われるため,画像研究者が少し試して成果が出すことは簡単ではないと考えた.
そこで様々な対象を模索した.人物の動作の認識が良いだろうと考えた.ジェスチャーの認識が考えられるが,動きの自由度も多いし,意味のある動作の時間区間を切り出してくることも簡単そうでない.そこで歩行動作から個人を認識すること(歩容認識)を考えてみた.歩行は周期動作であるために,1周期分の時間区間の切り出しが容易であるし,動きの自由度も少ない.また,それ以前にオンライン筆記文字の個人性の研究を行っていたので,認識対象を個人性にすれば研究として成立すると考えた.つまり「個人性」という過去の研究経験も役にたったわけである.但し,実用性を考えたとき,歩容を認識しても何か役に立つか疑問があったし,多くの研究者が興味を持つかも当時としてはかなり疑問であった.「論文のための研究」になってしまうと思いつつも,とりあえずレターに投稿した.その結果,運よく採択された[4].
1996年のこの論文は,自分の中ではそれほど重要な論文と思っていなかったが,それ以前に「歩容認識(Gait Recognition)」の既存研究がなく,多分初めての「歩容認識」の論文だと思われる.そのため,その後,世界中の多数の研究者がこの論文(レター)を引用してくれ,より優れた認識手法へと発展させてくれた.自分自身では,その後「歩容認識」の研究を継続しなかったため自分の中では単発な研究となったが,その後の監視カメラからの個人認識などセキュリティの分野でも着目される論文となった.2026年5月の現時点で,Google Scholarによれば466件の論文引用数と,そこそこの引用数があり,私の中では引用数が3番目引用数の多い論文となった.当時としては,役に立つとは考えていなかった研究対象も,時代が変われば,実は役に立つこともあるということもわかった.何事も小まめに論文にしておくことの重要性を改めて感じる.
[4] Hiroshi Murase, Rie Sakai, "Moving object recognition in eigenspace representation: Gait analysis and lip reading," Pattern Recognition Letters, Vol.17, pp.155-162, 1996.
工学や情報学の研究の多くは,人間を支援する技術の開発である.何を支援するかというのは何を研究するのかと直結している.私の場合,きれいな文字を書くのが不得意であった.文字認識にはさまざまな応用があるが,下手な手書き文字を認識してきれいなフォントの文字に変換することができれば,とても素晴らしいと思える.
文字の手書きが下手な理由はいろいろ考えられるが,私の場合には小学校の低学年にさかのぼる.読み・書き・そろばんというのは,昔から人間の基本スキルだということで,多くの子供と同じように,私も小学校の低学年の時に,そろばん塾と,習字塾に親のつてで行かされた.習字塾の先生は,私の仲の良い友達の母親であった.最初の数回行った段階で,私の書いた文字にたくさんの赤の修正が入れられ,それがいつも会う友達の母親ということで,子供の私はとても恥ずかしく思い,数回で習字塾に通っただけでやめてしまった.継続していれば上手くなったかどうかはわからないが,それ以降,習字や文字の手書きは嫌いになった.その後,中学生,高校生になってくると,手書き文字の重要性を痛感するようになった.ワープロのない当時は文書のすべてが手書き文字であった.作文や感想文の評価などでも,同じ文章であってもきれいな文字のほうが評価が高くなりそうだし,試験の答案もきれいな文字のほうが有利である.但し,その段階では既に,習字やきれいな文字を書く勉強するという時期でもなく,嫌いなことをわざわざ行う時間もなかった.
大学に入学するとき,子供時代から電気工作が好きであったために工学部の電気科に入学した.学部1年生の時に各講座の先生が研究を紹介する授業があった.その中で,手書きの文字を計算機で認識するという文字認識の話を聞いた.当時は郵便番号の文字認識が実用化されてまもない頃で,文字認識の対象を手書きの仮名などに拡大しようとしていた.情報システムへの文字入力という応用で話はされていたが,すぐに文字の下手な私には,文字をきれいに変換できる素晴らしい研究だと感じた.文字認識研究との素晴らしい出会いだったと思う.さらにその講座名が演算電子工学講座といい,私の好きな電気工作もできそうだということで,4年生の研究室配属ではその研究室を希望し,運よくその研究室に入れた.それ以降,文字認識の研究をとても楽しく行うことができた.
このように,自分自身の不得意な手書きスキルを,支援して助けてくれるという技術開発には,きわめて高いモチベーションで臨むことができたと思う.きっときれいな文字を書くことができる人はそこまでのモチベーションは生まれなかったと思う.大学を卒業後もしばらく手書きの文字や図形を認識する研究ができたことはハッピーだったと思う.これは文字認識に限った話ではなく,一般に自分の不得意なスキルを支援する技術の開発は,高いモチベーションで臨むことができると思う.