「力を蓄え,時を待つ」.この言葉は,名古屋大学の私の机の前に10年程度貼ってあった言葉であり,私の好きな言葉の一つである.但し,この言葉は私自身が作ったわけではなく,パナソニックからいただいたカレンダーの中に書かれていた松下幸之助が説いた言葉のようである.
技術が世の中にインパクトを与えるのは,そのアイデアが優れていることはもちろんであるが,それ以外にタイミングが非常に重要である.「力を蓄え」はアイデアが優れていることに対応し,「時を待つ」はタイミングに対応するもので,この両者が一致した時に初めてそのアイデアは評価される.長い期間,技術開発をしていた人間が多く感じる感覚に,「他の人のアイデアが世間的に評価されたときに,同じアイデアは自分も昔考えていた」というものがある.しかしある人は評価され,別の人は評価されない.それは多分,タイミングよくそのアイデアを出すことができなかったことになる.
良いアイデアを出すには力を蓄える以外の方法はないであろう.しかし仮に良いアイデアが出たとしても焦ってはいけない.どのタイミングでそのアイデアを出していくかを冷静にしかも着実に待つ姿勢が大切である.そしてタイミングあった時に一気にそのアイデアをぶつけていくことが,そのアイデアが評価されることになり,それが技術者の喜びとなっていくものである.
研究開発の時に困ったときには,類似した別の研究分野の例を見て,そのアナロジーを勉強すると,とても参考になる.1980年前後の私が新人の時に行っていた研究は文字認識であった.但し文字認識の歴史はそれよりもはるかに古く,私が研究を始めたころにはすでにたくさんのアイデアが提案されていて,研究としてはもう伸びしろはあまり多くないと思われていた.
当時の研究で文字認識に類似した研究は音声認識である.当時の計算機の能力はそれほど高くなく,メモリー容量も大きくない.音声は基本1次元の信号系列であり,文字は2次元の信号系列であったために音声のほうがより早い時期から計算機で処理することが始まり,高度な手法を試すことができたのだと思う.ちょうど音声の研究を行っていた研究室が隣にあり,新人研修のときの周囲の研究紹介の時にきいたのが,音声認識の歴史であった.音声認識は最初は音素のような小さな単位を認識し,次に単語を認識し,その時代に連続音声を認識する研究に進んでいるという話を聞いた.たしかに音声は我々の会話でも連続的に話すので連続音声を認識することには意味がある.これを文字と比較してみた場合,手書きの文字認識では枠内や原稿用紙に書くのはそれほど手間ではないし,活字の認識もピッチの変動がそれほど多くないために,必要性はそれほど高くはないし,新しい研究の方向性としては疑問であった.しかし,ノートのケイ線上に書く場合も少なくはないし,これができれば便利なるのではないかと考えた.
一旦研究の方向性が決まれば,音声認識の歴史の紹介で聞いた「音韻ラティス」と同じアナロジーで文字認識もできると考えた.そこで提案した手法が「候補文字ラティス法」[1]である.この手法はたくさんの候補文字を生成し,それらを文字認識するために,計算量が非常に大きくなり,当時の計算機の性能から考えると実用性は高くなかったかもしれない.しかし,新しい考え方として学会的では評価され電子情報通信学会で学術奨励賞をいただいた.またそれから後に計算機の能力が高くなってきたら,この考え方は多くの研究者が使うようになってきた.
このように新しい研究の方向性がわからなくなったときに,類似した別の研究分野の研究のアナロジーを試すことは,新しい可能性を切り開くチャンスになると考えられる.
[1] 村瀬 洋, 若原 徹, 梅田 三千雄, "候補文字ラティス法による枠無し筆記文字列のオンライン認識," 電子情報通信学会論文誌, J68-D, No.4, pp.765-772, 1985/04/01
私が電気通信研究所に入社した1980年当時の音声認識の研究は,単語レベルの認識から連続音声認識に進化していた.その研究の進化のアナロジーとして,文字認識も1文字1文字を枠内に筆記する文字認識を進化させて,ケイ線上などに連続的に筆記した文字列認識を提案したところ,前述したように学会的に評価された.研究の初めの段階としては,連続音声認識と同じように2端子グラフ(つまりラティス構造)で文字列を表現し,そのグラフを探索することにより,文字の切り出しと認識を同時に行うものであった.
それだけでも十分に新しい研究分野として価値はあったが,このように同じアイデアを異なる対象に適用すると,その対象特有の問題が発生する.対象特有の問題というのは,実は研究の独自性や新規性を主張するのに都合の良い項目となる.横書きの文字列を認識すると,文字特有の,分離有意文字の問題が発生した.これは文字の多くは偏と旁から構成されるが,文字の中には,偏と旁がそれぞれ別の文字として意味を持つものが多数存在するのである.例えば「明」は,「日」+「月」と読むこともできる.人間は文章中の文脈を使ってどちらで読むべきかを判断できる[2]が,個々の文字レベルの知識だけでは,「明」と読むのが良いのか,「日」+「月」と読むのが良いのは一位に決まらない.このような文字が,当時の常用漢字1946文字中,266文字も存在するのである.その例としては,「暗」=「日」+「音」,「横」=「木」+「黄」,「加」=「力」+「口」,「駅」=「馬」+「尺」,「課」=「言」+「果」,などである.この問題は,文字列認識の研究をより深みのある研究にするのに役に立ったと考えている.
ところで漢字は,象形文字から発展して,それを人が簡単に書きやすいように形状が変化してきたものである.しかし,このような分離有意文字が1割以上も発生しているということは,文章を正しく伝えるための文字セットの設計上,好ましいものとは思えない.文字列を歴史的に考えると,実は昔は縦書きが中心であり,横書きが一般化したのは極めて最近の話である.つまり,漢字の形状の進化は縦書きを想定して最適化されてきたものと考えると,文字を科学としてみたときに,より楽しくなる.事実,分離有意文字が縦方向に分離している例はほとんど存在していないことからも,この仮説が的外れではないものと考えられる.このようにある研究は別の研究を生み出し,より興味深い学問として展開していくものであると感じている.
[2] 村瀬 洋, 新谷 幹夫, 若原 徹, 梅田 三千雄, "言語情報を導入した手書き文字列からの文字の切り出しと認識," 電子情報通信学会論文誌, J69-D, No.9, pp.1292-1301, 1986/09/01
同じく1980年に電気通信研究所に新人として着任した時に,最初に上司である室長から与えられた研究テーマは「筆記過程の研究」であった.その背景には,当時,世界的に高く評価されていて,かつ同じ研究部で開発された音声処理分野の研究に「パーコール音声合成」があった.この研究は音声の生成過程,つまり声道の物理的な形状を数学的にモデル化したもので,話としても分かりやすいし,性能も高いものであった.「音声」と「文字」は当時から研究対象として対比して検討されていたために,上記で述べた「アナロジー」の考え方で,音声でうまくいったのならば,文字でもうまくいくのではないかという単純な発想のもと「筆記過程の研究」というテーマ案があがったと思う.しかし,入社間もない24歳の私はまだ視野も狭かったせいもあるかと思うが,かならずしもこれが筋の良い研究とは思えなかった.ちなみにその室長からは,それ以外にも研究面,生活面で非常に多くのことを学び,私自身はとても深く尊敬していた人物ではあったが,このテーマだけは当時少し疑問視していた.
その後,時間をかけて,調査や検討,さらには同じグループの先輩などと議論を行った.発想の原点は,音声が声道を通して生成されるのでそれによって何らかの制約を受けるが,これが音声合成に役立つのならば,筆記された文字が腕という物理的な構造から生成されるものでそこで何らかの制約を受けるので,その制約が手書き文字の変形などに影響を与えるであろうということにある.この筆記過程のモデルが手書き文字認識などに利用できるのではないかというものである.しかし,関連研究を調べていくと次のような研究が見つかった.事故で手を途中でなくした人物が,口や足で文字を書いた場合に,その文字の癖(変形)は手をなくす前の文字の癖が出現するというものである.その事実から生まれる仮説を考えると,手書き文字の変形などの癖は,手の物理的な構造などの筆記過程にあるわけではなく脳の中にあると考えるのが自然であるというものであった.
結局当時は,テーマを変えていくことになったが,今になって,もう少し視野を広げて考えるとどうであろうか?たしかに個人の文字の癖は脳の中にあるが,その脳がどのように文字の癖を学習するかを考えてみる.個人の癖は手があるときに何度も筆記することにより,脳の中に学習され,その後手がなくなっても脳の中に学習された癖が,口や足などの別の生成手段で生成されても,出現するものと考えられる.筆記過程がどのように文字認識に活用できるかは別の問題として,今になって視野を広げて物事を見れば,否定的な論理も実は,必ずしもそれだけではないということを感じる.