ForJuniorHighStudents

中高生のための脳科学(「脳の中の辞書(事典)を引く」) (ver. 2018_10_12)

(さるところから依頼があり、準備中です。今後、Webリンクを貼ったり、著作権に問題のない画像を掲載したりして、読みやすくする工夫を重ねるつもりです。なお、

このたび、東工大の国際フロンティア理工学プログラム、中高生のための東工大Gateway to Science 第2回「機械と人の脳:AIの先にあるものは」で、言語脳とAIについて、講師をつとめさせていただくことになりました。以下にポスターがリンクされております。

http://www.mono.titech.ac.jp/~kokusai/topics2.html

ここに書かれた内容をわかりやすく説明しようと考えております。

科学に関心のあるお子様をお持ちの方は、どうぞ奮ってお申込み下さい。また近隣の中学高校に伝手をもっていらっしゃる皆様は、口コミで宣伝いただけるとたいへんありがたいです。どうぞよろしくお願い申しあげます。)

あらまし

脳は辞書のようなものです。本物の辞書からコンピュータを使って計算できるものと似たものが、ひとつひとつの単語による脳の反応からも得られるからです。このレクチャーではどう辞書と脳が結びつくか計算モデルを分かりやすく解説します。と同時にそれだけでは意味のAI化に十分でないことも示します。

まず重要な点はそれぞれの単語は脳の中に飛び地のように分散して「存在」していることです(とりあえず、この「存在」という言葉の厳密な定義は措いておきましょう)。単語の場所はバラバラです。辞書の中の秩序や構造と似たものが左中側頭回など脳の中で集中しているにもかかわらず全体としてはバラバラなのです。

さて脳をモデルにしたAIには何が前提として必要でしょうか。言葉の意味を人間のように処理するAIができるには脳の特定の領域が階層化されているモデルが必要です。しかもその領域間のネットワークが確定していることが必要です。しかしそれが脳科学の先端でも分かっているとは言えない。いわゆる言語野(ブロカ野とヴェルニッケ野)は階層化されていないし、その間のネットワーク(弓状束など)も形式的な理解にとどまっています。ノーベル賞の本庶先生の顰に倣って言えば教科書を疑う必要があります。最近の脳科学の論文をいくつか読めばそのことはすぐ分かります。

言語はAIにとって最後の秘境かもしれません。脳の中の階層構造とネットワークを解明し機能のAiモデル化を進めることは将来の君達の課題なのです。このレクチャーでは意味のAi化を実現するのに必要な考えるヒントを提示します。

脳はひとつの辞書?

皆さんの脳をひとつの辞書だと考えてください。皆さんはそこに「イヌ」という単語を引きに行きます。普通の辞書だったら、そこに「イヌ」という言葉の定義が出ていて、皆さんはその単語の定義を確認、あるいは理解すると言うことができます。まさしくその時、皆さんの脳はもうひとつの辞書になっているのです。「イヌ」という単語を確認、あるいは理解する脳は、その時、「イヌ」という単語の意味に関連する場所の信号が高まっています。それらの場所では、脳の活動が高まる(賦活する、とも言います)ので、どんどん酸素を必要とし、酸素を運ぶヘモグロビンが、運んでいないヘモグロビンと比べ、その中の水素原子核がもつ磁石としての振舞いが違うので、電磁的な信号が強く検出されます。これがいわゆる機能的磁気共鳴画像法、すなわちfunctional MRI(fMRI)の原理です。

そうした活動の高まり(賦活)を血流動態反応と言いますが、それが強く見られる脳の場所の信号パターンが、まさしく「イヌ」という単語の意味を別の形でとらえる「表象」になっているのです。どうしてでしょう?たとえば、本としての辞書を引くと、「イヌ」は哺乳類だと書かれています。実はヒトの脳で哺乳類を表す単語や写真に対して反応する領域は、人によって微妙に異なりますが、だいたい決まっています。むろん哺乳類は動物としての形態に特徴があるので、視覚野と呼ばれる後頭葉(大脳の一番後ろの領域)での賦活が強く見られます。でもそれだけではありません。「イヌ」という単語の意味に関連する信号の場所は、どうも脳のいろいろなところに同時に現れるようです。どうも、イヌニューロンとかイヌ領域とか呼べるものはなさそうです(見つけるのが難しいのかもしれません)。単語の意味をあらわす脳内の記憶の場が、脳の中でちりぢりに現れるパターン、これを分散表象と言います。実は、哺乳類を表す脳反応パターンと、「ハンマー」など手道具を表す脳反応パターンは、「機械学習」と呼ばれる方法を用いると、90%以上の精度で判別できることが知られています。

反対に「イヌ」という単語の賦活パターンと「ネコ」という単語の賦活パターンはとても類似しています。それらが哺乳類という意味カテゴリーを表すとすれば、単語の意味理解によるそうした脳の賦活パターンは、脳という一種の「辞書」の中で、重要な単語の情報を与えてくれる、まさしく正真正銘の「辞書」だということになるでしょう。

おやおや、それはおかしいぞ、という意見が出てくるかもしれません。「イヌ」という単語や写真に触れてその人の脳で起こる反応は、「イヌ」という単語の辞書的な意味ばかりではないでしょう。イヌの好きな人と嫌いな人では、イヌをかわいいと思う人、愛着のある人では、違ってくるはずです。そうした人の脳の中では線条体と呼ばれる部位の賦活が強く見られる可能性が高いです。大脳基底核と呼ばれるわりと深い領域の一部です。(反対にイヌが嫌いな人は、見た瞬間に扁桃体(amygdala)という領域が賦活するでしょう。) むろん「イヌ」という単語の意味の中に「ペット」という言葉が含まれ、そこから「かわいい」という言葉が連想されるならば、「かわいい」という反応も意味記憶の一部として脳の内部に「辞書化されている」と言えるかもしれませんが。いずれにせよ、脳の中の「辞書」はとても個人的で、個人によって多少違うようではあります。

ところが、今から10年前、カーネギーメロン大学のTom Mitchellという先生が重要な発見をしました。われわれの脳の外にあって誰もが読める「辞書」から、われわれの脳の中にある、隠れた「辞書」の情報を予測できるということです。この発想の原理は極めて単純です。fMRIによって捉えられた「イヌ」という単語の賦活パターンと「ネコ」という単語の賦活パターンが類似している度合い、あるいは「イヌ」という単語の賦活パターンと「ハンマー」という単語の賦活パターンが相違している度合いは、言葉を使って書かれた文書の中にある、それぞれの単語の意味そのものの近さ、遠さによって説明できる、というものです。それでは、単語の意味そのものの近さ、遠さはどうやって計れるでしょう?実は原理としては単純で、たとえば大きな文書(それは本物の辞書そのものであってもかまいません)の中で、「イヌ」、「ネコ」、そして「ハンマー」という単語が「走る」という単語と一緒に現れる回数、そして確率によって数値化できるのです。むろん、「イヌ」、「ネコ」は「走る」ものですが、「ハンマー」はふつう走りません(「走るハンマー」も例外的に存在するかもしれませんが)。これらの単語が文書の中で一緒に出現する確率のことを、「共起確率」といいます。単語の「共起確率」は、単語の「定義」と違い、そこに無い単語にも小さな確率を割り振り、辞書や文書全体の意味の空間を、できるだけなだらかに、連続的にぼかしていきます。そしてまさしく単語の「共起確率」から脳の「賦活パターン」が説明・推測できるのです。しかも、もし「ウサギ」という言葉でどう脳が反応するかfMRIデータが存在しなかったとしても、この「共起確率」から「ウサギ」の賦活パターンを予測できるという利点があります。

このように脳の外と内の二種類の辞書が共鳴しあうかのように、地図どうしの対応関係が作れれば、その写像をもとにいろいろなことがわかり、いろいろなことができてくるはずです。皆さんはどのようなアイデアを思いつきますか?

辞書の仕組みが書かれた場

さて、先に見たように、本当の辞書からの情報で、言葉に対する脳の反応が予測できるならば、脳もある意味でひとつの辞書と見做せるでしょう。辞書といっても、単語相関図という形のマップ(地図)です。単語と単語がどうつながっているか、と考えたとき、ひとつ思いつく形は文の中に単語が並んでいる状態です。単語と単語は文の中では、意味が近いから並んでいる、というよりは、メッセージを伝えるために文法に従って配置される、ということになります。意味が近いとは言っても、同じ文の中にしばしば一緒に現れるとはかぎりません。たとえば関東の「にくまん」と関西の「ぶたまん」はほぼ同じ食品を指しますが、この二つが同時に現れる文脈はネーミングの地域差が話題ということに限られます。しかし同時に現れなくても、それぞれの単語の周りに一緒に現れる(「共起する」と専門用語では言います)単語の出現パターンはそうとう類似していることでしょう。それは「コンビニ」かもしれませんし、「皮」や「あん」かもしれません。そしてMitchellの研究もそうですが、文章中でそれぞれの近傍に共起する単語の出現パターンの類似性から、脳の中の辞書も編纂され、解読されることになるでしょう。重要なのは、単語と単語がどのような同系列の要素群の中に属しているかということです。そしてその要素群は辞書の中にもあり、脳の中にもあります。主に電子文書の収蔵された資料体、あるいはそれを格納する環境のことを、我々はコーパス(corpus)と言います。ラテン語ではこのコーパス(corpus)という言葉は様々な意味をもち、特に肉体(身体)や主要素(主成分)を意味していたことも知られています。つまり辞書も脳も同じコーパス(corpus)なのです。今でもフランス語では身体のことをコール(corps)と呼び、コーパスのことをコルピュス(corpus)と呼んでいることからして、我々はこの多義的な語源を探ることができるわけです。

さて、Mitchellの研究を継承する研究者たちは、辞書における情報の「形」が、対応する脳の中にも見出されると考えました。その「形」とは、「意味記憶(semantic memory)」と呼ばれるものの「形」です。1968年にRoss Quillianはその博士論文の中で、人間は言葉の意味を使いやすいよう、どのように頭の中で保存するかという形式を考えました。そして、単語から単語を連想する反応速度をもとに、単語の上位概念と下位概念の階層構造からなる分類系統樹を、意味記憶の表象として提案しました。たとえばカナリア->鳥->動物->動くという重要な単語の(一本筋の通った)系列を考え、それらをハブと言って、鳥->さえずる、のような、他の様々な単語がリンクして、ちょうど今で言うコンピュータのファイルシステムの階層構造に似たようなものを考えたわけです。昔で言えば、書庫の中に棚や引き出しがあって、そこにファイルが整然と並ぶというイメージでしょうか。現在この根元(root)から枝葉へという、系統樹の形での意味記憶を検索できるサービスとして、WordNetというオンラインの英語概念辞書があります。

http://wordnetweb.princeton.edu/perl/webwn

にdogと入力してどんな関連語情報が得られるか検索してみましょう。WordNetには、ほかに単語と単語の間の類似性を、分類系統樹の中で一方から他方へ移動するまでのステップ数(パス長)として計算するWordNet::Similarityというシステムがあります。この分類系統樹をファイルシステムのようなグラフと考え、その中のノード(点)に位置づけられたふたつの単語間を、最短何ステップで移動できるか計算するわけです(ネットワークを移動する小人のイメージでも思い浮かべてください)。パス長が短ければ短いほど単語間の関連性は強いことになります。

   http://maraca.d.umn.edu/cgi-bin/similarity/similarity.cgi

のword1にdog(イヌ)、word2にwolf(オオカミ), cat(ネコ), pebble(小石), computer(コンピューター)とでも入力してみましょう。類義語を意味するSynsetから情報を得たとして、dogとwolfの関連性は0.33、dogとcatの関連性は0.2、dogとpebbleの関連性は0.1111、dogとcomputerの関連性は0.0909になります。

この結果はわれわれの直観にうまく合致したものでしょう。そして、Mitchellの流れをくむ研究者たちは、こう考えました。辞書というcorpus中の単語間距離は、脳というcorpus(身体)中で単語の意味を考える際の反応間の距離、すなわちどことどこがどのように賦活するか、その脳地図上の反応パターンの類似性と相関するはずだと。この発想は脳と辞書を近づけるために、決定的な選択をしています。つまり、WordNetでは単語の意味理解に伴う知覚・感覚的情報、運動関連性の情報、喚起される感情・情動情報、文脈依存の社会的・文化的情報はなかなか数値化できないで、それらをいったん切り捨てているのです。これらを英語ではまとめてmode(モード)といい、視覚・聴覚のような五感の場合、感覚種などと訳されますが、言語の意味理解そのものにmodeを含めるか含めないかで、神経言語学では議論が戦わされています。そして脳の中では、必ず言葉の定義に帰着する反応に随伴するように、このmodeによる反応が生じているのです。たとえば、イヌとオオカミでどちらが怖い?と聞かれて多くの人はオオカミと答えるでしょうが、WordNetでdogとfear(恐怖)の関連性は0.0667、wolfとfearの関連性は0.05でそんな違いはありません。小石と聞かれてすぐに連想する言葉は「投げる」でしょうし、脳の運動野と呼ばれる領域の中で腕を動かす際に使われる場所が、実際投げる動作をしなくても「小石」という言葉だけで反応するかもしれません(これを認知科学ではエンボディメント認知と言い、後で説明します)。しかし、WordNetでpebbleとthrow(投げる)の関連性は0.0769、dogとthrowの関連性も0.066で、これもそんなに違いはありません。AIが人間の能力を超え、人類から職業を奪い取るのではないかという話題が席巻している現代社会において、computerとhumanの意味の関連性はけっして小さくないはずです。でもWordNetではその値は0.0625で、pebbleと humanの間の0.0714、dogとhumanの間の0.1429に比べても小さいのです。 

これを逆手にとって言うと、WordNetの意味記憶形式である分類系統樹での単語間距離(その逆数を取れば関連性ということになりますが)と似た賦活関連性が、特定の脳の領域の中で見つかれば、その脳領域は感情や感覚や運動、社会性などのmodeに依存しない、純粋に辞書的な意味の処理を担っているamodal(エイモーダルと読んでmodeが不在の)領域だ、ということになります。つまり脳のそれぞれの解剖学的領域ごとに、単語の意味処理がもたらす賦活強度とそれらの相関行列を計算し、一方でWordNet::Similarityで計算した単語の辞書的な関連性を表す相関行列を計算して、両者比較すれば、我々は辞書の世界とぴたり一致した脳という名の辞書を見出すことができるわけです。これを実際に行ったのがScott Fairhallという学者のグループで、彼らはこの方法により、後帯状皮質と後部中側頭回/下側頭回がamodalな意味表象の場であると結論付けました。

言語からAIへ--全体の構想

脳は一つの辞書である、と言ったとき、皆さんは脳のどこかに関連する単語が位置づけられている意味マップをイメージすることでしょう。そのイメージにぴったり合ったものがウェッブ上に存在します。カリフォルニア州立大バークレー校のGalant研究室が2016年Nature誌に発表した意味地図に関するfMRI研究です。彼らの実験では、参加者たちはMRI装置の中でThe Moth Radio Hourという2時間の番組を通しで聴きます。その時の脳反応は、番組で使用された順に単語ごとのfMRIデータとして記録されますが、一方、Mitchellの方法と同様、意味素性(いみそせい)と呼ばれる媒介基本語との間で、大規模言語コーパスにおけるそれらの単語の共起行列が取得されます。この両者間に同じく回帰モデルと呼ばれる方法で関連付けをする計算プログラムを実行すると、semantic maps(http://gallantlab.org/huth2016/)や、pycortex WebGL MRI viewer (brainviewer) (http://gallantlab.org/brainviewer/huthetal2012/)に見られるような、脳の中の辞書を描画することができます。たとえば3次元空間の[10, 69, 77]という画素の位置にはsituation, suspected, victim, suspect, arrest, evidence,...のような同系列の単語が配置されます。 

こうしたマップを描くことができるためには、マップに配置された単語(つまりfMRI実験参加者が聞いた装置の中で聞いた単語)ばかりでなく、それ以外の、実験には使わなかった単語も必要になります。それらはおもに基本的な単語であり、様々な単語とともに意味の特徴を広く掴むための単語です。それらを媒介にし、実験の刺激として使った単語とお互いにどのような確率で文書中に一緒に現れるか、という共起行列を計算に使うことになります。これはMitchellらと基本的に同じ、文書から脳へというアプローチです。つまり脳を一つの辞書であると考える強い立場に立つからこそ、このような脳内の意味マップを描くことができるのです。 しかしこのように単語が脳内に散りばめられる分散表象は、モデルに必要な階層性と相容れません。たしかに単語を識別する、というより単語間の区別をする差異情報は、やはりFairhallらの研究同様に左中側頭回などが握っているようで、各所に分散化しているにしても、意味形成に関与する度合いには場所ごとに濃淡があるようです。しかし、これだけ単語がばらばらにマップされると、そこから意味処理のメカニズムに脳領域間で何らかの規則性・階層性を考えるのは難しいでしょう。

Huthらの実験では、参加者がラジオ番組の朗読を聞き流しているのか、言葉を噛み締めて聴いているのかはわかりませんが、音声刺激の進行の速度から考えて、ある一定時間、感情のモードが持続して働くかもしれませんが(単語を見ていてもmurder, victim, guiltyとかおどろおどろしいものが多いようです)、(「投げる」と聞いて運動野が賦活するような)細かい知覚・運動モードが単語あるいは文節ごとにそのつど発動するとは言えないかもしれません。意味理解の一般的な神経モデルを考える際に、分散表象は情報整理に必要な階層性(そしてネットワーク性)とはうまく合いません。逆に言うと、意味処理中枢を中心に知覚・感覚、運動、感情・情動などの様々なモードの中枢とのネットワークを想定すれば、意味理解の一般的な神経モデルに必要な階層性が得られると考えられます。なぜここで階層性かと言うと、本題に直結するのですが、人工知能(AI)のモデルが脳の構造と機能をある程度模倣して作られるとき、階層を設定した上で階層間のつながりを形式とし、さらにそれを計算機上で実装しなければならないということと関連します。そして脳内の視覚の機能は、まさしくその意味でAIのモデルになっているわけです。ディープラーニングにおける畳み込みネットワークは、個々のニューロンの受容野の差異で階層化され、一次感覚野、高次感覚野の間で構造化された視覚野の機能ネットワークと、対応関係をある程度付けることができます。その意味で言語の場合も視覚と同様、はたしてその脳情報をもとにAIのモデルが作れるか?という問いが必ず立てられることでしょう。

   わたしたちはこれまで、脳はどのような形でどの程度辞書なのか、という問いを立ててきました。そして辞書だけではAIは作れないということの意味を徐々に理解してきました。われわれが実際に生きている場における脳の働きを見ないとAIを創造することにはなりません。意味するとは、言わんとするところのことであり、そこには意思、意志が介在するはずです。言語に関しては脳をシミュレート(模倣)したAIを構想する場合、概念をなまの現実の経験の中に根ざすものとして(これを認知科学の専門用語を使って言うと、記号を「接地」されることによって)、われわれの感覚、運動、感情などの様々なmode(モード)を、計算可能な組み合わせを作り出す辞書空間に統合しない限り、言語機能のAI化は実現が困難でしょう。こうした統合の試みは、AIという問題は俎上に載せられていませんが、たとえばBinderらにより、意味記憶の神経生物学という形で提起されています。Binderらは、意味処理の神経解剖学的モデル化において、高次元収斂領域(high-order convergence zones)という名で、左中・下側頭回と下頭頂小葉に、そうしたmodeを越えたsupramodal(amodal)かつ様々なmodeを統合する機能を見出しました。中側頭回は平均的な意味処理の場として知られており、異論は少ないかもしれませんが、下頭頂小葉、特に角回の役割については諸説紛々としているので、また別のところであらためて論じます。

   それぞれの単語の意味は、脳の賦活と言う点ではこのように「分散表象」という形を取ります。そこで点在する賦活は、脳の様々な領域にまたがっているので、様々な機能がそこに絡んでくると言えるでしょう。動物のように形状の視覚性が強いものは、その単語を考えたとき、視覚野を含む後頭葉の賦活が強く出るかもしれません。また道具のように手足を使って動かす対象は、あたかも実際に手足が動いてしまうように、前頭葉の運動野が名詞に触れただけで反応することも考えられます。これを模倣意味論といい、後で詳しく触れるエンボディメント認知のテーマとなりえます。こうした大脳皮質の様々な賦活は、前に触れたように意味理解の「モード」に関わり、言語機能がもつ身体性という側面を考える上で、興味深いトピックスです。こうした身体的な「分散表象」を計算機上で再現できること、それが言語脳を踏まえたAIへの第一歩でしょう。

   しかし、言語を「差異」の体系、つまりコンピュータの比喩でいえば0,1のビットパターンによるencoding(符号化された)情報の集まりと考えると、そう集約された差異情報が左側頭葉にまとめて保存されて、記憶の場に検索がかけられるようになるという仮説が立てられるかも知れません。ただし、そこでの符号化は、むしろ隠れた符号化で、単語の実態がまとまってそこに刻印されているわけではないでしょう。ただ、意味処理のメカニズムにおいて、中あるいは下側頭回が、ある種、平均的な場、すなわちそこに注目すると単語を判別するモデルの精度が得やすいということは、多くの研究で確かめられているようです。しかし、この点についてはいくつかの注意が必要です。ひとつは意味処理に関する古い古典的な理論からすると、やや場所がずれているということです。その場所は所謂ヴェルニッケ野に隣接してはいますが、完全には一致しません。もうひとつは、そこでコーディングされる言葉はすべてではなく、具体的な名詞が主たる対象だとする、単語の種別に特有な領域と考える見方もあるということです。そろそろ、言語機能の神経基盤に関するモデルについて、歴史的に振り返る必要があるかもしれません。

 言語からAIへ--ネットワークモデル

19世紀以来、脳の中にはふたつの言語関連領域、いわゆる言語野があることが知られていました。左下前頭回にあると考えられるブロカ野、左上側頭回後部を中心に想定されたヴェルニッケ野で、これらは典型的な失語症患者の死後解剖によって明らかになったものです。詳しくは多くの入門書に譲りますが、古くは、ブロカ野は口から発せられる音声言語のコントロールを行い、ヴェルニッケ野は聴いた音声言語から意味を抜きだす機能をもつとされていました。そして1960年代にゲシュヴィントが、両言語野の調音・意味理解の間に機能的なネットワークを想定し、それが弓状束という背側神経線維路に実装されるとする、有名なヴェルニッケ・ゲシュヴィントモデルを提案したわけです。ヴェルニッケ・ゲシュヴィントモデルは、単語と単語との間の正しい文法的つながりを明らかにする統語論と、言葉の記号と意味の間の関係を正しく設定するための意味論を、言語についての脳の機能的解剖学において統合する画期的なものでした。その後、2つの古典的言語野以外に多くの言語関連領域が見出されたことから、Damasioらの実装-媒介-概念システム論など様々なモデルが提示されてきましたが、ヴェルニッケ・ゲシュヴィントモデルは言語機能の脳基盤を考える上でまず考慮すべきものであり、レイヤ(層)とその間のネットワーク(結線)という形式からして、AIの技術開発に重要なインスピレーションを与え続けるだろうと思われます。

しかし、ヴェルニッケ・ゲシュヴィントモデルには根本的な問題があります。それは、文を聞いて意味を理解したり、その文をその通りに復唱したり、さらに単語を組み合わせて文を作ったりする役割分担が、知覚(音声の聴取)と運動(口と舌の筋調節)などのモード(mode)を通じて明確になりすぎていることです。それが単純化すると、ブロカ野は発話、ヴェルニッケ野は意味という抽象的な二元論になり、その二元論に対し、ダイレクトに身体性が与えられてしまう(物理的な実装を持たせてしまう、仕組みとして図式的に固定化されてしまう)わけです。しかし、先に見たとおり、脳の辞書としての側面はもっと複雑で、その中枢、つまり辞書情報のエントリー部は、ヴェルニッケのやや下とか、もっと周縁に位置しています。ヴェルニッケ野はむしろ音声の処理を司る聴覚野の経路に近く、言語記号のもつ音声モードと大きく関わります。言語記号の差異の体系としてのamodal(エイモーダル)な符号化情報の場として、ヴェルニッケ野はあまりふさわしくはありません。ヴェルニッケ野を意味と意味の区別の場として固定してかかるわけにはいかないのです。一方、ブロカ野(下前頭回)は、単に言葉と言葉を文法的に組み立てて文という音を発することに限定されているわけではありません。ヴェルニッケ・ゲシュヴィントモデルでは、ブロカ野の意味処理に対する貢献が規定できないのです。昨今の研究では、ブロカ野とその右半球相同部は、言葉の意味に広がりを与え、意味の世界を豊かにするうえで重要な役割を果たしていることが、ますます明らかにされつつあります。たとえばFriedrichらは、左側頭葉の前部たとえば嗅周皮質など意味領域として注目を集める領域と、ブロカ野など前頭葉下部の間に、意味処理をリアルタイムで(数百ミリセカンドオーダーで)行う腹側ネットワークが存在し、それが鉤状束や最外包のような白質神経繊維路において実装されていると言う理論を打ち立てています。その腹側ネットワークが、同じ側頭葉でも後部のヴェルニッケ野と弓状束を通じ下前頭回と連絡する背側ネットワーク、すなわちヴェルニッケ・ゲシュヴィントモデルと相補的な関係にあることに注意しましょう。なお、fMRIではデータが撮りにくいのですが、側頭葉の先端にある側頭極が意味処理ネットワークのハブであるとするPattersonやRalphらの説も注目に値します。逆に言うと、先に紹介したBinderらの意味記憶の神経基盤理論では、amodalな高次元収斂領域(high-order convergence zones)とその周りに様々にmodalな領域が設定されていますが、意味処理におけるブロカ野の役割が決定的に抜け落ちています。

 新しい言語AIモデルへ

ここで言語とAIを見ていく上で重要なポイントをまとめてみましょう。

i)意味記憶の分散表象を計算機上で再現できること

ii)脳の辞書としての役割を外部知識との関係において実装できること

iii)言葉をビットパターンとして差異のエイモーダル(amodal)な体系化が可能なこと

iv)意味記憶の分散表象を知覚・運動・感情などのモード(mode)に分解できること

そして何よりも

v)階層(レイヤ)と階層(レイヤ)間のネットワークのシンプルな形式で機能と構造を合わせること

です。

こうした前提を満たすモデルを作るために、まずブロカ野とヴェルニッケ野の役割をあらためて認識しなおす必要があります。そしてふたつの古典的言語野の周囲で様々な神経束経路と連絡した、意味の計算統御領域を設定する必要が出てきます。理念的に言うと、ふたつの古典的言語野に「影のように寄り添う」拡張ブロカ野と拡張ヴェルニッケ野と呼びうる領域です。拡張ヴェルニッケ野は、ビットパターンのように隠れてencoding(符号化)された差異情報を集約し、記憶の場に検索がかけられるような計算上のレイヤでしょう。意味の単位の同一性と差異性を明確に規定できる仕組みで、曖昧さや揺らぎはハードウェアの狂いがなければ考慮の対象になりません。反対に、拡張ブロカ野は、意味作用の拡張性や多義性、含蓄などを含んだ豊富な情報を、知覚・運動・感情などのモード依存の経験性領域との間でさかんに受け渡ししているのではないでしょうか。昔から考えられているブロカ野、ヴェルニッケ野は、そうした拡張領域のフロントにおける一種のゲートウェイのように捉えるのが妥当かもしれません。そして意味処理で行われる「計算活動」の様々な現象面を、我々は意味の分散表象と捉えている可能性があります。これらはあくまでまだ仮説モデルの域を出ませんが、そう考える根拠をいくつかの先行研究から示していきたいと思います。

つづく