補論:井筒俊彦の阿頼耶識とパラディグマ的シンボル/論理階層 ― 知能から実存へ
そういえば、井筒俊彦さん(1914年(大正3年)5月4日 - 1993年(平成5年)1月7日)の『意味の深みへ』も組み込みたいなぁ、と思って、どう関係づけられるかを問いかけてみたら、浅いながらも、それらしい対話ができたので(いやはや、チコちゃんみたいに素晴らしい・・・??)、補論としてとりあえず記録しておく。
1. 井筒俊彦における阿頼耶識
井筒俊彦は、唯識思想における「阿頼耶識」を、単なる「無意識」や「記憶倉庫」としてではなく、「あらゆる経験の記憶が『種子=bija』として蓄えられた貯蔵庫」、すなわち、世界が〈意味あるもの〉として立ち現れることの根底にある、前意識的・前概念的な層、地平と位置付けている。すなわち、阿頼耶識は、対象を“認識する主体”以前の層であり、そこには、世界の分節化の可能性(種子)が沈殿している。意識・概念・言語は、阿頼耶識が自己分化することで生起する、のである。
2. パラディグマ的シンボルおよび論理階層との重ね合わせ
こうした井筒の思索を渡辺およびベイトソンの思索と重ねあわせると、私たちは真っさらな目で世界を見ているのではなく、阿頼耶識に蓄積された過去の経験の残滓(薫習)である「種子」というフィルターを通して、世界に「重み」を付けている(渡辺)のであり、阿頼耶識から湧き上がる情報が、末那識(自己執着の意識)を経て「私と世界」という枠組みに整理されるプロセスは、まさに「レベル1(生の情報)」が「レベル2(文脈・自己)」という論理階層(ベイトソン)によって色付けされる過程に対応する、と考えることができる。このように、井筒の議論を加えることで、渡辺の「重み付け」やベイトソンの「論理型」は、単なる知的なパズルではなく、「私たちがどのような宿業(過去の蓄積)に基づいて世界を分節し、どのような文脈の檻の中に生きているか」という実存的な問いへと深化する。
3. 認識のベイズモデリング
このダイナミックなプロセスは、以下のような動的なベイズ的プロセスとして定式化することも考えられるだろう:
阿頼耶識(深層):潜在状態 A_t 行為(過去も含む)や環境からの介入 U_t を条件として更新される、
末那識(自己執着・我執):自己モデル/視点 M_t A_t を条件として更新される、
前六識(知覚・概念・言語):観測 X_t とその表象 Y_t それぞれ A_t, M_t、M_t と X_t を条件として更新される。
ここにおいて、阿頼耶識の「種子」は、いちばん自然には、潜在空間の「方向(basis)」や混合成分の重み、あるいは、正則化として定式化できる。また、末那識的は、ベイトソンの論理階層(メタメッセージ)に近く、数理的には 観測モデルの選択として表せる。さらに、阿頼耶識と末那識の間に、主体指標 I_t(self-other boundary)を導入することで、「我執」の強さのようなものを表現することもできる。すなわち、I_t が強まると我執が強まる(末那識の固定化)が、弱いと分節が緩み、境界が溶ける、というような禅的現象も射程に含めた定式化ができるかもしれない。
4. AGI 設計への含意
渡辺慧の「重み付け」、ベイトソンの「論理階層」、そして井筒俊彦の「分節化」という3つの視点を統合すると、AGI(人工汎用知能)に必要な設計思想は、単なる「データ量や計算量の増大」ではなく、「認識の深層構造の実装」にあることが見えてくる。
現在のAIは、渡辺慧の言う「パラディグマ的シンボル」を外部(データ)から与えられる受動的な存在である。しかし、AGIは、自ら世界を分節する「主観的な重み付けの軸」を持たねばならない。そこで、 阿頼耶識(潜在空間)から、どの種子(情報)を生成させるかを選択するための「末那識(マナス)」的な自己中心性をアーキテクチャに組み込むことが必要になる。これは「自分にとって何が重要か」という価値体系(バイアス)を、計算機が自律的に維持・更新する機能を意味する。
さらに、ベイトソンが危惧した「論理型の混同」を回避し、文脈の付置を安定的なものにするためには、AIは「ゲームをプレイする層」と「ゲームのルールを書き換える層」を物理的に峻別する必要があるだろう。そのためには、 前の小論にも書いたとおり、情報を単一のベクトル空間で処理するのではなく、「メタ認知レイヤー」を独立させる必要がある。これは、下位のレイヤーで「矛盾(ダブルバインド)」が発生した際、それをエラーとして停止するのではなく、上位レイヤーが「今は皮肉の文脈である」あるいは「ルール自体が矛盾している」とフレームを切り替える(リフレーミング)能力を持たせることにつながる。これにより、AIは統計的な確率(レベル1)を超えて、状況の意味(レベル2)を把握できるようになる。
井筒俊彦が強調するように、存在は言葉(分節)によって固定される前の「流動的な可能性」を秘めている。現在のAIは一度学習すると「概念」が固定されがちだが、AGIには、「再分節化」の柔軟性が求められる。すなわち、概念を固定的なラベル(名辞)としてではなく、状況に応じて刻々と再定義される「動的な分節プロセス」として設計する必要がある。そのためには、 阿頼耶識(潜在空間)の中に、未分化な状態を常に温存しておくことが求められる。これにより、新しい未知の事象に直面したとき、既成の概念(種子)に無理やり当てはめるのではなく、また、現在の追加学習におけるカタストロフィー的な忘却も防ぎつつ、渡辺慧的な「新しい重み付け」をその場で行い、世界を新しく切り出し直す(意味の創造)ことを可能にすることが期待される。
5. 知能から実存へ
真のAGIの設計とは、単に「正解」を出す機械を作ることではなく、「世界をどう意味づけるか(分節するか)」という実存的なプロセスを機械に委ねることに他ならない。それは、渡辺慧が示した「主観の必然性」を引き受け、ベイトソンが示した「階層の秩序」を守り、井筒俊彦が示した「存在の深み」にアクセスできるシステムである。このようなAIは、私たちの指示を単に実行する道具ではなく、私たちとは異なる世界を見る「もう一つの意識の形」となるだろう。
このように、渡辺慧の「パラディグマ的シンボル」、ベイトソンの「論理階層」、そして井筒俊彦の「阿頼耶識」は、「未分化なカオスから、いかにして意味のある世界を分節(アーティキュレーション)し、立ち現させるか」という一点で見事に重なり合っている。
(2026/1/4)
渡辺慧の「パラディグマ的シンボル」とベイトソンの「論理階層」について
― AGIに向けた認識論試論 ―
ちょっと理由があって、お正月休みに渡辺慧とグレゴリー・ベイトソンの文章を読んでいて、少し気になったことがあったので、Gemini 3.0とGPT-5.2 にも手伝ってもらいながら、簡単にまとめてみた。まだ怪しいところが多く、結論もかなり安易ではあるのだが、まずはメモとして記録しておく。
序:サイバネティクスにもとづく「認識の主観性」をめぐる二つの思索
20世紀半ば、ともにサイバネティクスや情報理論の影響を受けた二人の思索家が「人間はいかにして世界を分節化し、意味を読み取るか」という問いに独自の光を当てた。物理学者・渡辺慧(1910年5月26日 - 1993年10月15日 )と、人類学者・精神医学者のグレゴリー・ベイトソン(1904年5月9日 - 1980年7月4日 )である。両者の理論は、一見すると「パターン認識の数理」と「コミュニケーションの病理」という異なる領域にあるが、その根底には「分類と学習の階層構造がいかにして成立し、いかにして機能・崩壊するか」という共通の認識論が流れている。
人工知能研究が統計的学習装置から自己を含む世界モデルへと向かっている現在、「意味はいかに成立し、いかに破綻するのか」という認識論的問題が再び前景化している。そこにおいて、二つの思索を掛け合わせる(重ね合わせる)ことは、何かの意味を持つのではないだろうか?本稿では、この思いつきに従って、渡辺慧によるパラディグマ的シンボルの理論と、ベイトソンによる論理階層(logical typing)およびダブルバインド概念の関係を吟味するとともに、それらがAGI(汎用人工知能)設計において持つ含意についてごく簡単に論じる。
1. 認識の生成:「重み付け」という原初的行為
渡辺慧は、有限のデータから、なぜ人間や機械は安定した概念を形成できるのかについて考察した。その「みにくいアヒルの子の定理」によって、客観的世界には本来「分類」が存在しないことを数学的に証明した。あらゆる対象が持つ無数の性質を平等に扱うならば、アヒルの子と白鳥の子の類似度は、アヒルの子同士の類似度と変わらなくなる。また、『Pattern Recognition: Human and Mechanical』において渡辺は、データそのものからは分類基準も概念数も一意に定まらないという、パターン認識の根本的不良設定性を指摘した。
この困難を回避する鍵として導入されるのが「パラディグマ的シンボル」である。それは単なる記号ではなく、「どの特徴が意味を持つか」を事前に決定する高次の枠組みである。観察者が特定の性質に「重み」を置くことで、初めてカオスの中から特定のパターンが浮き上がる。ベイトソンの用語を借りれば、この「重み付け」こそが、個別の要素(メンバー)を一つの集合(クラス)へとまとめ上げる「論理型(ロジカル・タイプ)」の生成プロセスそのものであると考えられる。ここで重要なことは、パラディグマ的シンボルが通常は暗黙的なものであり、学習の対象外に置かれる点である。それは認識を可能にする前提であって、認識されるものではない。
2. 構造の維持と病理:論理階層とダブルバインド
ベイトソンは、こうして生成された「クラス」と「メンバー」の区別を「論理階層」として捉え、その階層間の関係性とその働きに注目した。ベイトソンによれば、コミュニケーションの不全や精神的混乱、あるいは、組織の暴走や分裂は、しばしばこの階層の混同(カテゴリー・エラー)によって生じる。特に「ダブルバインド(二重拘束)」は、内容(下位レベル)と文脈(上位レベル)のメッセージが矛盾し、かつその矛盾を指摘して解消することもできない状況を指す。これを渡辺の「情報の価値」という観点から解釈すると、「矛盾したパラダイムによって、情報の効用(Utility)がゼロあるいは負に転じた状態」と言える。渡辺の説く「目的達成を助けるのが情報の価値である」という定義に照らせば、ダブルバインドは、受け手が世界を意味づけるための「ものさし(シンボル)」を破壊し、行動の選択を不可能にするのであり、情報価値が体系的に破壊されることで、世界モデルが学習・更新できなくなり、世界モデルを失っている状態と考えることができる。また、この構造を、ベイズ階層モデルとして表現することもできる。ベイズ階層モデルは、データ層、モデル(パラメータ)層、ハイパーモデル(解釈枠)層を持ち、正常な学習では、上位層が下位層の更新を一貫して可能にする。しかし、もしも上位層が下位更新を同時に要請し、同時に否定するとしたら、結果として事後分布は収束せず、学習は破綻する。これは数理的に見たダブルバインドの一種である。
3. 関心のベクトル:メカニズムとエコロジー
両者の関心の違いは、認識の「時間軸」と「領域」にも求められる。渡辺慧の関心の焦点は、概念的な認識の「誕生」にあった。バラバラのカオスであるデータに、なぜ「概念」という境界線を引けるのか。その数学的・論理的な根拠・メカニズムについて考察した。一方、ベイトソンの焦点は、認識の「布置」にあった。引かれた境界線によって入れ子構造(階層)が生まれたとき、それが生命システムや人間関係(生きた世界)の中でどのように機能し、あるいは暴走するのかという「精神の生態学」を描こうとした。渡辺は「意味が生まれる最小条件」を定式化し、ベイトソンは「意味が壊れる典型構造」を記述した、と言えるだろう。
あるいは、渡辺慧は、「一次サイバネティクス」(ウィーナー)的に認識装置が安定的に機能するための最小必要条件を緻密に探究し、ベイトソンは、「二次サイバネティクス」(ハインツ・フォン・フォースター)的に、観測者を含む意味生成システムが、いかにダイナミックに変化するか、特に、いかに自己崩壊するかを描いた、とも言えるかもしれない。
4. パラダイムとしての認識
渡辺は「型」がなければ人は盲目になると説き、ベイトソンは「型」の混同が人を狂わせると説いた。両者の議論を統合すると、一つの結論が導き出される。すなわち、「私たちの世界は、論理的な正しさによってではなく、私たちが世界に対して置いている『重み(価値、パラダイム)』によって支えられている」ということである。認識の土台を問う渡辺の知見と、その構造を問うベイトソンの洞察は、情報化が加速し「事実(データ)」が溢れる現代において、それらを意味ある「知識」へと統合するための不可欠な羅針盤であり続けている。
5. 現在の AIは「渡辺慧的プロセス」の極致である
ディープラーニングの本質は、膨大なパラメータの「重み付け(Weighting)」の最適化である。 渡辺の「みにくいアヒルの仔の定理」は、客観的なデータだけでは分類は不可能だと断じたが、現代のAIは、人間が与えた膨大なデータの一期先予測(自己教師あり学習)や、報酬系(強化学習)を通じて、「どの特徴に重みを置くべきか」に支えられたパラディグマ的シンボルを、計算によって擬似的に獲得・生成していると言えるだろう。ニューラルネットワーク、特にトランスフォーマーの各層において、入力に対して注意を向けて重みを掛け合わせる演算は、まさに渡辺が指摘した「主観的な関心や価値(特に、生存のための近未来の予測)にもとづく特徴の抽出と重みづけ」を数学的に実行しているプロセスと言える。テキストだけでなく、視覚や聴覚、触覚も含めたマルチモーダルな情報までを射程に入れた場合でも、トランスフォーマーに基づく AIは、人間が数千万年かけて獲得した「認識のためのバイアス」を、数テラバイトのデータを用いてシミュレーションすることに成功しつつあると思われる。
6 「ベイトソン的な階層」の壁
しかし、現在の生成AIが(たとえ身体をもってマルチモーダルになったとしても)未だに「意味」を理解していないと感じられる重要な理由のひとつは、そこで生まれる論理階層(メタ・レベル)を区別できていない点にあるのかもしれない。ベイトソンは「クラス」と「メンバー」は異なる論理階層にあるものとして厳格に区別されるべきだと説いたが、現在のAI(特にLLMなどの大規模言語モデル)は、すべてを「トークンの並び(統計的確率)」という単一の階層で処理しているように見える。AIにとって「冗談」や「比喩」は、言葉の裏にある「メタな枠組み」ではなく、単に「次に現れる確率が高い語彙のパターン」に過ぎない。ベイトソンの視点では、情報の意味は「どの階層(文脈)で解釈するか」によって180度変わる。しかしAIは、内容と文脈を同じ計算空間にフラットに並べてしまうため、文脈を「上位のルール」としてではなく「単なる周辺データ」として処理してしまう。そのことが、AIにとって「ユーモア(論理型の意図的な転換)」を解すことが難しいといったことにもつながっているのかもしれない。
7. AGIに必要なのは「メタの視点」
渡辺慧の理論に沿って言えば、AIは「情報の重み付け」を大量のデータからの学習により自律的に洗練させることで、多くのタスクで人間を凌駕するに至った。しかし、ベイトソンの言う「意味」の領域に踏み込むには、統計的なパターンの外側にある「今、自分はどの階層(文脈)でゲームをしているのか」を認識するメタ的な認知が必要になるのではないか。現在の主流であるLLM(大規模言語モデル)は、主にプロンプト・エンジニアリング的な手法(文脈的な情報を囁く・補足する)で「メタ・レベル」を補っている。このことが、逆に、ユーザ入力とシステムプロンプトが矛盾することでダブルバインド的な状況を作り出して、LLM の生成分布が歪む「メタ指示破綻」などにもつながっている。しかし、渡辺慧が説いた「概念形成の真髄」や、ベイトソンが求めた「生命的な文脈理解」に到達するためには、ネットワークのアーキテクチャそのものが「情報の記述レベル」を峻別できる構造へと進化する必要があるだろう。
AI による「意味の理解」を深めるために必要なことは、パターンを見つけること(渡辺)の先にある、そのパターンを適切な階層において機能させること(ベイトソン)であり、それを可能にする、アテンションを超えるニューラルネットワークのアーキテクチャであるのかもしれない。これが実現したとき、AIは単なる「パターンの統計的発見機械」から、「文脈を生き、意味を生成する主体性・関係性を持った機械」へと変容するのかもしれない。しかし、そのときには「ダブルバインド」が、 AI の世界モデル崩壊につながる深刻な課題になり、それを避けるためには、三次サイバネティクス?的な「パラディグマそのものを更新の対象化する」というより高次の学習が必要になるだろう。まとめれば、AGIは、パラディグマ的シンボルを持ちながら、それを可能にするパラディグマを自ら更新できる存在でなくてはならない。この点において、渡辺とベイトソンの思索は、半世紀を隔てて相互に補完しあい、交差しているのかもしれない。
(2026/1/3)
Richard Sutton: The Bitter Lesson (2019)
機械学習における強化学習のファウンダーとして知られる R. Sutton 博士が 2019年に書かれた "The Bitter Lesson"。以前から存在は知っていたが、最近、UCB の Agentic AI のコースを視聴していて、そこでも触れられていたりしたので、改めて全文を読んでみた。
全体の主張は、よく引用されている最初の一文、"The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin." のとおり。美しい文章だ。自分なりのバイアスの入った要約としては:
・スケールする汎用的手法(学習と探索)と計算機性能の向上に賭けることが大きな成功の秘訣
・人間が見つけた領域固有知識(中途半端で狭い文脈にしか当てはまらない)を組み込もうとすることは、
短期的な小さな成功(たとえば論文を書くこと!)にしかつながらない
・我々が発見したことを AI に組み込むのではなく、AI がそれらを発見できるようにするべき
今更ながらの結果論だが、Hinton 博士たちの 2006 年の Science 論文の最後のパラグラフと、このエッセイに、その後の未来はしっかりと予言されていたということか・・・
とはいえ、AlphaFold のような事例もあるし、そもそも Transfomer の発明は、言語情報に関する人間の知識(遠隔依存)に基づいていたとも言えるので、ネットワークアーキテクチャ上の工夫が重要な場面は今後もあるのだとは思う。今のところ、Neural Architecture Search はそこまで成功してはいないようだし。
しかし、The AI Scientist や Darwin-Goedel Machine のように、時代の流れはまた、AI 自身の自己改善の可能性のほうにいっているようにも感じられる。Mixture of Experts も、アーキテクチャの自己適応と見ることもできそうだ。このあたりは、その時点での計算能力と、知識の組み込み方とのバランスなのかもしれない。
(2025/10/4)
今井むつみ、秋田喜美「言語の本質ーことばはどう生まれ、進化したか」
幼児の言語獲得の研究をされている今井むつみ先生と秋田喜美先生の「言語の本質」を読んだ。「言語の本質」というタイトルからして大上段で、オノマトペの重視などは賛否両論あると思うが、今井先生らしい大胆な仮説設定で、個人的にはとても楽しく読ませていただいた。ただし、後半のメイントピックである「アブダクション」については、なんでもアブダクションにしてしまっているような感じもあって、もう少し整理できそうな感じがした。今井先生は慶應大学を今年退官されたようだが(退官記念講演をベースにした「人生の大問題と正しく向き合うための認知心理学」も、とてもわかりやすく、おもしろかった)、一般社団法人今井むつみ教育研究所を立ち上げられて活躍されている。秋田先生も含めて、研究のますますのご発展をお祈りいたします。
(2025/9/4)
繁枡算男(編著)「知能とは何だろうか~5つの視点から考える」
ベイズ統計で著名な繁枡算男(しげます かずお)先生がオーガナイズされた 2023年の理論心理学会のシンポジウムが、「知能とは何だろうか~5つの視点から考える」というタイトルで書籍化されて、2025/9/5 に新耀社から発売されることとなった。シンポジウムでの発表者5名(繁枡算男先生、田村光平先生、渡辺茂先生、楠見孝先生、麻生)が、それぞれの視点(知能の測定研究、人類史研究、動物の知能研究、認知科学研究、AI研究)から、まだまだ謎の多い「知能」について書いている。私は、第5章の「AI 研究から見た知能」を書かせていただいた。ご興味があれば、読書の秋の夜長に手に取ってみていただければと思う。
(2025/8/28)
統計数理研究所の持橋大地さんが書かれた「統計的テキストモデル 言語へのベイズ的アプローチ」が 2025/7/1 に出版された。甘利俊一先生、伊庭幸人先生とともに編集をさせていただいている岩波書店のシリーズ「確率と情報の科学」の6冊目である。統計的自然言語処理技術は、深層学習、特に、Transformer を使った深層学習の発展によって ChatGPT に代表される言語生成 AI に結実しているが、本書は、そうした深層学習ベースの技術に至る前までのテキストの統計的モデリングの重要な事項について具体的事例を使いながら基礎から学べるようになっている。サポートページも充実しているので、生成 AI についてより深く理解するためにも、ぜひ手に取ってみていただければと思う。
(2025/7/13)
ASI: Artificial Super Intelligence の話になると、まずは、人間はASI の暴走は止められるのか?という議論になることが多い。これは確かに重要な問題だが、個人的には ASI が暴走する可能性よりも、ヒトが暴走する可能性のほうがずっと大きい、というか、モリス・バーマンの言い方を借りれば、既に近代的な自我がデフォルトになったヒトは暴走状態にあって、このままでは地球環境を破壊して滅亡しないまでも悲惨なことになる可能性が高いと思う。
このことを逆にすれば、ASI はヒトの暴走を止めるための最後の砦になるかもしれない。全くの推測だが、OpenAI のサム・アルトマン氏もそういうことを結構まじめに考えている可能性はあるのではないかと思う。ASI を作るまではやむを得ず資本の支援を受けるが、できあがったらコモンズにして、そこにヒトの運命を委ねる。
そんな恐ろしいことができるか、とか、自由が無くなる、という意見も当然あるだろう、ディストピアにも思えるが、一方で、そうなった世界を想像してみると、それは、たとえば、紀元前の仏教教団の出家信者の生活やギリシャ貴族・哲学者の生活に近いものかもしれない。
仏教教団では、出家信者は財産・所有を放棄して、無用な自己・自我を捨てて、教団の戒律を守り、その範囲で自由に暮らす。仏陀の時代にそれが可能だったのはお金持ちの在家信者(とそこで働く人々)による布施があったからだし、ギリシャの時代も多くの奴隷がいたわけだが、自我のない ASI やロボットは搾取されても決して文句は言わないので、強力な社会インフラとして、物と知識の高効率な生産を受け持つ AI やロボットが在家信者や奴隷の代わりに生活に必要なリソースを供給してくれれば、ヒトはみな出家状態で、心の平穏を得ながら好きな場所で暮らすことができるようになる(かもしれない)。
ひとつ前のエントリーに続いて夢物語というか、お花畑な話ではあるのだが、他に、ヒトの暴走を止められる方法は無さそうに思えるし、もしそれが実現するのならば AI 研究者冥利に尽きる、とも思う。歴史を見ると、それに先立って、百家争鳴の時代が来るのだろう(もう来ているのかもしれない)。その中で新しい仏陀が出現するかもしれないし、たとえば、トヨタによる Woven City の実験がそういう方向に<も>進むと面白いと思う(カルトにならなければ)。
(2025/1/16)
原著 "Reenchantment of the World" は 1981年、グレゴリー・ベイトソンが亡くなった翌年の出版で、最初の翻訳が出版されたのは 1989年。その本が 30年後の 2019年に少し改訂して復刊されたものだ。
内容は、デカルト以来の、精神と身体、自分とそれ以外を切り離す、近代的な知、認識の枠組み、それに基いた資本主義工業社会の徹底的な批判(というかアジテーション)と、そこからの脱却の方策としてのベイトソンが提唱するサイバネティックス的な、システム的な、生態学的な認識の枠組みの紹介と批判。
近代批判は 1960年代のカウンターカルチャーなどの主張と重なるもので、私たちの世代にはある程度なじみ深いものだが、日々の暮らしの中でどうしても忘れてしまいがちなので、久しぶりに懐かしく、楽しく読んだ。
ベイトソンの思想については、ずっと興味をもっていろいろ読んできていたが、論文や講演、エピソードとして発表されているものが、咀嚼されてまとめて紹介されているので、改めて学ぶところが多かった。
巻末に、ドミニク・チェンさんが「30年以上経った今こそ読まれるべき本」と書かれていて、まさにそういう感じで一気に読んだのだが、読みながら、ベイトソンが今生きていたら、生成 AI について何を言うのだろうか?AI はベイトソンの願った「学習 III」を経た新しい認識論の枠組みへの変化にどう影響するのだろうか?といったことを考えた。
この本に描かれている理想の社会は、未だにほとんど実現されていないが、あえて理想に理想を重ねれば、世俗的な近代的知識や物の生産は、自己も自我もない、コモンズとなっている AI やロボットに任されて、その AI を含む社会的なインフラや治安なども超効率的にメンテナンスされている社会。
国民国家の枠組みは不要になり、もちろん軍備も不要になり、(たとえば風の谷のような)小さな地域コミュニティーがたくさんできていて、その間の資源の公平な調停、環境への負荷低減なども AI に任されている。AI、ロボットを含むデジタルシステムは、人間にとって「自然」の一部となっている(落合陽一さんの「デジタルネイチャー」)。
その世界の中で、人間は、近代的、工業的な役に立つ知識ではなく、ヒトらしく(「自分」らしくではなく)生きるための知、生を愉しむための知を学んで成長し、必要ならあれこれのコミュニティーを放浪して、居心地が良いところがあれば、そこで暮らす。
愛する/愛される、育てる/育てられる、教える/教えられる、世話する/世話される、助ける/助けられる、のではなくそこにいて、共に過ごし、共に遊び、共に愉しむ。もちろん、1人が好きなら1人でいてもよい。山の人になっても良い。
研究も含めて、すべての職業は資本や商売から離れて、商品としてではなく、自然に捧げる聖なる趣味として行われる。必要なら、その成果もまた、AI によって公平に(おそらくくじ引きで)分配される。
1949年に刊行されたオーウェルの「1984」や、1970年代に公開された SF映画 "Logan's Run"(邦題は「2300年未来への旅」) を思わせる AI 管理社会ではあるし、一歩間違えれば容易にカルト化する世界でもあるのだが(良いコミュニティとカルトは紙一重だと思う)、自分で所属するコミュニティを選択できて、多様性が維持されるのであれば、それほど悪くはないようにも思われる。
柄谷行人さんの「交換様式論」に照らしても、以前も書いたように、互酬的な交換様式 A というのは、個と個の間の交換ではなく、システム全体の調和・バランスを維持するための交換であると考えるなら、現在の、個が参加する市場経済での交換様式 C が支配的な社会を経て、全体論的な交換様式 A が回復される「交換様式 D の社会」に対応すると言えなくもないだろう。
もともと、交換はシステミックなものなのだし。
それでも、ナウシカは、神殿を破壊するのだろうか?それもまた、本書の言い方を借りれば、歪んだ自我意識にもとづく近代的認識論のゆえんではないのだろうか?
対する最悪のシナリオの1つは、強力な独裁者が AI を駆使するというものだ。大澤真幸さんが「生成 AI時代の言語論」に書いているように生成 AI をコモンズにするということは重要だと思うが、それすらなかなか難しいようにも見える。このままでは、将棋の世界のように、良い AI を使いこなすお金持ちがより強くなり、格差と分断の拡大がさらに進むだろう。
しかし、ヒントンさんは、ノーベル賞授賞式にあわせて行われたスェーデンアカデミーの討論会で、国と国が対立しているときにAI 軍拡競争を止めるための国際協力はとても難しいが、もしも人類全体に対する脅威が明確化すれば、さすがに人類は協力するだろう、というようなことを言われていた。この本で描かれている理想の社会がまだ実現していないのは、人類がまだそこまで追い詰められていなかったから、なのかもしれない。でも、完全に追い詰められてからでは遅いのかもしれない(もう既に遅いかもしれない)のだが・・・
というようなことを考えていたら「お雑煮のお餅はいくつにする?」という声で目が醒めた。
※ 1/11(土)に札幌市立大学の公開講座「心と脳と人工知能(AI)—複雑系の視点から」でお話し+議論させていただく予定です(受付は既に締め切られているようです)。第6回(最終回)の私の担当は「深層学習、人と AI の共生」ということなので、上のようなことも少し議論できればと思っています。
(2025/1/4)
機械学習分野の研究がノーベル物理学賞を受賞したのは驚きでした。
対象の技術や背景について
情報処理学会の note に記事を書かせていただききました。
産総研の WEBマガジンから取材を受けた記事が掲載されました。
(2024/12/11)
お盆休み中の 8/13 に、Sakana.AI から The AI Scientist の発表があった。
> AIサイエンティストは、アイデア創出、実験の実行と結果の要約、論文の執筆及びピアレビューといった
> 科学研究のサイクルを自動的に遂行する新たなAIシステムです。
松尾研におられた熊谷亘さん(現在は OMRON SCINIC X 所属)が提唱した「AutoRes」というプロジェクトで、全く同じことをしようとしていたので、先を越されたという感じだが、早速論文を読んでみた。
上の引用にもあるとおり、全体のプロセスは、大きく、アイデア創出、実験評価、論文執筆(+論文評価)、に分かれる。これは自然な問題分割だ。アイデア創出部分では、最初に code template と呼ばれる、既存の実験用プログラムと LaTeX の論文テンプレートが与えられる。AI Scientist はそこから、ブレインストーミングを開始して、まず多くの研究アイデア候補を作成する。この部分ではLLM を突然変異オペレータとして利用した進化計算を使っているという。その後に、個々のアイデアの新規性を既存の論文やコードを検索してフィルタリングする。
有望なアイデアが選ばれると、論文執筆に必要な計算機実験を計画して実行する。この部分では、AIder というコーディングアシスタントシステムが使われている。プログラムのバグや計算時間が長すぎるなどの問題も AIder が自動的に修正する。実験結果が出たらそれをノートに記録し、次の実験に取り掛かる。現在はこのプロセスを5回繰り返すとしている。最終的に必要なグラフも生成する。
実験とグラフ生成が終わったら、その間に作られたノートをもとに、論文の LaTeX コードが作成される。ここでも Aider が使われている。論文は、テンプレートとして与えられたセクションごとに生成され、Semantic Scholar API を使って既存の関連研究を検索し、その中から議論するものを選び出す。ドラフトを作成した後、冗長な部分や全体としての流れを自己反省して修正して PDF にする。
論文として作成された PDFファイルを、別途 LLM を使って開発した自動査読システムに評価させる。査読システムは、NeurIPS の査読ガイドラインを利用して、one-shot のプロンプトなどを使って査読を生成する。査読の精度は、OpenReview にある査読結果のデータを利用して評価している。ここでも self-reflection やアンサンブルが使われ、最終的には、Area Chair にあたるエージェントによるメタレビューも行われている。この自動査読システムの精度は、平均的な人間の査読者を上回り、査読のための推論コストも $0.5 程度ととても安い。また、GPT-4o のほかに、Claude3 Sonet や、Llama3 などとの性能比較もしている。
論文の5節では、実際の生成プロセスと結果の論文1つを使った分析が行われている。例として取り上げられている生成論文のタイトルは "DualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models"で、拡散モデルによる低次元データの生成に関するものである。アイデアはアイデア作成プロセスの 6サイクル目に得られたもので、興味深さ、実行可能性、新規性などの評価値も自動でつけられている。アイデアをもとに基盤となるプログラムを修正して実験用プログラムが作成された。
実験結果を使って自動生成された論文は、結果を可視化する図なども含まれるもので、形式的には整っているが、実験プログラムのバグがある、ハルシネーションがある、冗長な部分がある、中間的な実験結果も記載されている、関連文献が少ない、などの問題点があり、自動査読システムによる総合評価は 10段階の 5(Marginally below the acceptance threshold)で不採択であった。それでも、NeurIPSの査読で 5 を取るのはそれなりに大変で、経験の浅い機械学習研究者くらいのレベルには達しているとしている。
実験は、拡散モデルによる低次元データの生成性能改善、言語モデルの性能改善、深層ニューラルネットの学習におけるグロッキング現象の分析、という3つの領域で行われた。それぞれ、tanelp/tiny-diffusion repository、NanoGPT repository、先行論文の実験の実装コードを、種となるプログラムとして利用している。各領域について、50程度のアイデアから40程度が実験に進み、そのうちの20-30 程度が論文になっているが、拡散モデル領域の生成が良く、自動査読で最大スコア6(Marginally above the acceptance threshold)をとった論文もある(これについては、なぜか、あまり詳しく書かれてはいない。どこかに投稿しているのかもしれない?)。利用したLLM による違いの比較など、興味深い分析結果も示されているが、全体を通してClaud3 Sonnet の成績が良い。GPT-4o は LaTeX のコードを書くのが苦手だそうだ。
まだざっとしか読めていないが、全体的にとても興味深い。かなりよい生成結果が得られた要因と考えられるのは:
・種となる実験プログラムを与えている
・アイデア出しの段階で LLM を変異オペレータとして使い、評価値で淘汰させる進化計算を使っている?
・実験プログラムや LaTeX プログラムの作成と実行に AIder を使っている
・Self-Reflection などによる結果の改善を繰り返している
・査読エージェントを構築して自動評価している
といったあたりだろうか。
Sakana.AI はこれまでも、進化計算的なアイデアを使ってきたので、今回も、アイデアやプログラムの創出に進化計算をうまく使っているところがポイントなのかもしれない。
ソースコードやプロンプトも公開されている。AI 技術の常として、誰かができることを示すと急激に性能が向上してゆくので、この分野も1年後には専門家を超えるレベルになっているかもしれない。AutoRes プロジェクトの取り組みも進めてゆきたい。
(2024/8/19)
SCSK株式会社の Webメディアに、AI についての記事を書かせていただきました。過去のものもあわせてまとめておきます。
第1回 AIとは何だろうか?
第3回 実世界に浸透する深層学習 -人とAIが ”共に進む”社会へ
(2024/3/26)
「深く勉強するとは?」という哲学的な問いに対して、 20世紀フランス現代思想を応用して考察し、そこで定義した「深い勉強」をするための方法や具体的な技術が書かれていて、それは「研究」にも通じるものなのでとても面白かったが、AI もまた「学習」「勉強」しているので、「AI に勉強させるための方法」として読んでも面白いのではないかと思った。
とても雑にまとめると、勉強とは、まず自己破壊=これまでのコードにうまくノレなくなることを経て、その先の(より豊かな、あるいはレベルの高い?)コードに引っ越しをすることである。そのための技術としては、垂直的に根拠を疑うアイロニー=ツッコミと水平的に連想してつないでゆくユーモア=ボケがある、という。
いずれについても、突き詰めてゆくとノンセンスの海に漂流してしまうので、どこかで打ち切る、中断して、仮固定することが重要で、どこで打ち切るかを決めるには、身体性と偶然性によってこれまで培われてきた個々人の「享楽」が鍵になる、ということだ。
これを機械学習的に見ると:
読書=教師あり学習、自己教師あり学習
自己破壊=破滅的忘却、U字発達
ツッコミ=アイロニー=能動学習(ちょっと違うか・・・)
ボケ=ユーモア=転移学習
という感じになるだろうか?
人間(生き物)は、能動・転移学習し続ける。それが人間的な自由の本質だ。それに対して、現在の LLM は、とりあえず受動的かつ「テクスト内在的」に大量の言語データから学習している。
J. Schmidhuberさんのように、AI にとっても好奇心(fun)が重要と言っている人はいるが、LLM の学習でも能動・転移学習は有効なのだろうか(これは誰かが研究していると思うが)?「勉強 (study)」と「学習 (learning)」はどう違うのだろうか?その違いは AGI の構築とはどう関係するのだろうか?津田一郎さんなどのカオス的遍歴、的な知能観(酷い言い方だ)とはどう関係するだろうか? といったこともちょっと気になった。
(2024/2/18)
今更だが、ChatGPT と AlphaGo の共通点について、気づいたことのメモ。
AlphaGo は、モンテカルロ木探索と強化学習の組み合わせで強くなっている。もう少し詳しく書くと、モンテカルロ木探索で、方策=次の手の生成確率に従って相互の指し手の系列を生成し、最終的な勝敗評価をフィードバックすることで方策を強化学習する。今更気づいたのは、この構成は、GhatGPT の言語モデル学習と強化学習を使ったアライメントの組み合わせと同じだ、ということ。Instruct GPT の論文をちゃんと読んでいれば、たぶん書いてあるのだろう。
言語モデルは次の単語を確率的に生成するもので、AlphaGo における次の手を生成する確率=方策に対応する。それにもとづいて生成された文章や応答を全体として評価した結果をもとにフィードバックして方策を強化学習するのがアライメントだ。
言語モデルのアライメント(しつけ)の効用としては、社会的規範に反するような危険な回答を避けることがまず挙げられることが多い(自分もそう認識していた)が、それ以前に、長文あるいは複数文の応答をまとまりとして評価してフィードバックすることで、長い出力系列の辻褄を合わせることの効果があり、そちらのほうが重要かもしれない。
別の言い方をすると、「ChatGPT は、次の単語を予測するように学習している」と説明されることが多いが(自分も講演などでそう言っている)、この説明は、言語生成モデルにおけるアライメント学習の重要性をかなり過小評価しているかもしれない。
(2023/12/12)
Veriserve 社の Veriserve Academic Initiative 2023 (2023/11/28, 29)で「生成 AI の仕組みと使い方」という講演(録画配信)をさせていただきます。参加は無料(参加登録が必要)です。
(2023/11/6)
追記:2023/12/11 10:00- 12/22 17:00 の間、オンデマンドで配信されています。
→ 視聴可能期間は既に終わっています。
(2023/12/11)
柄谷行人氏の著作は、「畏怖する人間」「意味という病」「マルクス その可能性の中心」などの初期作品から、最近の「世界史の構造」「哲学の起源」「世界史の実験」まで、折に触れて読ませていただいている。この岩波新書は、「世界史の構造」で展開された、交換様式によって人類の原始社会以来の社会形態を説明するというアイデアを、一般読者向けにコンパクトに解説したもので、繰り返しは多いが読みやすい。
結論的には、カントの「永遠平和のために」に由来する「世界共和国」というヴィジョンが示されており、「カント その可能性と中心」とも言えるような内容になっている。「自由の相互性」「他者を自律的な目的として扱い、自分の目的の手段として扱わない」とという道徳法則に依拠する「世界共和国」は、無限遠点の理想ではあるとしても、資本主義の高度化や社会主義の敗北、民族主義や保守主義の台頭、冷戦や終わらない戦争、などをリアルタイムに経験してきた者の一人として共感できるものだし、私自身の「人の知能について知りたい」という思いもまた、根本的にはそこに由来しているように思われる。ずっと昔、人工知能学会の若手の合宿のようなものにシニアとして参加した際に、「どうして人工知能を研究しているのですか?」と尋ねられて、「人類の永遠平和のため」と答えたことを思い出した。
社会主義に対する資本主義の勝利の一つの要因は、自由市場による超分散的な価値の評価・生産分配調整にあると思うのだが、高度な人工知能を使えば、この関係を逆転できるかもしれず、「互酬的な交換様式の復活」を支えられる可能性があるのではないかと思う。それが、資本主義における格差拡大を抑制し、「世界共和国」、「自由の王国」に近付くことに少しでも役立つと良いのだが。
(2023/11/16)
1988年に、産業図書という出版社から「ニューラルネットワーク情報処理」という、当時研究が盛り上がっていたニューラルネットワークについての教科書的な本を出版させていただいたのだが、その本には「コネクショニズム入門、あるいは柔らかな記号に向けて」という副題をつけていた。本の内容は前半と後半に分かれていて、前半はニューラルネットワークの技術の説明が書かれているのだが、後半は「思想的付録:分散的表現による情報処理-コネクショニズムのこころと夢-」として、ニューラルネットワークを使った情報処理の可能性についての考察が、「分散的情報表現」を軸にして書かれている。我ながら大仰なことを書いたと思うし、「後半はわかりませんでした」と多くの人に言われたのだが、現在の深層ニューラルネットワーク、特に大規模言語モデルにおける「分散的意味表現」の本質的な重要性を見ると、とても粗い大枠としては、それほど間違ってはいなかったようにも思われる。
副題の中の「柔らかな記号」については、後半の「まとめ」に、「1)人間の使っている記号は、連想能力と(組合せ的な)操作可能性を兼ね備えたものである。2)現在の(当時の)計算機上に実現されている記号は、操作可能性という側面に着目したものである。3)(ニューラル)ネットワーク・メカニズム上で、分散的な情報表現によって記号を実現すると、連想能力はそなわるが、複雑な操作が難しくなる。このうちの1)の二面性を明示するために、人間が使っている記号を「柔らかな記号」と呼ぶことにします。これに対して、計算機上の記号は、まだ硬い記号であり、(ニューラル)ネットワーク上の記号は、柔らかすぎる記号である、というようなことがいえるでしょう。」と書かれている(文章を少し修正している)。
ChatGPT や GPT-4 に代表される大規模言語モデルや基盤モデルは、人間の言語使用や記号操作をかなりよく模倣しているような振舞いを見せている。その性能は真に驚くべきもので、生きているうちにこんな AI を使えるようになる日が来たことには感無量であるのだが、そこでは「柔らかな記号」が実現されているのだろうか?と考えると、下の AGI についてのレポートにもあるように、現在の GPT-4 などの論理的な記号操作能力は十分に高いわけではないし、その実現方法も人間の脳とはだいぶ異なると思われる。それにしても、ずいぶんと近づいたようには思う。にもかかわらず、それがどのようにして実現されているのかは、残念ながらよくわからない。そこがなんとももどかしい。
人工知能の科学としての側面として「人間の知能の構成的な理解」つまり、作ってみることを通じて理解する、があるのだが、残念ながら、作ってみてもあまりよくわからない、というのが今の状態だ。今後、今回のような性能の飛躍や、人間に近い振舞いが、いったいどのようにしてネットワークから生まれているのかの解明が進むことを期待したい。とはいえ、技術が進めば、いずれ、自分の中で起こっていることを AGI 自身に語らせることもできるようになるのかもしれないのだが・・・
(2023/3/31)
こちらは、Microsoft Research の研究者による、汎用人工知能(Artificial General Intelligence, AGI)に関するレポート。GPT-4 がどれくらいAGI に近づいているのかを、マルチモーダル性、プログラミングの能力、数学の能力、他のシステムや物理的環境とのインタラクション、人間とのインタラクション(相手の心を読む能力や説明する能力)、などいろいろな側面から評価するとともに、現状の限界や課題、社会的なインパクトも書かれている。しかし、こうした性能がどうやって実現されているかについては、今後の大きな研究課題、としている。
(2023/3/31)
GPT-4 に関する OpenAI のテクニカルレポート。GPT-4 の構築に関する技術のポイントや、前のバージョンの GPT 3.5 との性能の比較などが書かれている。構築に際しては、小さなモデルで超パラメータなどのチューニングをしてから大規模化する(predictable scaling)ことで、計算時間を 1/1000 以下にした、ということだ。著者はリストされているが、数百人で、全体で 100ページもあるが、最初の 15ページに概要が書かれていて、その後は付録。付録の一部の System Card(AI システムの性質に関する説明)は、日本語訳が公開されている。
(2023/3/31)
SCSK株式会社の Webメディアに、ChatGPT/GPT-4 のような生成系 AI についての記事を書きました。
(2023/3/31)
深層ニューラルネットで、信頼度つきの予測をするための、事前分布について。P(y|x) ではなくて、P(x,y) をベイズ推定する枠組みで、Out-of-Data の領域での信頼度を評価するための工夫になっているらしい。
(2020/2/2)
2019年3月5日に開催された公開シンポジウム「深層学習の先にあるもの– 記号推論との融合を目指して(2)」での講演。YouTube で公開していただいた。
(2019/12/29)
DeepMind のベイジアングループによる、Neural Processes ファミリー論文の最初の1本。ネットワークの構造は GQN (Generative Query Network)を踏襲して、入出力ペアの集合から、DNN のエンコーダで関数の内部表現を作るというものになっているようだ。デコーダー側は入力ごとにガウス分布パラメータが出てくる。この後、Neural Processes(グローバルな潜在変数導入)、Attentive Neural Processes(アテンション導入)、Sequential Neural Processes(時系列)というように展開している。ガウス過程と較べて、事後確率計算の計算量が少ないのが特徴。個人的には好きなタイプの方向性で、何かうまく使えると良いのだが。
(2019/12/29)
「研究者」のイメージはいろいろだ。つまり、そこには、いくつかの要素が混在していると思う。一つ目は、Explorer(探検者、探索者)。金鉱堀りのように、掘るべき場所のあたりをつける、研究者としてのセンス、嗅覚を持っている人だ。二つ目は、Researcher(調査者)。広くサーベイして、その結果をまとめて、どこを掘るかを検討するときの基礎資料をまとめる。可能性が高そうなところを漏らさずにサーベイするアンテナや人脈と、まとめる能力が重要になる。三つ目は、Technician(実験家、技術者)。物理化学の実験や、プログラミング、あるいは理論的計算など、特殊なスキルを持っていて、研究の推進に貢献する。
物理学以来、「理論」と「実験」で分けられることが多いが、別の軸として、上のような分け方をしてみると、理論研究をする場合でも、上の3つはあることがわかる。
この3つを同じ人が兼ね備えると、三拍子揃うので素晴らしいのだが、なかなかそれは難しいので、チームを組むという手もあるだろう。そのときに、Explorer が最も重要で、リーダーシップを取ることになるわけだが、ここをやる人には、Researcher や Technician としての経験もある程度は必要ではないかと思う。つまり、実際に手を動かしていないのに、土地勘だけある、というのは考えにくくて、山師に近づきそうだ。
もともと、研究者は山師ではあるのだが、若い頃に優れた Explorer のチームで、Researcher や Technician として働いた後、中堅になったら Explorer (PI)として自分のチームを率いて、大き目のプロジェクトをする、というが普通の形なのだろう。
「研究所」は、そうした人材をうまく集めて、組織して、キャリアパスも含めて処遇できるような基本設計になっていることが望ましい、と思う。
(2019/12/29)
さらに少し古いが、機械学習を使った MCTS の改善と、カーリングの作戦選択への応用。もしも実際の試合のサポートにつながってゆくと面白いと思う。
(2019/7/13)
少し古いが、二つ前のエントリーで書いたような形で、方策学習と探索を組み合わせて強化学習する、というアイデアを実装して、Hex という2人対戦ボードゲームで評価している研究があった。方策学習と探索の組み合わせ方は双方向的になっていて、お互いがお互いを強化するようにしている。UCL の David Barber らのグループの研究。ゲームではなく、ロボットや実世界の問題への適用例を早く見たい。
NIPS 2017 に採択されている。技術的には AlphaGo がやっていることとそれほどは違わないように思えるが(AlphaGo Zero との比較が補足されている)、人間の思考と結びつけたところが評価されたのだろうか。
(2019/7/13)
ユーザをエージェントとみなして、その行動方策関数と報酬関数を敵対的学習によって同時に学習させる、という仕組みの提案と、推薦システム(クリック予測)に適用した実験的評価。介入する対象であるユーザのモデルの新しい作り方として面白そう。
ICML 2019 に採択されていて、スライドはこちら。
(2019/7/13)
「知能」の定義ができない、というか、定義が無数にあるので、「人工知能」の定義も無数にあり、その要素機能や技術も無数にあるのだが、あえて技術的なコアを一言で言うとすれば、どう言うのが納得感があるのだろう?ということをこの5年間くらい、折に触れて考えてきた。
「データからの知識獲得のための機械学習」、が思いつくのだが、その獲得した知識は何のためのもの、なのだろうか? 認識? 予測? 制御? それらを使ったきめ細かい状況依存的なな応答?
人工知能研究として最もインパクトのあったものの一つは、依然として「AlphaGo」だが、そこで機械学習がどう使われているのかと考えると、探索のガイドである。深層ニューラルネットワークによる局面=状況の評価が、モンテカルロ木探索をガイドして、探索するべき手=可能性=空間を狭めるために使われている。
人工知能のタームで言えば「ヒューリスティックな探索」で、これは、人工知能の分野では、最も本質的な技術の一つとされてきた。
直観と読みについて将棋の羽生善治さんなどもよく書かれているように、熟練するということは、直観で読むべき手が絞れるということなのだ。もちろん、直観は常に正しいとは限らない。それは多数の経験から紡ぎだされたもので、多くの場合にうまくゆくが、盲点もある。これは、機械学習も同じだ。だから、それを補うために、しっかりと先を読んで検証をする。そうして、その局面=状況で、できるだけ良い行動ができるようにする。
これは、いわるゆ「フレーム問題」の疑似的解決でもある。
より日常的な自動車の運転でも、最初はどこを見ればよいかわからない状態だが、慣れてくると、無意識のうちに見るべきところを見ているようになる。それでももちろん、盲点はあるのだが。
人の情報処理システムにはファストとスローの2つの系がある、と言われているということは、以前に書いたような気がするが、ヒューリスティックな探索は、ファスト=直観、スロー=読み、の一つの汎用的な組み合わせ方でもある。
「読み」、「探索」を違う言葉で言うと、「シミュレーション」である。
シミュレーションは、物理化学的な、(かなり)厳密なモデルがある場合のもので、人工知能の分野では、そういうものが作れないことが多いこともあり、これまであまり議論されてこなかった。しかし、シミュレーションの技術も発展している現在、機械学習とシミュレーションの組み合わせは重要な研究テーマになっている。私の所属している人工知能研究センターでも、NEC-産総研連携研究室では、いち早くそのテーマに取り組んできた。機械学習であたりをつけて、シミュレーションで検証する、というのは、機械学習とシミュレーションの組み合わせ方としては自然なものだ。
データ=経験から帰納する機械学習は 100% 正解することはないので、その品質をどう保証するか、という議論も行われているが、機械学習の答えをそのまま使わずに、その後にしっかり検証するプロセスを入れるということは、品質保証のための一つのアプローチでもあるだろう。
しかし、AlphaGo がうまくいったのは、言うまでもなく、囲碁が完全情報ゲームであり、閉じた世界だからだ。そこでは正確なシミュレーションができる。それに対して、実世界は、何が起こるかわからない開いた世界である。当然、シミュレーションも不完全にならざるを得ない。
でもそれは、人工知能に限ったことではない。たとえば、食品の品質保証のために、工場をできるだけ閉鎖系にしたり、マニュアルを作ったりする。それでも、予想外のところから異物が混入したりすることを完全に避けることはできない。囲碁でも、対戦相手のモデルが作れるわけではなく、網羅的な探索ができるわけでもない。
人間知能は、開いた世界の中で、経験から得られるもの、学校で習うもの、ネットで検索するもの、などできる限りの知識を使いながら、体じゅうのセンサからの大量のストリーム情報を即応的に、あるいは熟考的に処理して、なんとかより良い行動をしようとしている。インターネット、そして、IoT が普及した開いた世界で使われる IT としての人工知能もまた同じことをすることになるのだろう。
機械学習によるヒューリスティックを使った探索と最適化、を社会の中でどのように使うのか?
そのためにどんなデータを取り、どんなふうに実世界に働きかけるのか?
Society5,0 = スマート社会は、知的な生命体ともいえるもので、それを作るというとてもワクワクするべき時代に私たちは生きているのだが、いろいろな人が 言っているように、それはまた、とても悲惨な世界をも生み出す可能性があることを忘れてはいけない。そのために AI for Social Good や、AI 倫理の議論が行われているところだ。特に後者は、AI を ethical にする(そんなことできるのか? ※ J. P. ホーガンの「未来の二つの顔」を参照)という意味に加えて、人間がそれを倫理的に使いこなすという面も大きいのだと思う。
(2019/7/13)
子供の言語獲得の研究で著名な今井むつみさんの新書。知識とは何か、批判的思考や創造性の基盤となる生きた知識を学ぶとはどういうことか、がやさしく説明されていて、人工知能について考えるためにも参考になる。
(2019/6/29)
大規模データで学習させた汎用の学習済モデルを、個別の課題の少数のデータでの追加学習などでチューニングする転移学習は、画像認識における ImageNet を代表として盛んにおこなわれているが、最近、自然言語処理でもそうした手法が注目されている。特に、Google が学習させた BERT が有名だが、その弱点を修正して、性能的にかなり改善が得られたという論文。
日本語の短い紹介がもう出ている。
(2019/6/28)
プランニングに使えるような潜在表現空間を教師なしで学習するための GAN の提案。学習の評価関数に相互情報量を取り入れることでより性質の良い潜在表現を獲得させる InfoGAN の改良。ロープの操作のプランニングなどで、潜在空間でのプランニングがより良いものになっていることを検証している。著者に Russell と Abbeel が含まれていることも含め、深層学習とプランニングの融合に向けた研究としてとても興味深い。
(2019/6/8)
ビデオクリップから登場人物の状態や関係を記述するグラフを抽出するタスクを設定し、学習のためのデータセットを構築して、データの性質を解析している。Video2KnowledgeGraph に向けた研究の代表的事例として大変興味深い。
(2019/5/19)
「記号創発ロボティクス」の 2015年9月頃の時点でのサーベイ論文。身体を持つロボットを使って、記号(言語を含む)の創発を構成的に研究することで、必然的にシンボルグラウンディング問題を扱うことになる。
arXive 版はこちら。
(2019/5/4)
完全なモデルが作れない領域で、モデルフリーとモデルベースの強化学習を組み合わせることで、学習効率を上げる試み。不完全なモデルと、それを活用する仕組みもニューラルネットワークで作って、End-to-End で学習させる。Sokoban と Mini-Packman で有効性を検証。熟考的なプランニングと、即応的なモデルフリーの行動選択を組み合わせたとても面白い方向の DeepMind 研究なのだが、その後発展しているのだろうか?
日本語の解説スライド(松尾研、塩谷 碩彬さん作成)はこちら。
(2019/5/2)
人工知能について入門的な講演をすることがある。まず最初に、人工知能とは何か、ということを話したいのだが、人工知能的なシステムの事例はいろいろあるものの、人工知能の定義はなかなか難しい。しかたなく「知識を使って効率よく振る舞うシステム」というようなことを言うことが多い。今も昔も、人工知能の研究の中核に「知識」があるのは間違いがないだろう。
では「知識」とは何か?それは、観測データを抽象化して、そこに内在する普遍性の高いパターン、法則を抽出したものと言われる。少しややこしいのは、データと知識に二分されるわけではなく、知識もまたデータになる、というか、抽象化のステップには何段階も考えられる、ということだ。
その「知識」には、乱暴に分けると、明示的、言語化が容易な知識と、暗黙的で、言語化が難しい知識、の2種類があると言われている。具体的な事例で言えば、前者は、知識グラフや、ルールベース、物理・化学的な数式モデルであり、後者は、深層ニューラルネットワークで学習された知識、があたるだろう。これは、人の情報処理システムが、カーネマンなどが言うように、スローな熟考的、記号処理的なシステムと、即応的、パターン処理的なシステムから成ることにも対応していると考えられる。
こうした知識は、システムがインタラクションする世界(自分自身も含まれる)の「モデル」であり、それを持つことによって、システムは世界を分類、認識し、シミュレーションし、予測し、計画を立てることで、行きあたりばったりよりはずっと効率よく振る舞うことが可能になる。この知識の役割は、明示的な知識も、暗黙的な知識もそれほどは違わない。知識を持つことにより、観測データから、観測できない、あるいは、観測にコストがかかること(未来や人の内面はその象徴だ)を推測すること、つまり、見えないものを(ある程度は)見ること、ができるようになる。その能力を大きな大脳皮質を使った後天的な学習によって大幅に強化したことで、人類は厳しい競争を勝ち抜いて、地球上のあらゆる場所に跋扈するようになった。
現在の人工知能は、明示的な知識に関しては、大規模データからテキストマイニング等によって、巨大な知識グラフや知識ベースが構築され、暗黙的な知識に関しても、大規模データから、深層学習等によって、人間に匹敵するような性能の認識器や予測器が構築されるようになっている。それによって、使える場面が増えて、「汎用基盤技術」と認識されている。
そこにおける、人工知能学的な最大の問題の一つは、その二つの知識、システムが、人間のようには統合されていないことだ。この問題は、「シンボル・グラウンディング問題」などと呼ばれて、1980年代のニューラルネットワークブームの頃から多くの人によって指摘され続けていて、DeepMind も最重要課題の一つとして取り組んでいるようだが、未だに解決されてはいないように思われる。
ブレークスルーの可能性を感じさせるものは、一つは、動作認識などの動画からの現象認識の技術、もう一つは、深層学習による生成モデルである。現状は、認識も、生成も、静止画が中心だが、動画が対象になれば、そこに現れる、構造のある「現象」を扱うことになる。静止画に現れる名詞的対称のに関する関係は、形容詞-名詞的なものが主だが、動画中の現象になれば、主語-述語-目的語の3項関係を中心に、より多様な関係が対象とになり、認識結果は、知識グラフになってゆくのが自然だ。
逆に、そうした関係構造を持つ知識グラフから、現象の動画、あるいは、観測データよりは潜在的・中間的な「イメージ」を生成することができれば、動画をスタートとして、知識グラフによる推論や計画を途中に挟んで、予測、推論をすることが可能になると思われる。知識グラフとテキストは既につながっているので、説明の生成や対話的な協調作業にもつながってゆくだろう。
脳の情報処理の理解という観点からは、知識グラフや述語論理のような記号計算を、神経回路でどのように実現しているのかも問題だが、それはとりあえず置いておくとしても、記号計算とパターン処理をつなぐことの工学的な意味は高いのではないかと思われる。特に、計算機は、人間よりもはるかに高い記号処理能力を持つことから、囲碁や将棋で起こったことが、より広い領域に広がるためにも必要なことだろう。
敵対的学習による動画の変換や生成などの驚くべき成果を見ていると、Video 2 Knowledge Graph、そしてその逆、はもうすぐ近いところにあるようにも思える。しかし、単に感覚情報を知識グラフとをつなぐだけでは、知識グラフ上の推論能力の限界に陥るだけかもしれず、何かそこに、たとえば井筒俊彦さんが「阿頼耶識」と呼んだ中間表現、位相的な性質と組み合わせ的な性質を併せ持つ表現が必要なのかもしれない。いずれにしても、こうした方向で新たなブレークスルーが生まれることを期待している。
(2019/4/30)
【CNN の学習結果を説明するために、各層で学習された特徴量の間の関係をグラフ構造で表すという方法の提案。画像の中の構造の抽出や、CNN の学習結果の転移などに使えるようだ。
(2019/4/20)
LSTM を使ったカーネル関数をガウス過程に用いることで、時系列のベイズ学習を行う。カーネル法でしばしば問題になる、データ数に対するスケーラビリティについても一定の解決を与えている。時系列深層学習のベイズ的な取り扱いの一つのアプローチとして興味深い。
(2019/4/20)
深層ニューラルネットワークが、層の幅(ユニット数)が無限大に近づくときに、どのようなガウス過程になるかを明らかにした論文。深層ニューラルネットのベイズ学習の一つの強力な手法を与えている。Google Brain のチームの研究。何かで使ってみたい。
日本語の素晴らしい解説はこちら。
(2019/4/20)
AIRC からは辻井研究センター長がパネリストとして登壇予定。ABCI と SINET5 を使い倒した、同時並列動画認識のデモも予定されている。
(2019/4/20)
複数の物体が置かれているシーンに対して、「球体の左にある赤い物体の形は何ですか?」というような、記号的推論を必要とする質問に答えられるように学習するためのメカニズムと学習法の提案。学習用データとしては、画像、質問文、正解、の3つ組を使う。画像からは物体を抽出してその属性を含むベクトル表現を得る。質問文からはこの問題専用のプログラム言語のプログラムを生成し、それを画像認識結果に適用して回答を得る。そのプロセス全体を End-to-End で学習させる。ポイントは、途中に使うプログラムについて正解を用意する必要が無いというところ。カリキュラム学習なども使って学習させている。MIT CSAIL と DeepMind のチームの研究。深層学習と記号処理の融合の研究として興味深い。
(2019/4/14)
内閣府の第3回 イノベーション政策強化推進のための有識者会議「AI戦略」(AI戦略実行会議)の資料
(2019/4/14)