Memorandum

The content of this page is mostly in Japanese.

千葉雅也「勉強の哲学-来るべきバカのために 増補版」

千葉雅也さんの「勉強の哲学ー来るべきバカのために 増補版」を読んだ。

「深く勉強するとは?」という哲学的な問いに対して、 20世紀フランス現代思想を応用して考察し、そこで定義した「深い勉強」をするための方法や具体的な技術が書かれていて、それは「研究」にも通じるものなのでとても面白かったが、AI もまた「学習」「勉強」しているので、「AI に勉強させるための方法」として読んでも面白いのではないかと思った。

とても雑にまとめると、勉強とは、まず自己破壊=これまでのコードにうまくノレなくなることを経て、その先の(より豊かな、あるいはレベルの高い?)コードに引っ越しをすることである。そのための技術としては、垂直的に根拠を疑うアイロニー=ツッコミと水平的に連想してつないでゆくユーモア=ボケがある、という。

いずれについても、突き詰めてゆくとノンセンスの海に漂流してしまうので、どこかで打ち切る、中断して、仮固定することが重要で、どこで打ち切るかを決めるには、身体性と偶然性によってこれまで培われてきた個々人の「享楽」が鍵になる、ということだ。

これを機械学習的に見ると:
読書=教師あり学習、自己教師あり学習
自己破壊=破滅的忘却、U字発達
ツッコミ=アイロニー=能動学習(ちょっと違うか・・・)
ボケ=ユーモア=転移学習
という感じになるだろうか?

人間(生き物)は、能動・転移学習し続ける。それが人間的な自由の本質だ。
それに対して、現在の LLM は、とりあえず受動的かつ「テクスト内在的」に大量の言語データから学習している。

J.  Schmidhuberさんのように、AI にとっても好奇心(fun)が重要と言っている人はいるが、
LLM の学習でも能動・転移学習は有効なのだろうか(これは誰かが研究していると思うが)?
「勉強 (study)」と「学習 (learning)」はどう違うのだろうか?
その違いは  AGI の構築とはどう関係するのだろうか?
津田一郎さんなどのカオス的遍歴、的な知能観(酷い言い方だ)とはどう関係するだろうか?
といったこともちょっと気になった。

(2024/2/18)

ChatGPT と AlpahGo の共通点:アライメントの重要性

今更だが、ChatGPT と AlphaGo  の共通点について、気づいたことのメモ。

AlphaGo は、モンテカルロ木探索と強化学習の組み合わせで強くなっている。もう少し詳しく書くと、モンテカルロ木探索で、方策=次の手の生成確率に従って相互の指し手の系列を生成し、最終的な勝敗評価をフィードバックすることで方策を強化学習する。今更気づいたのは、この構成は、GhatGPT の言語モデル学習と強化学習を使ったアライメントの組み合わせと同じだ、ということ。Instruct GPT の論文をちゃんと読んでいれば、たぶん書いてあるのだろう。

言語モデルは次の単語を確率的に生成するもので、AlphaGo における次の手を生成する確率=方策に対応する。それにもとづいて生成された文章や応答を全体として評価した結果をもとにフィードバックして方策を強化学習するのがアライメントだ。

言語モデルのアライメント(しつけ)の効用としては、社会的規範に反するような危険な回答を避けることがまず挙げられることが多い(自分もそう認識していた)が、それ以前に、長文あるいは複数文の応答をまとまりとして評価してフィードバックすることで、長い出力系列の辻褄を合わせることの効果もあり、そちらのほうが重要かもしれない。

別の言い方をすると、「ChatGPT は、次の単語を予測するように学習している」と説明されることが多いが(自分も講演などでそう言っている)、この説明は、言語生成モデルにおけるアライメント学習の重要性を少し過小評価しているかもしれない。

(2023/12/12)

生成 AI の仕組みと使い方

Veriserve 社の Veriserve Academic Initiative 2023 (2023/11/28, 29)で「生成 AI の仕組みと使い方」という講演(録画配信)をさせていただきます。参加は無料(参加登録が必要)です。

(2023/11/6)

追記:2023/12/11 10:00- 12/22 17:00 の間、オンデマンドで配信されています。

(2023/12/11)

柄谷行人「世界共和国へ: 資本=ネーション=国家を超えて」

柄谷行人さんの著作は、「畏怖する人間」「意味という病」「マルクス その可能性の中心」などの初期作品から、最近の「世界史の構造」「哲学の起源」「世界史の実験」まで、折に触れて読ませていただいている。この岩波新書は、「世界史の構造」で展開された、交換様式によって人類の原始社会以来の社会形態を説明するというアイデアを、一般読者向けにコンパクトに解説したもので、繰り返しは多いが読みやすい。

結論的には、カントの「永遠平和のために」に由来する「世界共和国」というヴィジョンが示されており、「カント その可能性と中心」とも言えるような内容になっている。「自由の相互性」「他者を自律的な目的として扱い、自分の目的の手段として扱わない」とという道徳法則に依拠する「世界共和国」は、無限遠点の理想ではあるとしても、資本主義の高度化や社会主義の敗北、民族主義や保守主義の台頭、冷戦や終わらない戦争、などをリアルタイムに経験してきた者の一人として共感できるものだし、私自身の「人の知能について知りたい」という思いもまた、根本的にはそこに由来しているように思われる。ずっと昔、人工知能学会の若手の合宿のようなものにシニアとして参加した際に、「どうして人工知能を研究しているのですか?」と尋ねられて、「人類の永遠平和のため」と答えたことを思い出した。

社会主義に対する資本主義の勝利の一つの要因は、自由市場による超分散的な価値の評価・生産分配調整にあると思うのだが、高度な人工知能を使えば、この関係を逆転できるかもしれず、「互酬的な交換様式の復活」を支えられる可能性があるのではないかと思う。それが、資本主義における格差拡大を抑制し、「世界共和国」、「自由の王国」に近付くことに少しでも役立つと良いのだが。

(2023/11/16

「柔らかな記号」は実現されたのか?

1988年に、産業図書という出版社から「ニューラルネットワーク情報処理」という、当時研究が盛り上がっていたニューラルネットワークについての教科書的な本を出版させていただいたのだが、その本には「コネクショニズム入門、あるいは柔らかな記号に向けて」という副題をつけていた。本の内容は前半と後半に分かれていて、前半はニューラルネットワークの技術の説明が書かれているのだが、後半は「思想的付録:分散的表現による情報処理-コネクショニズムのこころと夢-」として、ニューラルネットワークを使った情報処理の可能性についての考察が、「分散的情報表現」を軸にして書かれている。我ながら大仰なことを書いたと思うし、「後半はわかりませんでした」と多くの人に言われたのだが、現在の深層ニューラルネットワーク、特に大規模言語モデルにおける「分散的意味表現」の本質的な重要性を見ると、とても粗い大枠としては、それほど間違ってはいなかったようにも思われる。

副題の中の「柔らかな記号」については、後半の「まとめ」に、「1)人間の使っている記号は、連想能力と(組合せ的な)操作可能性を兼ね備えたものである。2)現在の(当時の)計算機上に実現されている記号は、操作可能性という側面に着目したものである。3)(ニューラル)ネットワーク・メカニズム上で、分散的な情報表現によって記号を実現すると、連想能力はそなわるが、複雑な操作が難しくなる。このうちの1)の二面性を明示するために、人間が使っている記号を「柔らかな記号」と呼ぶことにします。これに対して、計算機上の記号は、まだ硬い記号であり、(ニューラル)ネットワーク上の記号は、柔らかすぎる記号である、というようなことがいえるでしょう。」と書かれている(文章を少し修正している)。

ChatGPT や GPT-4 に代表される大規模言語モデルや基盤モデルは、人間の言語使用や記号操作をかなりよく模倣しているような振舞いを見せている。その性能は真に驚くべきもので、生きているうちにこんな AI を使えるようになる日が来たことには感無量であるのだが、そこでは「柔らかな記号」が実現されているのだろうか?と考えると、下の AGI についてのレポートにもあるように、現在の GPT-4 などの論理的な記号操作能力は十分に高いわけではないし、その実現方法も人間の脳とはだいぶ異なると思われる。それにしても、ずいぶんと近づいたようには思う。にもかかわらず、それがどのようにして実現されているのかは、残念ながらよくわからない。そこがなんとももどかしい。

人工知能の科学としての側面として「人間の知能の構成的な理解」つまり、作ってみることを通じて理解する、があるのだが、残念ながら、作ってみてもあまりよくわからない、というのが今の状態だ。今後、今回のような性能の飛躍や、人間に近い振舞いが、いったいどのようにしてネットワークから生まれているのかの解明が進むことを期待したい。とはいえ、技術が進めば、いずれ、自分の中で起こっていることを AGI 自身に語らせることもできるようになるのかもしれないのだが・・・

(2023/3/31)

こちらは、Microsoft Research の研究者による、汎用人工知能(Artificial General Intelligence, AGI)に関するレポート。GPT-4 がどれくらいAGI に近づいているのかを、マルチモーダル性、プログラミングの能力、数学の能力、他のシステムや物理的環境とのインタラクション、人間とのインタラクション(相手の心を読む能力や説明する能力)、などいろいろな側面から評価するとともに、現状の限界や課題、社会的なインパクトも書かれている。しかし、こうした性能がどうやって実現されているかについては、今後の大きな研究課題、としている

(2023/3/31)

GPT-4 に関する OpenAI のテクニカルレポート。GPT-4 の構築に関する技術のポイントや、前のバージョンの GPT 3.5 との性能の比較などが書かれている。構築に際しては、小さなモデルで超パラメータなどのチューニングをしてから大規模化する(predictable scaling)ことで、計算時間を 1/1000 以下にした、ということだ。著者はリストされているが、数百人で、全体で 100ページもあるが、最初の 15ページに概要が書かれていて、その後は付録。付録の一部の System Card(AI システムの性質に関する説明)は、日本語訳が公開されている。

(2023/3/31)

SCSK株式会社の「テクのまど」という Webメディアに、ChatGPT/GPT-4 のような生成系 AI についての記事を書きました。

(2023/3/31)

Danijar Hafner, Dustin Tran, Timothy Lillicrap, Alex Irpan, James Davidson, Noise Contrastive Priors for Functional Uncertainty, arXiv:1807.09289

深層ニューラルネットで、信頼度つきの予測をするための、事前分布について。P(y|x) ではなくて、P(x,y) をベイズ推定する枠組みで、Out-of-Data の領域での信頼度を評価するための工夫になっているらしい。

(2020/2/2)

2019年3月5日に開催された公開シンポジウム「深層学習の先にあるもの– 記号推論との融合を目指して(2)」での講演。YouTube で公開していただいた。

(2019/12/29)

Marta Garnelo, Dan Rosenbaum, Chris J. Maddison, Tiago Ramalho, David Saxton, Murray Shanahan, Yee Whye Teh, Danilo J. Rezende, S. M. Ali Eslami : Conditional Neural Processes, arXiv:1807.01613.

DeepMind のベイジアングループによる、Neural Processes ファミリー論文の最初の1本。ネットワークの構造は GQN (Generative Query Network)を踏襲して、入出力ペアの集合から、DNN のエンコーダで関数の内部表現を作るというものになっているようだ。デコーダー側は入力ごとにガウス分布パラメータが出てくる。この後、Neural Processes(グローバルな潜在変数導入)、Attentive Neural Processes(アテンション導入)、Sequential Neural Processes(時系列)というように展開している。ガウス過程と較べて、事後確率計算の計算量が少ないのが特徴。個人的には好きなタイプの方向性で、何かうまく使えると良いのだが。

(2019/12/29)

「研究者」の3要素:Explorer, Researcher, Technician

「研究者」のイメージはいろいろだ。つまり、そこには、いくつかの要素が混在していると思う。一つ目は、Explorer(探検者、探索者)。金鉱堀りのように、掘るべき場所のあたりをつける、研究者としてのセンス、嗅覚を持っている人だ。二つ目は、Researcher(調査者)。広くサーベイして、その結果をまとめて、どこを掘るかを検討するときの基礎資料をまとめる。可能性が高そうなところを漏らさずにサーベイするアンテナや人脈と、まとめる能力が重要になる。三つ目は、Technician(実験家、技術者)。物理化学の実験や、プログラミング、あるいは理論的計算など、特殊なスキルを持っていて、研究の推進に貢献する。

物理学以来、「理論」と「実験」で分けられることが多いが、別の軸として、上のような分け方をしてみると、理論研究をする場合でも、上の3つはあることがわかる。

この3つを同じ人が兼ね備えると、三拍子揃うので素晴らしいのだが、なかなかそれは難しいので、チームを組むという手もあるだろう。そのときに、Explorer が最も重要で、リーダーシップを取ることになるわけだが、ここをやる人には、Researcher や Technician としての経験もある程度は必要ではないかと思う。つまり、実際に手を動かしていないのに、土地勘だけある、というのは考えにくくて、山師に近づきそうだ。

もともと、研究者は山師ではあるのだが、若い頃に優れた Explorer のチームで、Researcher や Technician として働いた後、中堅になったら Explorer (PI)として自分のチームを率いて、大き目のプロジェクトをする、というが普通の形なのだろう。

「研究所」は、そうした人材をうまく集めて、組織して、キャリアパスも含めて処遇できるような基本設計になっていることが望ましい、と思う。

(2019/12/29)

Timothy Yee, Viliam Lisy, Michael Bowling: Monte Carlo Tree Search in Continuous Action Spaces with Execution Uncertainty, IJCAI 2016.

さらに少し古いが、機械学習を使った MCTS の改善と、カーリングの作戦選択への応用。もしも実際の試合のサポートにつながってゆくと面白いと思う。

(2019/7/13)

Thomas Anthony, Zheng Tian, David Barber: Thinking Fast and Slow with Deep Learning and Tree Search, arXiv 2017.

少し古いが、二つ前のエントリーで書いたような形で、方策学習と探索を組み合わせて強化学習する、というアイデアを実装して、Hex という2人対戦ボードゲームで評価している研究があった。方策学習と探索の組み合わせ方は双方向的になっていて、お互いがお互いを強化するようにしている。UCL の David Barber らのグループの研究。ゲームではなく、ロボットや実世界の問題への適用例を早く見たい。

NIPS 2017 に採択されている。技術的には AlphaGo がやっていることとそれほどは違わないように思えるが(AlphaGo Zero との比較が補足されている)、人間の思考と結びつけたところが評価されたのだろうか。

(2019/7/13)

Xinshi Chen, Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song: Generative Adversarial User Model for Reinforcement Learning Based Recommendation System, arXiv 2018.

ユーザをエージェントとみなして、その行動方策関数と報酬関数を敵対的学習によって同時に学習させる、という仕組みの提案と、推薦システム(クリック予測)に適用した実験的評価。介入する対象であるユーザのモデルの新しい作り方として面白そう。

ICML 2019 に採択されていて、スライドはこちら

(2019/7/13)

直観と読み

「知能」の定義ができない、というか、定義が無数にあるので、「人工知能」の定義も無数にあり、その要素機能や技術も無数にあるのだが、あえて技術的なコアを一言で言うとすれば、どう言うのが納得感があるのだろう?ということをこの5年間くらい、折に触れて考えてきた。

「データからの知識獲得のための機械学習」、が思いつくのだが、その獲得した知識は何のためのもの、なのだろうか? 認識? 予測? 制御? それらを使ったきめ細かい状況依存的なな応答?

人工知能研究として最もインパクトのあったものの一つは、依然として「AlphaGo」だが、そこで機械学習がどう使われているのかと考えると、探索のガイドである。深層ニューラルネットワークによる局面=状況の評価が、モンテカルロ木探索をガイドして、探索するべき手=可能性=空間を狭めるために使われている。

人工知能のタームで言えば「ヒューリスティックな探索」で、これは、人工知能の分野では、最も本質的な技術の一つとされてきた。

直観と読みについて将棋の羽生善治さんなどもよく書かれているように、熟練するということは、直観で読むべき手が絞れるということなのだ。もちろん、直観は常に正しいとは限らない。それは多数の経験から紡ぎだされたもので、多くの場合にうまくゆくが、盲点もある。これは、機械学習も同じだ。だから、それを補うために、しっかりと先を読んで検証をする。そうして、その局面=状況で、できるだけ良い行動ができるようにする。

これは、いわるゆ「フレーム問題」の疑似的解決でもある。

より日常的な自動車の運転でも、最初はどこを見ればよいかわからない状態だが、慣れてくると、無意識のうちに見るべきところを見ているようになる。それでももちろん、盲点はあるのだが。

人の情報処理システムにはファストとスローの2つの系がある、と言われているということは、以前に書いたような気がするが、ヒューリスティックな探索は、ファスト=直観、スロー=読み、の一つの汎用的な組み合わせ方でもある。

「読み」、「探索」を違う言葉で言うと、「シミュレーション」である。

シミュレーションは、物理化学的な、(かなり)厳密なモデルがある場合のもので、人工知能の分野では、そういうものが作れないことが多いこともあり、これまであまり議論されてこなかった。しかし、シミュレーションの技術も発展している現在、機械学習とシミュレーションの組み合わせは重要な研究テーマになっている。私の所属している人工知能研究センターでも、NEC-産総研連携研究室では、いち早くそのテーマに取り組んできた。機械学習であたりをつけて、シミュレーションで検証する、というのは、機械学習とシミュレーションの組み合わせ方としては自然なものだ。

データ=経験から帰納する機械学習は 100% 正解することはないので、その品質をどう保証するか、という議論も行われているが、機械学習の答えをそのまま使わずに、その後にしっかり検証するプロセスを入れるということは、品質保証のための一つのアプローチでもあるだろう。

しかし、AlphaGo がうまくいったのは、言うまでもなく、囲碁が完全情報ゲームであり、閉じた世界だからだ。そこでは正確なシミュレーションができる。それに対して、実世界は、何が起こるかわからない開いた世界である。当然、シミュレーションも不完全にならざるを得ない。

でもそれは、人工知能に限ったことではない。たとえば、食品の品質保証のために、工場をできるだけ閉鎖系にしたり、マニュアルを作ったりする。それでも、予想外のところから異物が混入したりすることを完全に避けることはできない。囲碁でも、対戦相手のモデルが作れるわけではなく、網羅的な探索ができるわけでもない。

人間知能は、開いた世界の中で、経験から得られるもの、学校で習うもの、ネットで検索するもの、などできる限りの知識を使いながら、体じゅうのセンサからの大量のストリーム情報を即応的に、あるいは熟考的に処理して、なんとかより良い行動をしようとしている。インターネット、そして、IoT が普及した開いた世界で使われる IT としての人工知能もまた同じことをすることになるのだろう。

機械学習によるヒューリスティックを使った探索と最適化、を社会の中でどのように使うのか?

そのためにどんなデータを取り、どんなふうに実世界に働きかけるのか?

Society5,0 = スマート社会は、知的な生命体ともいえるもので、それを作るというとてもワクワクするべき時代に私たちは生きているのだが、いろいろな人が 言っているように、それはまた、とても悲惨な世界をも生み出す可能性があることを忘れてはいけない。そのために AI for Social Good や、AI 倫理の議論が行われているところだ。特に後者は、AI を ethical にする(そんなことできるのか? ※ J. P. ホーガンの「未来の二つの顔」を参照)という意味に加えて、人間がそれを倫理的に使いこなすという面も大きいのだと思う。

(2019/7/13)

今井むつみ「学びとは何か - <探求人>になるために」, 岩波新書, 2016.

子供の言語獲得の研究で著名な今井むつみさんの新書。知識とは何か、批判的思考や創造性の基盤となる生きた知識を学ぶとはどういうことか、がやさしく説明されていて、人工知能について考えるためにも参考になる。

(2019/6/29)

Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le : XLNet: Generalized Autoregressive Pretraining for Language Understanding, arXiv 2019.

大規模データで学習させた汎用の学習済モデルを、個別の課題の少数のデータでの追加学習などでチューニングする転移学習は、画像認識における ImageNet を代表として盛んにおこなわれているが、最近、自然言語処理でもそうした手法が注目されている。特に、Google が学習させた BERT が有名だが、その弱点を修正して、性能的にかなり改善が得られたという論文。

日本語の短い紹介がもう出ている。

(2019/6/28)

Thanard Kurutach, Aviv Tamar, Ge Yang, Stuart Russell, Pieter Abbeel: Learning Plannable Representations with Causal InfoGAN, arXiv 2018.

プランニングに使えるような潜在表現空間を教師なしで学習するための GAN の提案。学習の評価関数に相互情報量を取り入れることでより性質の良い潜在表現を獲得させる InfoGAN の改良。ロープの操作のプランニングなどで、潜在空間でのプランニングがより良いものになっていることを検証している。著者に Russell と Abbeel が含まれていることも含め、深層学習とプランニングの融合に向けた研究としてとても興味深い。

(2019/6/8)

Paul Vicol, Makarand Tapaswi, Lluis Castrejon, Sanja Fidler: MovieGraphs: Towards Understanding Human-Centric Situations from Videos, arXiv 2018.

ビデオクリップから登場人物の状態や関係を記述するグラフを抽出するタスクを設定し、学習のためのデータセットを構築して、データの性質を解析している。Video2KnowledgeGraph に向けた研究の代表的事例として大変興味深い。

(2019/5/19)

Tadahiro Taniguchi, Takayuki Nagai, Tomoaki Nakamura, Naoto Iwahashi, Tetsuya Ogata, Hideki Asoh: Symbol Emergence in Robotics, A Survay, Advanced Robotics, 30, 11-12, 706-728, 2016.

「記号創発ロボティクス」の 2015年9月頃の時点でのサーベイ論文。身体を持つロボットを使って、記号(言語を含む)の創発を構成的に研究することで、必然的にシンボルグラウンディング問題を扱うことになる。

arXive 版はこちら

(2019/5/4)

完全なモデルが作れない領域で、モデルフリーとモデルベースの強化学習を組み合わせることで、学習効率を上げる試み。不完全なモデルと、それを活用する仕組みもニューラルネットワークで作って、End-to-End で学習させる。Sokoban と Mini-Packman で有効性を検証。熟考的なプランニングと、即応的なモデルフリーの行動選択を組み合わせたとても面白い方向の DeepMind 研究なのだが、その後発展しているのだろうか?

日本語の解説スライド(松尾研、塩谷 碩彬さん作成)はこちら

(2019/5/2)

データと知識

人工知能について入門的な講演をすることがある。まず最初に、人工知能とは何か、ということを話したいのだが、人工知能的なシステムの事例はいろいろあるものの、人工知能の定義はなかなか難しい。しかたなく「知識を使って効率よく振る舞うシステム」というようなことを言うことが多い。今も昔も、人工知能の研究の中核に「知識」があるのは間違いがないだろう。

では「知識」とは何か?それは、観測データを抽象化して、そこに内在する普遍性の高いパターン、法則を抽出したものと言われる。少しややこしいのは、データと知識に二分されるわけではなく、知識もまたデータになる、というか、抽象化のステップには何段階も考えられる、ということだ。

その「知識」には、乱暴に分けると、明示的、言語化が容易な知識と、暗黙的で、言語化が難しい知識、の2種類があると言われている。具体的な事例で言えば、前者は、知識グラフや、ルールベース、物理・化学的な数式モデルであり、後者は、深層ニューラルネットワークで学習された知識、があたるだろう。これは、人の情報処理システムが、カーネマンなどが言うように、スローな熟考的、記号処理的なシステムと、即応的、パターン処理的なシステムから成ることにも対応していると考えられる。

こうした知識は、システムがインタラクションする世界(自分自身も含まれる)の「モデル」であり、それを持つことによって、システムは世界を分類、認識し、シミュレーションし、予測し、計画を立てることで、行きあたりばったりよりはずっと効率よく振る舞うことが可能になる。この知識の役割は、明示的な知識も、暗黙的な知識もそれほどは違わない。知識を持つことにより、観測データから、観測できない、あるいは、観測にコストがかかること(未来や人の内面はその象徴だ)を推測すること、つまり、見えないものを(ある程度は)見ること、ができるようになる。その能力を大きな大脳皮質を使った後天的な学習によって大幅に強化したことで、人類は厳しい競争を勝ち抜いて、地球上のあらゆる場所に跋扈するようになった。

現在の人工知能は、明示的な知識に関しては、大規模データからテキストマイニング等によって、巨大な知識グラフや知識ベースが構築され、暗黙的な知識に関しても、大規模データから、深層学習等によって、人間に匹敵するような性能の認識器や予測器が構築されるようになっている。それによって、使える場面が増えて、「汎用基盤技術」と認識されている。

そこにおける、人工知能学的な最大の問題の一つは、その二つの知識、システムが、人間のようには統合されていないことだ。この問題は、「シンボル・グラウンディング問題」などと呼ばれて、1980年代のニューラルネットワークブームの頃から多くの人によって指摘され続けていて、DeepMind も最重要課題の一つとして取り組んでいるようだが、未だに解決されてはいないように思われる。

ブレークスルーの可能性を感じさせるものは、一つは、動作認識などの動画からの現象認識の技術、もう一つは、深層学習による生成モデルである。現状は、認識も、生成も、静止画が中心だが、動画が対象になれば、そこに現れる、構造のある「現象」を扱うことになる。静止画に現れる名詞的対称のに関する関係は、形容詞-名詞的なものが主だが、動画中の現象になれば、主語-述語-目的語の3項関係を中心に、より多様な関係が対象とになり、認識結果は、知識グラフになってゆくのが自然だ。

逆に、そうした関係構造を持つ知識グラフから、現象の動画、あるいは、観測データよりは潜在的・中間的な「イメージ」を生成することができれば、動画をスタートとして、知識グラフによる推論や計画を途中に挟んで、予測、推論をすることが可能になると思われる。知識グラフとテキストは既につながっているので、説明の生成や対話的な協調作業にもつながってゆくだろう。

脳の情報処理の理解という観点からは、知識グラフや述語論理のような記号計算を、神経回路でどのように実現しているのかも問題だが、それはとりあえず置いておくとしても、記号計算とパターン処理をつなぐことの工学的な意味は高いのではないかと思われる。特に、計算機は、人間よりもはるかに高い記号処理能力を持つことから、囲碁や将棋で起こったことが、より広い領域に広がるためにも必要なことだろう。

敵対的学習による動画の変換や生成などの驚くべき成果を見ていると、Video 2 Knowledge Graph、そしてその逆、はもうすぐ近いところにあるようにも思える。しかし、単に感覚情報を知識グラフとをつなぐだけでは、知識グラフ上の推論能力の限界に陥るだけかもしれず、何かそこに、たとえば井筒俊彦さんが「阿頼耶識」と呼んだ中間表現、位相的な性質と組み合わせ的な性質を併せ持つ表現が必要なのかもしれない。いずれにしても、こうした方向で新たなブレークスルーが生まれることを期待している。

(2019/4/30)

Quanshi Zhang, Xin Wang, Ruiming Cao, Ying Nian Wu, Feng Shi, Song-Chun Zhu: Explanatory Graphs for CNNs, arXiv 2018.

【CNN の学習結果を説明するために、各層で学習された特徴量の間の関係をグラフ構造で表すという方法の提案。画像の中の構造の抽出や、CNN の学習結果の転移などに使えるようだ。

(2019/4/20)

Maruan Al-Shedivat, Andrew Gordon Wilson, Yunus Saatchi, Zhiting Hu, Eric P. Xing: Learning Scalable Deep Kernels with Recurrent Structure, JMLR 2017.

LSTM を使ったカーネル関数をガウス過程に用いることで、時系列のベイズ学習を行う。カーネル法でしばしば問題になる、データ数に対するスケーラビリティについても一定の解決を与えている。時系列深層学習のベイズ的な取り扱いの一つのアプローチとして興味深い。

(2019/4/20)

Jaehoon Lee, Yasaman Bahri, Roman Novak, Samuel S. Schoenholz, Jeffrey Pennington, Jascha Sohl-Dickstein: Deep Neural Networks as Gaussian Processes, ICLR 2018.

深層ニューラルネットワークが、層の幅(ユニット数)が無限大に近づくときに、どのようなガウス過程になるかを明らかにした論文。深層ニューラルネットのベイズ学習の一つの強力な手法を与えている。Google Brain のチームの研究。何かで使ってみたい。

日本語の素晴らしい解説はこちら

(2019/4/20)

2019/4/22-24 アプライド AI サミット(日経新聞社主催)

アプライドAI サミット~AIと人・産業の共進化

AIRC からは辻井研究センター長がパネリストとして登壇予定。ABCI と SINET5 を使い倒した、同時並列動画認識のデモも予定されている。 

(2019/4/20)

複数の物体が置かれているシーンに対して、「球体の左にある赤い物体の形は何ですか?」というような、記号的推論を必要とする質問に答えられるように学習するためのメカニズムと学習法の提案。学習用データとしては、画像、質問文、正解、の3つ組を使う。画像からは物体を抽出してその属性を含むベクトル表現を得る。質問文からはこの問題専用のプログラム言語のプログラムを生成し、それを画像認識結果に適用して回答を得る。そのプロセス全体を End-to-End で学習させる。ポイントは、途中に使うプログラムについて正解を用意する必要が無いというところ。カリキュラム学習なども使って学習させている。MIT CSAIL と DeepMind のチームの研究。深層学習と記号処理の融合の研究として興味深い。

(2019/4/14)

2019/3/15  日本の人工知能戦略(有識者提案)

内閣府の第3回 イノベーション政策強化推進のための有識者会議「AI戦略」(AI戦略実行会議)の資料

(2019/4/14)