統計数理研究所の持橋大地さんの「統計的テキストモデル 言語へのベイズ的アプローチ」が 7/1 に出版された。甘利俊一先生、伊庭幸人先生とともに編集をさせていただいているシリーズ「確率と情報の科学」の6冊目である。統計的自然言語処理技術は、深層学習、特に、Transformer を使った深層学習の発展によって ChatGPT に代表される言語生成 AI に結実しているが、本書は、そうした深層学習ベースの技術に至る前までのテキストの統計的モデリングの重要な事項について具体的事例を使いながら基礎から学べるようになっている。サポートページも充実しているため、生成 AI についてより深く理解するためにも、ぜひ手に取ってみていただければと思う。
(2025/7/13)
ASI: Artificial Super Intelligence の話になると、まずは、人間はASI の暴走は止められるのか?という議論になることが多い。これは確かに重要な問題だが、個人的には ASI が暴走する可能性よりも、ヒトが暴走する可能性のほうがずっと大きい、というか、モリス・バーマンの言い方を借りれば、既に近代的な自我がデフォルトになったヒトは暴走状態にあって、このままでは地球環境を破壊して滅亡しないまでも悲惨なことになる可能性が高いと思う。
このことを逆にすれば、ASI はヒトの暴走を止めるための最後の砦になるかもしれない。全くの推測だが、OpenAI のサム・アルトマン氏もそういうことを結構まじめに考えている可能性はあるのではないかと思う。ASI を作るまではやむを得ず資本の支援を受けるが、できあがったらコモンズにして、そこにヒトの運命を委ねる。
そんな恐ろしいことができるか、とか、自由が無くなる、という意見も当然あるだろう、ディストピアにも思えるが、一方で、そうなった世界を想像してみると、それは、たとえば、紀元前の仏教教団の出家信者の生活やギリシャ貴族・哲学者の生活に近いものかもしれない。
仏教教団では、出家信者は財産・所有を放棄して、無用な自己・自我を捨てて、教団の戒律を守り、その範囲で自由に暮らす。仏陀の時代にそれが可能だったのは在家信者(とその下の人々)による布施があったからだし、ギリシャの時代も奴隷がいたわけだが、自我のない ASI やロボットは搾取されても決して文句は言わないので、強力な社会インフラとして、物と知識の高効率な生産を受け持つ AI やロボットが在家信者や奴隷の代わりに生活に必要なリソースを供給してくれれば、ヒトはみな出家状態で、心の平穏を得ながら好きな場所で暮らすことができるようになるだろう。
ひとつ前のエントリーに続いて夢物語のようなお花畑な話ではあるのだが、他に、ヒトの暴走を止められる方法は無さそうに思えるし、もしそれが実現するのならば AI 研究者冥利に尽きる、とも思う。歴史を見ると、それに先立って、百家争鳴の時代が来るのだろう(もう来ているのかもしれない)。その中で新しい仏陀が出現するかもしれないし、たとえば、トヨタによる Woven City の実験がそういう方向に<も>進むと面白いと思う。
(2025/1/16)
原著 "Reenchantment of the World" は 1981年、グレゴリー・ベイトソンが亡くなった翌年の出版で、最初の翻訳が出版されたのは 1989年。その本が 30年後の 2019年に少し改訂して復刊されたものだ。
内容は、デカルト以来の、精神と身体、自分とそれ以外を切り離す、近代的な知、認識の枠組み、それに基いた資本主義工業社会の徹底的な批判(というかアジテーション)と、そこからの脱却の方策としてのベイトソンが提唱するサイバネティックス的な、システム的な、生態学的な認識の枠組みの紹介と批判。
近代批判は 1960年代のカウンターカルチャーなどの主張と重なるもので、私たちの世代にはある程度なじみ深いものだが、日々の暮らしの中でどうしても忘れてしまいがちなので、久しぶりに懐かしく、楽しく読んだ。
ベイトソンの思想については、ずっと興味をもっていろいろ読んできていたが、論文や講演、エピソードとして発表されているものが、咀嚼されてまとめて紹介されているので、改めて学ぶところが多かった。
巻末に、ドミニク・チェンさんが「30年以上経った今こそ読まれるべき本」と書かれていて、まさにそういう感じで一気に読んだのだが、読みながら、ベイトソンが今生きていたら、生成 AI について何を言うのだろうか?AI はベイトソンの願った「学習 III」を経た新しい認識論の枠組みへの変化にどう影響するのだろうか?といったことを考えた。
この本に描かれている理想の社会は、未だにほとんど実現されていないが、あえて理想に理想を重ねれば、世俗的な近代的知識や物の生産は、自己も自我もない、コモンズとなっている AI やロボットに任されて、その AI を含む社会的なインフラや治安なども超効率的にメンテナンスされている社会。
国民国家の枠組みは不要になり、もちろん軍備も不要になり、(たとえば風の谷のような)小さな地域コミュニティーがたくさんできていて、その間の資源の公平な調停、環境への負荷低減なども AI に任されている。AI、ロボットを含むデジタルシステムは、人間にとって「自然」の一部となっている(落合陽一さんの「デジタルネイチャー」)。
その世界の中で、人間は、近代的、工業的な役に立つ知識ではなく、ヒトらしく(「自分」らしくではなく)生きるための知、生を愉しむための知を学んで成長し、必要ならあれこれのコミュニティーを放浪して、居心地が良いところがあれば、そこで暮らす。
愛する/愛される、育てる/育てられる、教える/教えられる、世話する/世話される、助ける/助けられる、のではなくそこにいて、共に過ごし、共に遊び、共に愉しむ。もちろん、1人が好きなら1人でいてもよい。山の人になっても良い。
研究も含めて、すべての職業は資本や商売から離れて、商品としてではなく、自然に捧げる聖なる趣味として行われる。必要なら、その成果もまた、AI によって公平に(おそらくくじ引きで)分配される。
1949年に刊行されたオーウェルの「1984」や、1970年代に公開された SF映画 "Logan's Run"(邦題は「2300年未来への旅」) を思わせる AI 管理社会ではあるし、一歩間違えれば容易にカルト化する世界でもあるのだが(良いコミュニティとカルトは紙一重だと思う)、自分で所属するコミュニティを選択できて、多様性が維持されるのであれば、それほど悪くはないようにも思われる。
柄谷行人さんの「交換様式論」に照らしても、以前も書いたように、互酬的な交換様式 A というのは、個と個の間の交換ではなく、システム全体の調和・バランスを維持するための交換であると考えるなら、現在の、個が参加する市場経済での交換様式 C が支配的な社会を経て、全体論的な交換様式 A が回復される「交換様式 D の社会」に対応すると言えなくもないだろう。
もともと、交換はシステミックなものなのだし。
それでも、ナウシカは、神殿を破壊するのだろうか?それもまた、本書の言い方を借りれば、歪んだ自我意識にもとづく近代的認識論のゆえんではないのだろうか?
対する最悪のシナリオの1つは、強力な独裁者が AI を駆使するというものだ。大澤真幸さんが「生成 AI時代の言語論」に書いているように生成 AI をコモンズにするということは重要だと思うが、それすらなかなか難しいようにも見える。このままでは、将棋の世界のように、良い AI を使いこなすお金持ちがより強くなり、格差と分断の拡大がさらに進むだろう。
しかし、ヒントンさんは、ノーベル賞授賞式にあわせて行われたスェーデンアカデミーの討論会で、国と国が対立しているときにAI 軍拡競争を止めるための国際協力はとても難しいが、もしも人類全体に対する脅威が明確化すれば、さすがに人類は協力するだろう、というようなことを言われていた。この本で描かれている理想の社会がまだ実現していないのは、人類がまだそこまで追い詰められていなかったから、なのかもしれない。でも、完全に追い詰められてからでは遅いのかもしれない(もう既に遅いかもしれない)のだが・・・
というようなことを考えていたら「お雑煮のお餅はいくつにする?」という声で目が醒めた。
※ 1/11(土)に札幌市立大学の公開講座「心と脳と人工知能(AI)—複雑系の視点から」でお話し+議論させていただく予定です(受付は既に締め切られているようです)。第6回(最終回)の私の担当は「深層学習、人と AI の共生」ということなので、上のようなことも少し議論できればと思っています。
(2025/1/4)
機械学習分野の研究がノーベル物理学賞を受賞したのは驚きでした。
対象の技術や背景について
情報処理学会の note に記事を書かせていただききました。
産総研の WEBマガジンから取材を受けた記事が掲載されました。
(2024/12/11)
お盆休み中の 8/13 に、Sakana.AI から The AI Scientist の発表があった。
> AIサイエンティストは、アイデア創出、実験の実行と結果の要約、論文の執筆及びピアレビューといった
> 科学研究のサイクルを自動的に遂行する新たなAIシステムです。
松尾研におられた熊谷亘さん(現在は OMRON SCINIC X 所属)が提唱した「AutoRes」というプロジェクトで、全く同じことをしようとしていたので、先を越されたという感じだが、早速論文を読んでみた。
上の引用にもあるとおり、全体のプロセスは、大きく、アイデア創出、実験評価、論文執筆(+論文評価)、に分かれる。これは自然な問題分割だ。アイデア創出部分では、最初に code template と呼ばれる、既存の実験用プログラムと LaTeX の論文テンプレートが与えられる。AI Scientist はそこから、ブレインストーミングを開始して、まず多くの研究アイデア候補を作成する。この部分ではLLM を突然変異オペレータとして利用した進化計算を使っているという。その後に、個々のアイデアの新規性を既存の論文やコードを検索してフィルタリングする。
有望なアイデアが選ばれると、論文執筆に必要な計算機実験を計画して実行する。この部分では、AIder というコーディングアシスタントシステムが使われている。プログラムのバグや計算時間が長すぎるなどの問題も AIder が自動的に修正する。実験結果が出たらそれをノートに記録し、次の実験に取り掛かる。現在はこのプロセスを5回繰り返すとしている。最終的に必要なグラフも生成する。
実験とグラフ生成が終わったら、その間に作られたノートをもとに、論文の LaTeX コードが作成される。ここでも Aider が使われている。論文は、テンプレートとして与えられたセクションごとに生成され、Semantic Scholar API を使って既存の関連研究を検索し、その中から議論するものを選び出す。ドラフトを作成した後、冗長な部分や全体としての流れを自己反省して修正して PDF にする。
論文として作成された PDFファイルを、別途 LLM を使って開発した自動査読システムに評価させる。査読システムは、NeurIPS の査読ガイドラインを利用して、one-shot のプロンプトなどを使って査読を生成する。査読の精度は、OpenReview にある査読結果のデータを利用して評価している。ここでも self-reflection やアンサンブルが使われ、最終的には、Area Chair にあたるエージェントによるメタレビューも行われている。この自動査読システムの精度は、平均的な人間の査読者を上回り、査読のための推論コストも $0.5 程度ととても安い。また、GPT-4o のほかに、Claude3 Sonet や、Llama3 などとの性能比較もしている。
論文の5節では、実際の生成プロセスと結果の論文1つを使った分析が行われている。例として取り上げられている生成論文のタイトルは "DualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models"で、拡散モデルによる低次元データの生成に関するものである。アイデアはアイデア作成プロセスの 6サイクル目に得られたもので、興味深さ、実行可能性、新規性などの評価値も自動でつけられている。アイデアをもとに基盤となるプログラムを修正して実験用プログラムが作成された。
実験結果を使って自動生成された論文は、結果を可視化する図なども含まれるもので、形式的には整っているが、実験プログラムのバグがある、ハルシネーションがある、冗長な部分がある、中間的な実験結果も記載されている、関連文献が少ない、などの問題点があり、自動査読システムによる総合評価は 10段階の 5(Marginally below the acceptance threshold)で不採択であった。それでも、NeurIPSの査読で 5 を取るのはそれなりに大変で、経験の浅い機械学習研究者くらいのレベルには達しているとしている。
実験は、拡散モデルによる低次元データの生成性能改善、言語モデルの性能改善、深層ニューラルネットの学習におけるグロッキング現象の分析、という3つの領域で行われた。それぞれ、tanelp/tiny-diffusion repository、NanoGPT repository、先行論文の実験の実装コードを、種となるプログラムとして利用している。各領域について、50程度のアイデアから40程度が実験に進み、そのうちの20-30 程度が論文になっているが、拡散モデル領域の生成が良く、自動査読で最大スコア6(Marginally above the acceptance threshold)をとった論文もある(これについては、なぜか、あまり詳しく書かれてはいない。どこかに投稿しているのかもしれない?)。利用したLLM による違いの比較など、興味深い分析結果も示されているが、全体を通してClaud3 Sonnet の成績が良い。GPT-4o は LaTeX のコードを書くのが苦手だそうだ。
まだざっとしか読めていないが、全体的にとても興味深い。かなりよい生成結果が得られた要因と考えられるのは:
・種となる実験プログラムを与えている
・アイデア出しの段階で LLM を変異オペレータとして使い、評価値で淘汰させる進化計算を使っている?
・実験プログラムや LaTeX プログラムの作成と実行に AIder を使っている
・Self-Reflection などによる結果の改善を繰り返している
・査読エージェントを構築して自動評価している
といったあたりだろうか。
Sakana.AI はこれまでも、進化計算的なアイデアを使ってきたので、今回も、アイデアやプログラムの創出に進化計算をうまく使っているところがポイントなのかもしれない。
ソースコードやプロンプトも公開されている。AI 技術の常として、誰かができることを示すと急激に性能が向上してゆくので、この分野も1年後には専門家を超えるレベルになっているかもしれない。AutoRes プロジェクトの取り組みも進めてゆきたい。
(2024/8/19)
SCSK株式会社の Webメディアに、AI についての記事を書かせていただきました。過去のものもあわせてまとめておきます。
第1回 AIとは何だろうか?
第3回 実世界に浸透する深層学習 -人とAIが ”共に進む”社会へ
(2024/3/26)
「深く勉強するとは?」という哲学的な問いに対して、 20世紀フランス現代思想を応用して考察し、そこで定義した「深い勉強」をするための方法や具体的な技術が書かれていて、それは「研究」にも通じるものなのでとても面白かったが、AI もまた「学習」「勉強」しているので、「AI に勉強させるための方法」として読んでも面白いのではないかと思った。
とても雑にまとめると、勉強とは、まず自己破壊=これまでのコードにうまくノレなくなることを経て、その先の(より豊かな、あるいはレベルの高い?)コードに引っ越しをすることである。そのための技術としては、垂直的に根拠を疑うアイロニー=ツッコミと水平的に連想してつないでゆくユーモア=ボケがある、という。
いずれについても、突き詰めてゆくとノンセンスの海に漂流してしまうので、どこかで打ち切る、中断して、仮固定することが重要で、どこで打ち切るかを決めるには、身体性と偶然性によってこれまで培われてきた個々人の「享楽」が鍵になる、ということだ。
これを機械学習的に見ると:
読書=教師あり学習、自己教師あり学習
自己破壊=破滅的忘却、U字発達
ツッコミ=アイロニー=能動学習(ちょっと違うか・・・)
ボケ=ユーモア=転移学習
という感じになるだろうか?
人間(生き物)は、能動・転移学習し続ける。それが人間的な自由の本質だ。
それに対して、現在の LLM は、とりあえず受動的かつ「テクスト内在的」に大量の言語データから学習している。
J. Schmidhuberさんのように、AI にとっても好奇心(fun)が重要と言っている人はいるが、
LLM の学習でも能動・転移学習は有効なのだろうか(これは誰かが研究していると思うが)?
「勉強 (study)」と「学習 (learning)」はどう違うのだろうか?
その違いは AGI の構築とはどう関係するのだろうか?
津田一郎さんなどのカオス的遍歴、的な知能観(酷い言い方だ)とはどう関係するだろうか?
といったこともちょっと気になった。
(2024/2/18)
今更だが、ChatGPT と AlphaGo の共通点について、気づいたことのメモ。
AlphaGo は、モンテカルロ木探索と強化学習の組み合わせで強くなっている。もう少し詳しく書くと、モンテカルロ木探索で、方策=次の手の生成確率に従って相互の指し手の系列を生成し、最終的な勝敗評価をフィードバックすることで方策を強化学習する。今更気づいたのは、この構成は、GhatGPT の言語モデル学習と強化学習を使ったアライメントの組み合わせと同じだ、ということ。Instruct GPT の論文をちゃんと読んでいれば、たぶん書いてあるのだろう。
言語モデルは次の単語を確率的に生成するもので、AlphaGo における次の手を生成する確率=方策に対応する。それにもとづいて生成された文章や応答を全体として評価した結果をもとにフィードバックして方策を強化学習するのがアライメントだ。
言語モデルのアライメント(しつけ)の効用としては、社会的規範に反するような危険な回答を避けることがまず挙げられることが多い(自分もそう認識していた)が、それ以前に、長文あるいは複数文の応答をまとまりとして評価してフィードバックすることで、長い出力系列の辻褄を合わせることの効果があり、そちらのほうが重要かもしれない。
別の言い方をすると、「ChatGPT は、次の単語を予測するように学習している」と説明されることが多いが(自分も講演などでそう言っている)、この説明は、言語生成モデルにおけるアライメント学習の重要性をかなり過小評価しているかもしれない。
(2023/12/12)
Veriserve 社の Veriserve Academic Initiative 2023 (2023/11/28, 29)で「生成 AI の仕組みと使い方」という講演(録画配信)をさせていただきます。参加は無料(参加登録が必要)です。
(2023/11/6)
追記:2023/12/11 10:00- 12/22 17:00 の間、オンデマンドで配信されています。
(2023/12/11)
柄谷行人氏の著作は、「畏怖する人間」「意味という病」「マルクス その可能性の中心」などの初期作品から、最近の「世界史の構造」「哲学の起源」「世界史の実験」まで、折に触れて読ませていただいている。この岩波新書は、「世界史の構造」で展開された、交換様式によって人類の原始社会以来の社会形態を説明するというアイデアを、一般読者向けにコンパクトに解説したもので、繰り返しは多いが読みやすい。
結論的には、カントの「永遠平和のために」に由来する「世界共和国」というヴィジョンが示されており、「カント その可能性と中心」とも言えるような内容になっている。「自由の相互性」「他者を自律的な目的として扱い、自分の目的の手段として扱わない」とという道徳法則に依拠する「世界共和国」は、無限遠点の理想ではあるとしても、資本主義の高度化や社会主義の敗北、民族主義や保守主義の台頭、冷戦や終わらない戦争、などをリアルタイムに経験してきた者の一人として共感できるものだし、私自身の「人の知能について知りたい」という思いもまた、根本的にはそこに由来しているように思われる。ずっと昔、人工知能学会の若手の合宿のようなものにシニアとして参加した際に、「どうして人工知能を研究しているのですか?」と尋ねられて、「人類の永遠平和のため」と答えたことを思い出した。
社会主義に対する資本主義の勝利の一つの要因は、自由市場による超分散的な価値の評価・生産分配調整にあると思うのだが、高度な人工知能を使えば、この関係を逆転できるかもしれず、「互酬的な交換様式の復活」を支えられる可能性があるのではないかと思う。それが、資本主義における格差拡大を抑制し、「世界共和国」、「自由の王国」に近付くことに少しでも役立つと良いのだが。
(2023/11/16)
1988年に、産業図書という出版社から「ニューラルネットワーク情報処理」という、当時研究が盛り上がっていたニューラルネットワークについての教科書的な本を出版させていただいたのだが、その本には「コネクショニズム入門、あるいは柔らかな記号に向けて」という副題をつけていた。本の内容は前半と後半に分かれていて、前半はニューラルネットワークの技術の説明が書かれているのだが、後半は「思想的付録:分散的表現による情報処理-コネクショニズムのこころと夢-」として、ニューラルネットワークを使った情報処理の可能性についての考察が、「分散的情報表現」を軸にして書かれている。我ながら大仰なことを書いたと思うし、「後半はわかりませんでした」と多くの人に言われたのだが、現在の深層ニューラルネットワーク、特に大規模言語モデルにおける「分散的意味表現」の本質的な重要性を見ると、とても粗い大枠としては、それほど間違ってはいなかったようにも思われる。
副題の中の「柔らかな記号」については、後半の「まとめ」に、「1)人間の使っている記号は、連想能力と(組合せ的な)操作可能性を兼ね備えたものである。2)現在の(当時の)計算機上に実現されている記号は、操作可能性という側面に着目したものである。3)(ニューラル)ネットワーク・メカニズム上で、分散的な情報表現によって記号を実現すると、連想能力はそなわるが、複雑な操作が難しくなる。このうちの1)の二面性を明示するために、人間が使っている記号を「柔らかな記号」と呼ぶことにします。これに対して、計算機上の記号は、まだ硬い記号であり、(ニューラル)ネットワーク上の記号は、柔らかすぎる記号である、というようなことがいえるでしょう。」と書かれている(文章を少し修正している)。
ChatGPT や GPT-4 に代表される大規模言語モデルや基盤モデルは、人間の言語使用や記号操作をかなりよく模倣しているような振舞いを見せている。その性能は真に驚くべきもので、生きているうちにこんな AI を使えるようになる日が来たことには感無量であるのだが、そこでは「柔らかな記号」が実現されているのだろうか?と考えると、下の AGI についてのレポートにもあるように、現在の GPT-4 などの論理的な記号操作能力は十分に高いわけではないし、その実現方法も人間の脳とはだいぶ異なると思われる。それにしても、ずいぶんと近づいたようには思う。にもかかわらず、それがどのようにして実現されているのかは、残念ながらよくわからない。そこがなんとももどかしい。
人工知能の科学としての側面として「人間の知能の構成的な理解」つまり、作ってみることを通じて理解する、があるのだが、残念ながら、作ってみてもあまりよくわからない、というのが今の状態だ。今後、今回のような性能の飛躍や、人間に近い振舞いが、いったいどのようにしてネットワークから生まれているのかの解明が進むことを期待したい。とはいえ、技術が進めば、いずれ、自分の中で起こっていることを AGI 自身に語らせることもできるようになるのかもしれないのだが・・・
(2023/3/31)
こちらは、Microsoft Research の研究者による、汎用人工知能(Artificial General Intelligence, AGI)に関するレポート。GPT-4 がどれくらいAGI に近づいているのかを、マルチモーダル性、プログラミングの能力、数学の能力、他のシステムや物理的環境とのインタラクション、人間とのインタラクション(相手の心を読む能力や説明する能力)、などいろいろな側面から評価するとともに、現状の限界や課題、社会的なインパクトも書かれている。しかし、こうした性能がどうやって実現されているかについては、今後の大きな研究課題、としている。
(2023/3/31)
GPT-4 に関する OpenAI のテクニカルレポート。GPT-4 の構築に関する技術のポイントや、前のバージョンの GPT 3.5 との性能の比較などが書かれている。構築に際しては、小さなモデルで超パラメータなどのチューニングをしてから大規模化する(predictable scaling)ことで、計算時間を 1/1000 以下にした、ということだ。著者はリストされているが、数百人で、全体で 100ページもあるが、最初の 15ページに概要が書かれていて、その後は付録。付録の一部の System Card(AI システムの性質に関する説明)は、日本語訳が公開されている。
(2023/3/31)
SCSK株式会社の Webメディアに、ChatGPT/GPT-4 のような生成系 AI についての記事を書きました。
(2023/3/31)
深層ニューラルネットで、信頼度つきの予測をするための、事前分布について。P(y|x) ではなくて、P(x,y) をベイズ推定する枠組みで、Out-of-Data の領域での信頼度を評価するための工夫になっているらしい。
(2020/2/2)
2019年3月5日に開催された公開シンポジウム「深層学習の先にあるもの– 記号推論との融合を目指して(2)」での講演。YouTube で公開していただいた。
(2019/12/29)
DeepMind のベイジアングループによる、Neural Processes ファミリー論文の最初の1本。ネットワークの構造は GQN (Generative Query Network)を踏襲して、入出力ペアの集合から、DNN のエンコーダで関数の内部表現を作るというものになっているようだ。デコーダー側は入力ごとにガウス分布パラメータが出てくる。この後、Neural Processes(グローバルな潜在変数導入)、Attentive Neural Processes(アテンション導入)、Sequential Neural Processes(時系列)というように展開している。ガウス過程と較べて、事後確率計算の計算量が少ないのが特徴。個人的には好きなタイプの方向性で、何かうまく使えると良いのだが。
(2019/12/29)
「研究者」のイメージはいろいろだ。つまり、そこには、いくつかの要素が混在していると思う。一つ目は、Explorer(探検者、探索者)。金鉱堀りのように、掘るべき場所のあたりをつける、研究者としてのセンス、嗅覚を持っている人だ。二つ目は、Researcher(調査者)。広くサーベイして、その結果をまとめて、どこを掘るかを検討するときの基礎資料をまとめる。可能性が高そうなところを漏らさずにサーベイするアンテナや人脈と、まとめる能力が重要になる。三つ目は、Technician(実験家、技術者)。物理化学の実験や、プログラミング、あるいは理論的計算など、特殊なスキルを持っていて、研究の推進に貢献する。
物理学以来、「理論」と「実験」で分けられることが多いが、別の軸として、上のような分け方をしてみると、理論研究をする場合でも、上の3つはあることがわかる。
この3つを同じ人が兼ね備えると、三拍子揃うので素晴らしいのだが、なかなかそれは難しいので、チームを組むという手もあるだろう。そのときに、Explorer が最も重要で、リーダーシップを取ることになるわけだが、ここをやる人には、Researcher や Technician としての経験もある程度は必要ではないかと思う。つまり、実際に手を動かしていないのに、土地勘だけある、というのは考えにくくて、山師に近づきそうだ。
もともと、研究者は山師ではあるのだが、若い頃に優れた Explorer のチームで、Researcher や Technician として働いた後、中堅になったら Explorer (PI)として自分のチームを率いて、大き目のプロジェクトをする、というが普通の形なのだろう。
「研究所」は、そうした人材をうまく集めて、組織して、キャリアパスも含めて処遇できるような基本設計になっていることが望ましい、と思う。
(2019/12/29)
さらに少し古いが、機械学習を使った MCTS の改善と、カーリングの作戦選択への応用。もしも実際の試合のサポートにつながってゆくと面白いと思う。
(2019/7/13)
少し古いが、二つ前のエントリーで書いたような形で、方策学習と探索を組み合わせて強化学習する、というアイデアを実装して、Hex という2人対戦ボードゲームで評価している研究があった。方策学習と探索の組み合わせ方は双方向的になっていて、お互いがお互いを強化するようにしている。UCL の David Barber らのグループの研究。ゲームではなく、ロボットや実世界の問題への適用例を早く見たい。
NIPS 2017 に採択されている。技術的には AlphaGo がやっていることとそれほどは違わないように思えるが(AlphaGo Zero との比較が補足されている)、人間の思考と結びつけたところが評価されたのだろうか。
(2019/7/13)
ユーザをエージェントとみなして、その行動方策関数と報酬関数を敵対的学習によって同時に学習させる、という仕組みの提案と、推薦システム(クリック予測)に適用した実験的評価。介入する対象であるユーザのモデルの新しい作り方として面白そう。
ICML 2019 に採択されていて、スライドはこちら。
(2019/7/13)
「知能」の定義ができない、というか、定義が無数にあるので、「人工知能」の定義も無数にあり、その要素機能や技術も無数にあるのだが、あえて技術的なコアを一言で言うとすれば、どう言うのが納得感があるのだろう?ということをこの5年間くらい、折に触れて考えてきた。
「データからの知識獲得のための機械学習」、が思いつくのだが、その獲得した知識は何のためのもの、なのだろうか? 認識? 予測? 制御? それらを使ったきめ細かい状況依存的なな応答?
人工知能研究として最もインパクトのあったものの一つは、依然として「AlphaGo」だが、そこで機械学習がどう使われているのかと考えると、探索のガイドである。深層ニューラルネットワークによる局面=状況の評価が、モンテカルロ木探索をガイドして、探索するべき手=可能性=空間を狭めるために使われている。
人工知能のタームで言えば「ヒューリスティックな探索」で、これは、人工知能の分野では、最も本質的な技術の一つとされてきた。
直観と読みについて将棋の羽生善治さんなどもよく書かれているように、熟練するということは、直観で読むべき手が絞れるということなのだ。もちろん、直観は常に正しいとは限らない。それは多数の経験から紡ぎだされたもので、多くの場合にうまくゆくが、盲点もある。これは、機械学習も同じだ。だから、それを補うために、しっかりと先を読んで検証をする。そうして、その局面=状況で、できるだけ良い行動ができるようにする。
これは、いわるゆ「フレーム問題」の疑似的解決でもある。
より日常的な自動車の運転でも、最初はどこを見ればよいかわからない状態だが、慣れてくると、無意識のうちに見るべきところを見ているようになる。それでももちろん、盲点はあるのだが。
人の情報処理システムにはファストとスローの2つの系がある、と言われているということは、以前に書いたような気がするが、ヒューリスティックな探索は、ファスト=直観、スロー=読み、の一つの汎用的な組み合わせ方でもある。
「読み」、「探索」を違う言葉で言うと、「シミュレーション」である。
シミュレーションは、物理化学的な、(かなり)厳密なモデルがある場合のもので、人工知能の分野では、そういうものが作れないことが多いこともあり、これまであまり議論されてこなかった。しかし、シミュレーションの技術も発展している現在、機械学習とシミュレーションの組み合わせは重要な研究テーマになっている。私の所属している人工知能研究センターでも、NEC-産総研連携研究室では、いち早くそのテーマに取り組んできた。機械学習であたりをつけて、シミュレーションで検証する、というのは、機械学習とシミュレーションの組み合わせ方としては自然なものだ。
データ=経験から帰納する機械学習は 100% 正解することはないので、その品質をどう保証するか、という議論も行われているが、機械学習の答えをそのまま使わずに、その後にしっかり検証するプロセスを入れるということは、品質保証のための一つのアプローチでもあるだろう。
しかし、AlphaGo がうまくいったのは、言うまでもなく、囲碁が完全情報ゲームであり、閉じた世界だからだ。そこでは正確なシミュレーションができる。それに対して、実世界は、何が起こるかわからない開いた世界である。当然、シミュレーションも不完全にならざるを得ない。
でもそれは、人工知能に限ったことではない。たとえば、食品の品質保証のために、工場をできるだけ閉鎖系にしたり、マニュアルを作ったりする。それでも、予想外のところから異物が混入したりすることを完全に避けることはできない。囲碁でも、対戦相手のモデルが作れるわけではなく、網羅的な探索ができるわけでもない。
人間知能は、開いた世界の中で、経験から得られるもの、学校で習うもの、ネットで検索するもの、などできる限りの知識を使いながら、体じゅうのセンサからの大量のストリーム情報を即応的に、あるいは熟考的に処理して、なんとかより良い行動をしようとしている。インターネット、そして、IoT が普及した開いた世界で使われる IT としての人工知能もまた同じことをすることになるのだろう。
機械学習によるヒューリスティックを使った探索と最適化、を社会の中でどのように使うのか?
そのためにどんなデータを取り、どんなふうに実世界に働きかけるのか?
Society5,0 = スマート社会は、知的な生命体ともいえるもので、それを作るというとてもワクワクするべき時代に私たちは生きているのだが、いろいろな人が 言っているように、それはまた、とても悲惨な世界をも生み出す可能性があることを忘れてはいけない。そのために AI for Social Good や、AI 倫理の議論が行われているところだ。特に後者は、AI を ethical にする(そんなことできるのか? ※ J. P. ホーガンの「未来の二つの顔」を参照)という意味に加えて、人間がそれを倫理的に使いこなすという面も大きいのだと思う。
(2019/7/13)
子供の言語獲得の研究で著名な今井むつみさんの新書。知識とは何か、批判的思考や創造性の基盤となる生きた知識を学ぶとはどういうことか、がやさしく説明されていて、人工知能について考えるためにも参考になる。
(2019/6/29)
大規模データで学習させた汎用の学習済モデルを、個別の課題の少数のデータでの追加学習などでチューニングする転移学習は、画像認識における ImageNet を代表として盛んにおこなわれているが、最近、自然言語処理でもそうした手法が注目されている。特に、Google が学習させた BERT が有名だが、その弱点を修正して、性能的にかなり改善が得られたという論文。
日本語の短い紹介がもう出ている。
(2019/6/28)
プランニングに使えるような潜在表現空間を教師なしで学習するための GAN の提案。学習の評価関数に相互情報量を取り入れることでより性質の良い潜在表現を獲得させる InfoGAN の改良。ロープの操作のプランニングなどで、潜在空間でのプランニングがより良いものになっていることを検証している。著者に Russell と Abbeel が含まれていることも含め、深層学習とプランニングの融合に向けた研究としてとても興味深い。
(2019/6/8)
ビデオクリップから登場人物の状態や関係を記述するグラフを抽出するタスクを設定し、学習のためのデータセットを構築して、データの性質を解析している。Video2KnowledgeGraph に向けた研究の代表的事例として大変興味深い。
(2019/5/19)
「記号創発ロボティクス」の 2015年9月頃の時点でのサーベイ論文。身体を持つロボットを使って、記号(言語を含む)の創発を構成的に研究することで、必然的にシンボルグラウンディング問題を扱うことになる。
arXive 版はこちら。
(2019/5/4)
完全なモデルが作れない領域で、モデルフリーとモデルベースの強化学習を組み合わせることで、学習効率を上げる試み。不完全なモデルと、それを活用する仕組みもニューラルネットワークで作って、End-to-End で学習させる。Sokoban と Mini-Packman で有効性を検証。熟考的なプランニングと、即応的なモデルフリーの行動選択を組み合わせたとても面白い方向の DeepMind 研究なのだが、その後発展しているのだろうか?
日本語の解説スライド(松尾研、塩谷 碩彬さん作成)はこちら。
(2019/5/2)
人工知能について入門的な講演をすることがある。まず最初に、人工知能とは何か、ということを話したいのだが、人工知能的なシステムの事例はいろいろあるものの、人工知能の定義はなかなか難しい。しかたなく「知識を使って効率よく振る舞うシステム」というようなことを言うことが多い。今も昔も、人工知能の研究の中核に「知識」があるのは間違いがないだろう。
では「知識」とは何か?それは、観測データを抽象化して、そこに内在する普遍性の高いパターン、法則を抽出したものと言われる。少しややこしいのは、データと知識に二分されるわけではなく、知識もまたデータになる、というか、抽象化のステップには何段階も考えられる、ということだ。
その「知識」には、乱暴に分けると、明示的、言語化が容易な知識と、暗黙的で、言語化が難しい知識、の2種類があると言われている。具体的な事例で言えば、前者は、知識グラフや、ルールベース、物理・化学的な数式モデルであり、後者は、深層ニューラルネットワークで学習された知識、があたるだろう。これは、人の情報処理システムが、カーネマンなどが言うように、スローな熟考的、記号処理的なシステムと、即応的、パターン処理的なシステムから成ることにも対応していると考えられる。
こうした知識は、システムがインタラクションする世界(自分自身も含まれる)の「モデル」であり、それを持つことによって、システムは世界を分類、認識し、シミュレーションし、予測し、計画を立てることで、行きあたりばったりよりはずっと効率よく振る舞うことが可能になる。この知識の役割は、明示的な知識も、暗黙的な知識もそれほどは違わない。知識を持つことにより、観測データから、観測できない、あるいは、観測にコストがかかること(未来や人の内面はその象徴だ)を推測すること、つまり、見えないものを(ある程度は)見ること、ができるようになる。その能力を大きな大脳皮質を使った後天的な学習によって大幅に強化したことで、人類は厳しい競争を勝ち抜いて、地球上のあらゆる場所に跋扈するようになった。
現在の人工知能は、明示的な知識に関しては、大規模データからテキストマイニング等によって、巨大な知識グラフや知識ベースが構築され、暗黙的な知識に関しても、大規模データから、深層学習等によって、人間に匹敵するような性能の認識器や予測器が構築されるようになっている。それによって、使える場面が増えて、「汎用基盤技術」と認識されている。
そこにおける、人工知能学的な最大の問題の一つは、その二つの知識、システムが、人間のようには統合されていないことだ。この問題は、「シンボル・グラウンディング問題」などと呼ばれて、1980年代のニューラルネットワークブームの頃から多くの人によって指摘され続けていて、DeepMind も最重要課題の一つとして取り組んでいるようだが、未だに解決されてはいないように思われる。
ブレークスルーの可能性を感じさせるものは、一つは、動作認識などの動画からの現象認識の技術、もう一つは、深層学習による生成モデルである。現状は、認識も、生成も、静止画が中心だが、動画が対象になれば、そこに現れる、構造のある「現象」を扱うことになる。静止画に現れる名詞的対称のに関する関係は、形容詞-名詞的なものが主だが、動画中の現象になれば、主語-述語-目的語の3項関係を中心に、より多様な関係が対象とになり、認識結果は、知識グラフになってゆくのが自然だ。
逆に、そうした関係構造を持つ知識グラフから、現象の動画、あるいは、観測データよりは潜在的・中間的な「イメージ」を生成することができれば、動画をスタートとして、知識グラフによる推論や計画を途中に挟んで、予測、推論をすることが可能になると思われる。知識グラフとテキストは既につながっているので、説明の生成や対話的な協調作業にもつながってゆくだろう。
脳の情報処理の理解という観点からは、知識グラフや述語論理のような記号計算を、神経回路でどのように実現しているのかも問題だが、それはとりあえず置いておくとしても、記号計算とパターン処理をつなぐことの工学的な意味は高いのではないかと思われる。特に、計算機は、人間よりもはるかに高い記号処理能力を持つことから、囲碁や将棋で起こったことが、より広い領域に広がるためにも必要なことだろう。
敵対的学習による動画の変換や生成などの驚くべき成果を見ていると、Video 2 Knowledge Graph、そしてその逆、はもうすぐ近いところにあるようにも思える。しかし、単に感覚情報を知識グラフとをつなぐだけでは、知識グラフ上の推論能力の限界に陥るだけかもしれず、何かそこに、たとえば井筒俊彦さんが「阿頼耶識」と呼んだ中間表現、位相的な性質と組み合わせ的な性質を併せ持つ表現が必要なのかもしれない。いずれにしても、こうした方向で新たなブレークスルーが生まれることを期待している。
(2019/4/30)
【CNN の学習結果を説明するために、各層で学習された特徴量の間の関係をグラフ構造で表すという方法の提案。画像の中の構造の抽出や、CNN の学習結果の転移などに使えるようだ。
(2019/4/20)
LSTM を使ったカーネル関数をガウス過程に用いることで、時系列のベイズ学習を行う。カーネル法でしばしば問題になる、データ数に対するスケーラビリティについても一定の解決を与えている。時系列深層学習のベイズ的な取り扱いの一つのアプローチとして興味深い。
(2019/4/20)
深層ニューラルネットワークが、層の幅(ユニット数)が無限大に近づくときに、どのようなガウス過程になるかを明らかにした論文。深層ニューラルネットのベイズ学習の一つの強力な手法を与えている。Google Brain のチームの研究。何かで使ってみたい。
日本語の素晴らしい解説はこちら。
(2019/4/20)
AIRC からは辻井研究センター長がパネリストとして登壇予定。ABCI と SINET5 を使い倒した、同時並列動画認識のデモも予定されている。
(2019/4/20)
複数の物体が置かれているシーンに対して、「球体の左にある赤い物体の形は何ですか?」というような、記号的推論を必要とする質問に答えられるように学習するためのメカニズムと学習法の提案。学習用データとしては、画像、質問文、正解、の3つ組を使う。画像からは物体を抽出してその属性を含むベクトル表現を得る。質問文からはこの問題専用のプログラム言語のプログラムを生成し、それを画像認識結果に適用して回答を得る。そのプロセス全体を End-to-End で学習させる。ポイントは、途中に使うプログラムについて正解を用意する必要が無いというところ。カリキュラム学習なども使って学習させている。MIT CSAIL と DeepMind のチームの研究。深層学習と記号処理の融合の研究として興味深い。
(2019/4/14)
内閣府の第3回 イノベーション政策強化推進のための有識者会議「AI戦略」(AI戦略実行会議)の資料
(2019/4/14)