Language and Robotics 

研究会

Language and Robotics 研究会 (LangRobo研究会) とは?

2017-2019頃に活動しており、コロナ以降休止していたLanguage and Robotics研究会 (LangRobo研究会)を再開する運びとなりました。 自然言語処理分野とロボティクス分野の近年の融合と発展は著しく、身体を持つエージェントが人間と自然言語でコミュニケーションしながら環境内を動いたりといった研究も両分野において多く見られるようになってきました。言語におけるロボティクスの導入やロボティクスにおける言語の導入の価値は今後も高まっていくことが期待されます(詳しくは文献[1]をご覧ください)。 LangRobo研究会は、今後の自然言語処理とロボティクスの融合をどのように進めていくのが良いかを議論する交流の場として活動していきます。

[1] Survey on frontiers of language and robotics


今後のスケジュール



第10回より、YouTubeにて講演の録画を公開しております(ぜひチャンネル登録もお願いいたします!)

YouTubeチャンネル(過去の講演録画一覧)

20回研究会

参加受付(connpass)

開催日:2023年1215日 12:20-13:30

講演者:堀井 隆斗 さん (大阪大学)

発表タイトル:身体情報から創発した記号としての感情

概要:感性工学やロボティクス,特に人-ロボットインタラクション(HRI)の領域では,人との感情コミュニケーションの実現を目的とした感情認識研究や感情表出研究が広く進められている.しかし,このようなシステムで対象として扱われている「感情」は,我々が日常生活の中で感じるそれと同じであろうか?ロボットが感情そのものを理解し,人との柔軟なコミュニケーションを実現するためには,感情の認識や表出のみならずそれらをつなぐ感情の生成過程を理解することが必要だと考える.

そこで本発表では,ヒトの脳の情報処理基盤として注目されている予測的処理や身体に紐付いた経験や感覚としての内受容感覚に注目し,外界の知覚と身体内の資源(エネルギーなど)管理の結果として感情を解釈する構成主義的情動理論(theory of constructed emotion)[Barret 17]を,マルチモーダル情報の予測や統合を通じて知能を理解しようとする記号創発ロボティクスの観点から捉える試みについて紹介する.特にヒトの発達過程における感情の分化や構造化,身体反応に注目した概念空間の形成について議論したい. 

オンライン開催


過去の研究会の記録はこちら

20231215[資料]LangRobo講演資料_堀井先生.pdf

第19回研究会

参加受付(connpass)

開催日:2023年1120日 12:20-13:30

講演者:篠崎隆宏さん  (東京工業大学)

発表タイトル:内発的動機付けを備えた自律エージェントによる音声言語獲得

概要:音声言語や文字言語の使用は、人間の知性の重要な要素である。連続信号を扱う必要がある分、機械学習の観点からは音声言語の方が文字言語のモデル化よりも複雑である。しかし人間にとってはむしろ音声言語の方が基本的であり、乳幼児は特別な教育を受けなくても周囲との関りの中で自然に音声言語を獲得する能力を備えている。具体的なメカニズムは未解明であるが、音声言語の獲得には感覚のシンボル化を含め人間の知性の根幹にも関わる様々な学習・認識能力が用いられていると考えられる。本研究では、音声対話という人間社会において観察される複雑な現象の根本原理を内部状態と内発的動機付けを備えた自律エージェントによる行動最適化プロセスとして定式化する。そしてこの定式化に基づき、特定の言語知識を全く持たない状態からラベル付きデータを用いずに音声言語を獲得できるエージェントを提案する。また、学習を効率化する目的で工夫したエージェントの内部構成と脳構造との対応や、内発的動機付けと自由意志の関係について考察する。

オンライン開催


過去の研究会の記録はこちら

20231120LangRobo_篠崎先生.pdf

第19回研究会にご参加いただきありがとうございました。
篠崎さんより、当日に回答が間に合わなかった質問への回答をいただいておりますので、下記に公開させていただきます。

Q. 観察学習は学習の効率化というより、外部の言語環境の模倣になっているように感じました。今の実験では、どのくらい既存の言語環境を仮定しているのでしょうか?

A. 特定の言語知識は何も利用していません。

例えば観察学習時に赤いリンゴとともに「リンゴ」「赤いリンゴです」「リンゴが一つ」「リンゴが食べたい」「リンゴいらない」などの音声が多く観察されると、リンゴがある場面ではそういう発話がされる可能性が高いということを学びます。単語境界や画像中のオブジェクトのセグメント情報などは一切与えられない設定です。例えばもしデータが英語から日本語に差し替えられれば、そのまま日本語を勉強するような仕組みになっています。

ある程度模倣学習的なことをしていると思いますが、もっと積極的に模倣学習を行う能力を組み込めばさらに学習効率を上げられると考えています。

Q. 音声系列の可能性が指数的に大きいからという話があったのですが、ホワイトノイズから始めるかわりに、サイン波のような簡単な系列から、徐々に複雑な音声を行動として学習することはできないでしょうか?

A. 特定の母音位であればサイン波を組み合わせる方法でもある程度できるかもしれません。そこからカリキュラム学習で扱える音素を拡大していくというのはあり得るかもしれません。今回提案しているネットワーク構成・学習方法がすべてということはないです。しかし特定の言語知識を仮定することなく教師なしで一般的な発音の学習を行おうとすると、やはり何らかの代わりとなる方法でラベルなし音声から得られる音声の情報を活用した学習が必要になると思います。

Q. 語彙獲得においてどれほどまでにexplicitな分節化とデータベース的な語彙リストの獲得は必要なのでしょうか? 全てが分散表現の中にあるべきというのが答えな気がしています。(自分の反省も込めて)

A. 教師なしで音声単語の語彙リスト(音声辞書)を作成する方式については、実は教師なし単語学習のためのアルゴリズムを使わずに音声波形をランダムカットする方法でも強化学習は進みます。辞書学習の性能はさほどあてにしていなくて、発音したい単語が必ず辞書に含まれるようにリコールを重視して辞書を構成すれば、強化学習は進みます。辞書の代わりに言語モデルを使う改良版については、今のところ疑似音素に書き起こした後は分節化や単語辞書の構築などは行っていません。文は丸ごと疑似音素列として言語モデルに学習させています。 

第18回研究会

参加受付(connpass)

開催日:2023年10月20日 12:10-13:20

講演者:松嶋達也さん  (東京大学)

発表タイトル:AIのラボからロボティクスへ 東大松尾研究室における基盤モデルを活用した汎化性・適応可能性の高いロボットシステム開発

概要:本発表では、東大松尾研究室における家庭内サービスロボットシステム構築の事例紹介を通じて、実世界のロボットシステムの特徴やデータドリブンな手法を取り入れて汎化性・柔軟性を高めるための方法に関して議論する。

参考URL

https://trail.t.u-tokyo.ac.jp/ja/post/23-09-13-rsj-fm-based-robosys/

オンライン開催


過去の研究会の記録はこちら

20231020_LanguageRobotics勉強会

第17回研究会

参加受付(connpass)

開催日:2023年9月21日 11:30-12:40

講演者:小林 一郎さん  (お茶の水女子大)

発表タイトル:言語を用いた記号操作による実世界シミュレーションへ向けて

概要:ヒトと機械が共生する環境において観察した事象に対する経験や感覚を共有し、円滑なコミュニケーションを実現するために、機械に実世界の物理環境を理解させ予測可能とし、その状態を言語で認識し、言語による記号操作に基づいた行動計画により、実世界での行動を可能にする基盤技術を開発する.

このことを実現するために以下の3つの項目に取り組んでいる.

(項目1)実世界環境の予測モデルの構築:観測対象の動作の潜在構造を抽出し、対象の物理特性を把握し、観測状態を言語で表現する.

(項目2)実世界自然言語推論の開発:環境および観察対象の持つ物理的特性の常識を踏まえ、観察世界の予測状態を記述する文生成を行う自然言語推論手法を開発する.

(項目3)実世界での言語理解:言語指示を理解し、環境に適切な動作インタラクションするエージェントを構築する.

提案する手法により、言語が情報処理の媒体となり、「計算機」を「思考機」へと変化させる新たなAI パラダイム創成のための基盤技術の構築を目指す. 


オンライン開催


過去の研究会の記録はこちら

20230921_Lang&Robo発表資料・小林一郎.pdf

第17回研究会にご参加いただきありがとうございました。
小林さんより、当日に回答が間に合わなかった質問への回答をいただいておりますので、下記に公開させていただきます。

Q. コメントですが、物理的な状況を言葉でそのまま記述するだけでなく、人間が行っているので、それを人間がどう解釈しているのか、が含まれることがこの研究で重要なのではないかと思いました。同じ物理的状況でも、人や観点によって言語的記述が異なることがあり得るのではないかと思います。

A. コメントをありがとうございます。今回、物理的な状況を言葉で説明するのはエージェントを対象に考えておりました。ただ、ご指摘いただいたように人間による個々の解釈というところがとても大切と思っており、たとえエージェントとしても解釈の違いが存在することが望まれると思っています。人間は個々に異なる知能を体現しているという点が重要であり、「知」というものを画一的に考えてしまう傾向にある人工知能の技術をあらためて、「知」というものは不均一であるものの視点から捉えることがとても重要であると思います。

そのためには、同じ刺激に対しても個々によって解釈が異なることを許容する自然言語理解も積極的に考える必要があると思っています。

不均一な知能がゆえに、言葉の使い方(思考のしかた)も異なり、自己が形成されると考えています。


Q. 物理特性がカバーしている範囲に興味があります。基本的にはニュートン力学の範囲内で、熱力学や量子力学などは人間の実体験から離れて入り部分も多いので対象外でしょうか?

A. ご質問ありがとうございます。今回、私が注目していたのは、人が日常生活の中で常識として他人と共有できる直感的な物理現象となります。熱力学においては火にかけたやかんが沸騰すると蒸気が出て、やかんの蓋を持ち上げるというような誰でも知っている現象くらいが扱える範囲と考えております。言い換えれば、言葉で簡単に説明できる範囲となっており、残念ながら量子力学の物理学をその範囲としてカバーはしておりません。


Q. 今回お話しいただいた内容を実際のロボット動作レベルに落とし込んだ例はありますでしょうか?

A. ご質問ありがとうございます。私が勉強不足のため、そのような例を確認できておりません。逆にロボットを制御しようとする際に

直観物理学のような常識的な知識はすでに考慮されていて行動計画(制御方針)が決められているのではないかと思ったりします。

そのような意味では、直観物理学が必要になるのは既に決まった行動をする際ではなく、未知の状態を「予測」する際に、観測対象が

どのような振る舞いをするのかということを踏まえて、こちらも行動を決定するという時に必要になるのではないかと思います。

ヒトは常に予測を行なって行動をしているという予測符号化という脳における機能の仮説がありますが、それが正しいとするならば、脳に予測の機能があるから直観物理学のような知識も自然に備わってくるのではないかと思います。

そのような理由で、ロボットの行動に予測の機能を備え付けた場合、実世界の将来状態を予測するのに直観物理学のようなものが必要になるのではないかと思います。

また、状態を言語で表現するということでは、曖昧な言葉(高い、低い、ふつう、など)をファジィ集合で表現し、言語(ファジィ変数)で推論を行うファジィ推論(ファジィ制御)が1990年代に仙台の地下鉄の制御に用いられたことなどが少し近いかもしれません。

ただ、ファジィ推論はやはり予測のような機能は含んでおらず、今回の内容とは異なると考えています。


Q. 構築されたデータセットの話で、ワーカにちゃんと作業してもらうように工夫したところとかあれば教えていただきたいです。

A. ご質問ありがとうございます。一般的な話ではなく具体的な例になってしまうのですが、今回は、色の着いた「円柱」や「立方体」の衝突などのイベントについて、その後の状態を予測してもらうということを依頼したのですが、「シアンと青が勢いよくぶつかり青が倒れる」のように物体名を省略して雑に回答する人などがいました。そのため、物体名を

省略しないようにお願いをする必要がありました。また、日本人以外の人の回答が適切でないものもありました。語彙力がないワーカもおり、収集したデータが使えなさそうな場合もありました。

また、ワーカに的確な作業をしてもらいたいとの願いで、データを収集する課題に対して、ワーカからの感想や指摘を集めました。

その中に以下のようなものがありました。

・どのようにぶつかるかがイメージしにくかった。もう少しどのように移動している状態から衝突するかが分かればイメージしやすかったー>これにより画像の添付方法などを再検討しました。

・多くが想像しにくい設問でした。ー>物体の状態についてもう少し情報を提供するなどを再検討しました。

・問題数が多かった。

クラウドソーシングする際には、まずは少量のデータで行い、ワーカの感想や指摘を収集するようにしました。それに基づき、次のタスクを修正してたくさんのデータを集めるようにしました。


Q. P.19の「環境の変化点」というのは、画像の説明文が変わる瞬間、みたいなイメージでいれば良いのでしょうか?

A. ご質問ありがとうございます。はい。そのとおりです。今回、観察している環境を言語で記述するということを目的としていたため、観察対象を記述すべき点を抽出するということを考えて、環境の変化点を予測抽出しました。発表の中で説明したVariational Temporal Abstractにおいては、壁に色のついた迷路を動き回る課題において、角を曲がると壁の色が変わり環境が変わったということが認識され、そのことを報告すべきタイミングであると考えます。一方で、同じ通路をずっと歩いている場合は、両側の壁の色は常に同じなので、特筆すべき変化はないということで、言語で説明しなくて良いということと考えました。


Q. P.22,23あたりで、環境の変化点を分節化しているということだと思うのですが、どのような分節化が望ましいといった基準はあるのでしょうか?(例えば、人間が言語化できる変化かどうか、など)

A. ご質問ありがとうございます。私も同じようなことを常に考えており、ご質問に大変共感いたします。

ヒトが何を言語で説明すべきか、というのは、本来、個々の嗜好によって異なるものではないかと考えます。

現時点ではそのような複雑なものを扱うことができず、今回のような簡単な物理世界では、観測対象の変曲点(変化点)に無理やり

合わせて状態を言語で表現するとしました。ヒトのように興味あることに着目して、そのことを中心に観察対象を説明するような言語による世界の分節化が望ましいのではないかと個人的には思っています。

今回の内容では、観察対象を言語で説明するという課題において、何を言語で過不足なく説明すべきかを考えたときの一つの回答として変曲点(変化点)を対象にしたにすぎません。

ご質問に対する回答をするにはもう少し研究を進めていろいろと考える必要があると思っています。

十分な回答になっておらず申し訳ございません。

第16回研究会

参加受付(connpass)

開催日:2023年8月23日 12:10-13:15

講演者:牧原 昂志さん  (大阪大学/産総研)

発表タイトル:大規模言語・視覚モデルを用いたロボティクス基盤モデル 

概要:Transformerの登場以降,自然言語処理分野ではGPT-4を中心とした大規模言語モデル(LLM)が注目されるようになった.一方,Computer Vision分野でもSegment Anythingなどの大規模視覚モデル(LVM)が出現し,同様に注目を集めている.この流れはロボティクス分野にも影響を及ぼし,RT-1などをはじめとするこれらの技術を活用した新たな手法が数多く提案されている.指示文やインタラクションによって,ロボットが対応可能なマニピュレーションタスクの種類が増加し,エラーリカバリーなどの活用範囲も広がっている.本稿では,ロボティクス研究のこれまでの流れを紹介しつつ,LLMとLVMを活用したロボティクスにおける最新の研究事例を取り上げ,これらの進展と共に今後必要となる技術について議論を展開する. 


オンライン開催


過去の研究会の記録はこちら

Robotics x Foundation Models_langrobo

第16回研究会にご参加いただきありがとうございました。
牧原さんより、当日に回答が間に合わなかった質問への回答をいただいておりますので、下記に公開させていただきます。

Q. LLMでロボットの行動系列を生成するのに興味があります。どれくらい複雑なタスクができる/できないといった考察などあるのでしょうか?(数学の問題を解くのに何ケタの計算までできるか、みたいな)

A. マニピュレーションに関しては,位置を指定して手先を移動させる程度のタスク(Pick-and-Place)はLLMで記述ができていて,これを組み合わせた手順生成(これを持ってきてここに移動するとか)くらいまではできるといった事例があります.できないことに関しては,対象物のどこをつかんで欲しいとか,位置の細かな制御が必要なものなど,言語だけでは表現しにくい操作は難しいですね.

Q. P34前後だったと思いますが、リアルでの模倣学習の結果(ポリシー?)とシミュレータでの強化学習の結果(ポリシー?)がをどのように統合させているかわかれば教えて頂きたいです。 また、P51で模倣学習と強化学習の組み合わせが今後重要な点の一つに上げていらっしゃいますが、どのような統合方法が良いと考えていらっしゃいますか?

A. ポリシーの統合ではなく,シミュレーションで実環境に似せた軌道データを強化学習(https://arxiv.org/pdf/2104.08212.pdf)で取得した後に,実データと混ぜて元のモデルを学習させているといった流れになります.スライドの書き方が悪くて誤解を招いてしまい申し訳ありません.組み合わせ方についてはRT-1ではデータとして統合してたので,あるモダリティ(画像や軌道とか)を介して統合する方針は面白いと思っています.

Q. ロボット用のマルチモーダル基盤モデルを構築・学習させようとすると、どれくらいの規模のデータ取得や資源、時間が必要なのでしょうか?

A. ロボットの基盤モデルもまだまだ出始めなので全然検討はつかないですが,画像や言語と同じようにBillon規模のデータやモデルサイズ,それらを学習可能な計算資源は必要かもしれません.

Q. 上の同様な質問と思いますが、人間のように両手で作業するタスクの研究事例はありますか? 

A. 基盤モデルとしては見つかってはいませんが,Bimanual Manipulationという分野で組立作業や大きな物体の操作から柔軟物体操作などいろんな事例があります.


15回研究会

参加受付(connpass

開催日:2023年7月710:30-11:40

講演者:内田 諭さん  (九州大学)

発表タイトル:記号創発ロボットは多義性を獲得できるか:認知言語学の視点から

概要:人間が記憶できる情報量は有限である。それ故、コミュニケーションの手段として用いられる言語は、記号体系として経済性が重要な原理となり、一つのことばが複数の事象を指す多義性が発生する。その根底には、意味の類似性を結びつける認知機構が存在すると仮定することができる。一方、機械の記憶容量は人間に比べると無限とも言える。つまり、機械が創発する記号体系において経済性はそれほど重要ではない可能性がある。しかしながら、人間が持つ類似性を扱う能力は、具体的な概念と抽象的な概念を結びつけるためには不可欠なものである。本発表では、人間の言語体系が持つメタファーやメトニミーなどの現象に着目し、それを利用した意味拡張(多義性)が記号創発ロボットにおいて発生しうるかについて、認知言語学の視点から、ロボット工学の研究者に問いかける形で、議論したいと考えている。


オンライン開催


過去の研究会の記録はこちら

2023LangRobo_15_uchida.pdf

第15回研究会にご参加いただきありがとうございました。
内田さんより、当日に回答が間に合わなかった質問への回答をいただいておりますので、下記に公開させていただきます。


Q. 人間とロボットの対比で「五感」と「センサー」が対比されていましたが、この二つの大きな差はなんでしょう?? 何を差異として想定されていましたか?

A. センサーの精度や範囲の違いだと考えました。全く同じ感覚を持っていない=創発する記号が違っても不思議はない、ということになるかと思います。


Q. 人間だと新しいメトニミーはどういう時に生じるのでしょうか?大規模言語モデルでも新しいメニトミーを創発させる取り組みなどは既にあるのでしょうか?

A. 「一時的なメトニミー」は、そのものの名前がわからない場合に認知的な際立ちを利用して使われることがあります。有名な例としては、名前を知らない客を言及するために店員が「The ham sandwich is waiting for his check.」というのがあります。LLMによるメトニミーの研究は、私はまだ見ていません。メタファーもメトニミーも、LLMでの創発の研究は面白いテーマですね。


Q. 怒り感情がメタファーとしてなぜ「爆発」という事象に結びつくのでしょう?そのメカニズムは何だと思いますか? 感情に関しては内受容感覚の予測符号化だという議論があり、また既存のマルチモーダル概念形成のモデルは外受容感覚の予測符号化が対応しており、その内部表現に構造的類似性とか、共起性とかかな?いろいろ解釈はある気がしますが

A. 静的な言語体系としては、そのメタファーの慣習性がキーになると思います。社会的に共有された感情の概念化の仕方があるように思います。一方、リアルタイムの感情の発露は、どこまでメタファー的に捉えられるかについては残念ながら予測が立ちません…(メタファーである程度枠付される可能性はあると思いますが)。


Q. メトニミー表現において,フレームをどこまでにするかという,制限の方は集団による合意が必要なように思います

A. 慣習的なメトニミーと、一時的なメトニミー(上をご参照ください)によって異なりそうですね。前者については社会的な合意が必要に思えます。後者については、状況的な制限がありそうです。


Q. ロボットは抽象的な思考・感情を持たないとありましたが、これは持てないのでしょうか? 多義性をロボットが扱うことと感情の間に何らかの因果関係があるという主張は含まれているでしょうか?

A. 持てない、といういことではなく、到達の仕方が人間とは異なる可能性があるように思っています。多義性と感情については、メタファーが根源にある、ということで何らかの関係性はあると感じます(因果関係というよりはメカニズムの共通性ですかね)。


Q. 「壁」や「明るい」などの例でロボットが”理解する”、”使うことができる”、”できる”とは、先生の意味でどのような状況を想定しているのでしょうか?例えば、ロボットが分類可能という意味なのでしょうか?それとも発話やテキスト、タスク解決などの行為として利用できるような状況なのでしょうか。

A. 「認知できる」(センサーで捉えられる)という程度のニュアンスでした。例えば「情報」のような抽象名詞や「山」のような巨大な物体に関しては、扱いにくいのかなと思いました。


Q. メタファーの良さが数値化できる指標がすでにあるのであれば、それをメタファー生成確率と仮定すれば、メタファー自体を生成できるかもしれないと思いました。(ただの感想です)

A. 確かにその通りですね。関連する先行研究はありそうです。

Littlemore, J., Sobrino, P. P., Houghton, D., Shi, J., & Winter, B. (2018). What makes a good metaphor? A cross-cultural study of computer-generated metaphor appreciation. Metaphor and Symbol, 33(2), 101-122.


Q. 「明るい未来」とか「チャンスを掴む」のような表現はどのくらい歴史があるのでしょうか? 言語自体の経時的な変化の中で生まれるものなのか(どのくらいの文化進化的側面がきいているのか)、個体の発達・経験で十分説明できるのか、ということと関わって気になりました。

A. 通時的な変化(どの時点で語義が出現したか)も面白いテーマですね。言語を比較したとき、類似の変化を辿っているとすると、何らかの時間的な要素があるように思えます。一方で、創造的なメタファーは個人に属すると思いますが、その良さの基準(上の回答とも重なりますが)も興味深い点です。


Q. 「壁」とかの「ロボットで出来る?」の多義性のリストはまさに構成的にチャレンジすることで理解が深まりそうな、よいチャレンジリストだと思いました。永久保存版にしたいですね。これを説明するAI/ロボットモデルのコンペティションとかしても面白そう。(ただのコメントです)

A. ありがとうございます。データセット作ったら論文になりますかね?笑 ただ、案外「手頃な」例が少なく、「壁」を探すのは苦労しました。


Q. 感情が液体ってのは、今の変化しやすいって話もあるけど、 やっぱ内受容が身体という入れ物に入ってる中身としての感情って考え方もあるからですかね?

A. まさにその通りですね。身体が入れ物、ということは食事などのことも考えても人間にとっては理解しやすい構造だと思います。「容器のメタファー」は多くの言語で見られます。

第14回研究会

参加受付(connpass)

開催日:2023年 6月23日 10:30-12:30

講演者:境野 翔さん (筑波大学)

発表タイトル:バイラテラル制御に基づく模倣学習による動作速度と環境適応能力の両立

概要:ロボットの環境適応能力を向上させるために機械学習を利用する研究は数多く報告されているが、人間並の動作速度と環境適応能力を両立させることは困難であった。本講演ではこれを解決しうる「バイラテラル制御に基づく模倣学習」について紹介する。遠隔操作制御であるバイラテラル制御を用いることで人間の力制御技能の指令値を直接計測可能になるため、これを模倣する動作生成AIを作れば、豆腐を含む多様な食品の把持操作、3次元曲面の拭き掃除、人間との協調物体運搬など、これまで困難とされてきたことが実現できる。


オンライン開催


過去の研究会の記録はこちら

第14回研究会にご参加いただきありがとうございました。
境野さんより、当日に回答が間に合わなかった質問への回答をいただいておりますので、下記に公開させていただきます。

Q. 制御の方はひたすら数学的な証明をしているというイメージがありますが、今回のような研究で、そうした要素はあるのでしょうか?

A. 学習と動作生成に関しては数学的な安定性の証明は一切していません。


Q. バイラテで獲得した力制御に関して(バイラテでなくても)、その力制御を所望の方向へ変更させる、みたいな話はあるんでしょうか?例えば、言語でいうと「もうちょっと優しく掴んで」みたいなやつです。言語でなくても、そこを何らかの手段で人間が編集する、教示する、みたいな手段が模倣以外に提案されているか、ということだと思います。

A. 現在はそういうことはないと思いますが、力情報を含む動作データに言語でキャプションをつけたものが増えればそういうことは可能なはずです。


Q. バイラテラル制御を用いた模倣学習の説明で聞き逃したのですが、フォロワからリーダの動作を予測するのと同時に、リーダからフォロワの動作も予測しているのでしょうか?フォロワからリーダの動作を予測するのはリーダとフォロワの動作のアラインメントを行うのが目的という理解で合ってますか?

A. フォロワからリーダを予測するだけのモデルだと学習時に1ステップ先のロスまでしか評価できないので、フォロワとリーダの応答から次ステップのフォロワとリーダの応答を予測する自己回帰モデルにすることで、10~20ステップ先のロスも学習できるようなモデルを長期動作が必要な場合には使っています。


Q. 素晴らしい発表をありがとうございました. 時間や力制御の話を聞いていると難しいかもしれませんがシミュレーターは活用できないでしょうか.聞き逃していたらすみません.

A. 自己回帰モデルで現在のフォロワとリーダから次ステップのフォロワを予測することはシミュレーションと等価です。なので、我々のモデルはシミュレーションと軌道生成を同時に行っているモデルになります。このシミュレーション部分を有効活用すれば色々できそうだというアイディアはあり、Robomech2023でその初歩的な例を発表する予定です。


Q. 力に関するデータと言語の関係「例:強く振る」と,速度に関するデータと言語の関係「例:素早く振る」の間に相互関係が生じそうなので,上位層と下位層(速度の中間層)を完全分離して良い場合と融合させた方が良い場合と双方あるような気もします.今回の話題は分離してOKのタスク,融合も必要な事もある,という理解で良いでしょうか?

A.融合が必要な状況もあるとは思いますが、基本的には少ないと思います。もし必要だとしても、上位と下位を独立に学習させたあと、それらを統合する別のネットワークを学習させるようなモデルの方が上位と下位を密に連携させたモデルより実用的だと思います。


Q. 発表ありがとうございます。質問するのが遅くてすみません。自由度の高いロボットアームなどの制御は人間にとって逆に直感でない操作に関して、教師データに何かしらの処理をした方がいいのでしょうか?

A. 教師データで何かをするのではなく、データを収集するときのバイラテラル制御を工夫するべきです。ロボットの全軸に対してバイラテラル制御を実装する必要はなく、冗長自由度を位置制御で潰してしまうこともできます。実際我々が使っているCRANE-X7は7自由度のアームですが、1自由度潰して6自由度マニピュレータとしてバイラテラル制御を実装しています。 

参加受付(connpass)

開催日:2023年 5月12日 10:30-12:30

講演者:西田 京介さん,  壹岐 太一さん (NTT 人間情報研究所)

発表タイトル:Collaborative AI: 視覚・言語・行動の融合

概要:ChatGPTやGPT-4の成功により,汎用人工知能の実現は遠い夢では無くなった.特にGPT-4は,視覚と言語のマルチモーダルモデルとして,人のように視覚情報を通じて世界を理解し,他者と優れたコミュニケーションができるレベルへ到達したと考える.AIをさらに進化させ人々のwell-beingに貢献していくためには,あらゆる環境で人(あるいはAI)と自然に協調して行動できる能力が必要である.本講演では,LLMをベースとした視覚と言語の融合理解,そして,現実世界の良い縮図と言えるPC環境において人と協働できる汎用ソフトウェアロボットに関する研究について最新の動向を紹介する.


オンライン開催(動画の録画公開は無し)


過去の研究会の記録はこちら

第13回研究会にご参加いただきありがとうございました。
西田さん壹岐さんより、当日に回答が間に合わなかった質問への回答をいただいておりますので、下記に公開させていただきます。

Q:

「人間が理解できるように振る舞う」というところが重要なポイントなように感じたのですが、これまでの研究ではそこの部分にフォーカスするとモデルの精度が下がってしまうなどの課題があったように感じています。そのあたり、人間との協働を担保しつつAIの能力を向上させるという取り組みはどのような方向がありそうでしょうか?


A: はい,精度が落ちるように感じます.協働というテーマだからこそ,Human-in-the-loopな学習が重要になりそうな印象があります.


Q:

人間と機械のCollaborationといっても、人間が機械をあくまで道具として扱う(手間を削減する)、機械が人を訓練するなど色々な形があるかと思いますが、最終的にどのような目標感で研究を進めてらっしゃるのかお聞きしてみたいです。


A: 人とAIが「区別なく」一緒に暮らせる・働けるところを目標に置いています.


Q: LLM+基盤モデル & ツールの考え方は、ハードなロボティクスでも

LLM+基盤モデル+API/コマンド/スキル的な考え方とそのまま接続することもあり、実世界ロボットへのリーチを考えていくのは面白いと思う。minimumな身体の上でほぼSWロボットのアプローチでハード・ロボットを研究に広げてみたいですね。あVLNか。


A: はい,面白いと思います.ぜひ継続的に議論させてください.


Q:

吉野さんの質問に関するコメント:将棋AIで、「人間に理解可能な範囲で新しい手を提案する」という話が考えられそうで、それと似ているような気がしました。


A: 将棋におけるChain-of-Thoughtや,人間の感覚にAlignmentするという点で面白いと思いました.


Q:

自分ができない行動命令の与え先を「人間」にも割り当てるという意思決定をソフトウェアロボットがするという選択肢(人間にお願いする)という出力も大事なのかなぁ、と思うのですが、どうでしょう。(というかLLMなら勝手にやってくれるのかな?)


A: はい,人間にエスカレーションする,というような思考のChainはこれから行われていきそうですね.


Q: ハルシネーション問題に対しての研究は進んでいるのでしょうか?


A: GPT-4のtechnical reportではRLHFによって精度向上することが報告されていましたが,

100%に近いレベルで防ぐことは現状の技術レベルでは難しい認識です.


Q:

コメントですが、自動操縦で勝手に危険な動作をされると困るので、生成された行動を統計的に監視して、「外れ値」になるような危険なオペレーションをしないようにする、という研究が今後出てくるのではないかと思いました。


A: そうですね,Auto-GPTを乗っ取られたりするととても危険なので,LLMに対する不適切発話検出の用に,不適切行動検出,という研究は出てくると思います.


Q: Webページをわざわざ操作する必要性はあるのでしょうか。

Webページ自体、HTML形式で送られてくるものですので、入力をHTMLとして結果を送信する形式で済むのではと感じてしまいました。


A: はい,用途によってはHTMLの理解で問題ありません.

私達はWeb以外のGUIアプリケーションの操作も視野に入れていますので,共通的に視覚から行動を生成したいと考えています.


Q:

画像生成とマルチモーダル方向の延長でCADの自動生成などは課題が大き過ぎますか?要は、精密な再現が要求される非芸術な工業デザインの分野に興味が有ります。


A: 十分あり得るかと思います.


Q: PC上の身体性やOS世界のモデルを考慮していく理由はなぜですか?API対応していないソフトウェアも操作できるようにしていくためですか?それとも、パソコンというものを理解していて、PCフリーズしたら再起動したり、容量圧迫するファイルの整理とかまで実施できるようなイメージでしょうか?


A: API対応していないソフトウェアも操作できるようにする目的が大きいですが,PCの身体性獲得・世界モデルができる(再起動の例なども含め)と実世界への展開に向けても有望と考えています.


Q:

UIに関しては、探索空間を限定することが重要で、人間にできることを何でもできるようにしてしまうと、自動的にコマンドプロンプトを開いて理解不能なコマンドを打ち込み、意味不明なまま一瞬で作業が終わる、という事態が起こりそうです。


A: 行動に関しても,人とAIのalignmentを取ることは重要になると考えます.


Q:

脳内の処理をLLMにさせると仰っていましたが、脳内の処理を言語で指示していくアプローチの限界にはどのような印象を持っていますか?


A: 人が考えていることを脳波(侵襲型デバイス)から言語情報にデコーディングすることは,いくつか研究も出てきているようです.すると,脳波がLLMを介していろんなモーダルと結びつくことは,十分可能性があると考えています.


参加受付(connpass)

開催日:2023年 2月4日 10:30-12:30

講演者:谷口 忠大さん (立命館大)

発表タイトル:記号創発システムの構成論:言語を生み出す集合的予測符号化(仮)

概要:人間の知能はマルチモーダルな知覚系を介した様々な観測、身体に基づく環境との身体的相互作用、他者との記号的相互作用を通して構成されていく存在である。その上で私たちは言語を社会の中で構成し、コミュニケーションを可能にしていく。講演者は記号接地問題(シンボルグラウンディング問題)自体の問題を指摘し、記号創発システムという概念を提案してきた。またその構成論的アプローチとして記号創発ロボティクスの研究を推進してきた。本講演では複数のエージェントが観測を得ながら言語ゲームを行うことを通して記号システム(言語)を組織化していく記号創発システムの構成論に関して概説する。特に確率的生成モデルに基づき、社会的な表現学習としてコミュニケーション創発をモデル化するアプローチについて説明し、メトロポリス・ヘイスティングス名付けゲームを導入する。この言語ゲームが分散的なベイズ推論になっていることを証明すると共に、Inter-GMM+VAEという生成モデルにより、二者エージェントが実画像から記号創発を行う様子を示す。また合成性を有する言語やマルチモーダル情報に基づく記号創発モデルについても触れる。されにこれらから偉える集合的予測符号化仮説について紹介し、人間がこのような学習を行っているかに関しての検討に関して報告する。さらにこのような考え方がもたらす大規模言語モデルの有効性の解釈や、人間とロボットの共創的学習というアイデアに関しても述べたい。

オンライン開催 


過去の研究会の記録はこちら

参加受付(connpass)

開催日:2023年 1月19日 12:15-13:30

講演者:井之上 直也 さん (JAIST)

発表タイトル:説明生成NLPの最前線 〜Lang&Roboとの接点を添えて〜

概要:近年、大規模事前学習済み言語モデルの登場により、自然言語処理モデルの予測能力、及び生成能力が飛躍的に向上した。また、こうした成果を利用して、言語生成により予測に至る推論過程を論理的に説明しようとする試み (説明生成NLP) も進展を見せている。本発表では、説明可能性、ショートカット推論といった永らく取り組まれてきた関連分野とともに、説明生成NLPの最新の展開を俯瞰・整理する。また、講演者の関連する取り組みを紹介し、ロボティクス分野との接点についても議論する。

オンライン開催 


過去の研究会の記録はこちら

20230119_langrobo.pdf

参加受付(connpass)

開催日:12月17日 10:30-12:00

講演者:品川 政太朗さん (NAIST)

発表タイトル:意図の接地と意味の接地~テキストに紐づけられた対話的画像生成とLanguage and Roboticsとの接続と展望について~

概要:text-to-imageに代表されるテキストに紐づけられた画像生成技術はここ一年の間に急展開を迎えており、研究者だけでなく多くの一般のユーザにより、関連するアプリの開発や、目的の画像を生成するための入力文の入れ方といったノウハウの検討が進んできている。しかし、その制御の難しさも一般に知られるところになってきた。この難しさの根底にあるのは学習データの画像と言語が一対一対応していない問題があり、この問題に対応するには、またLanguage and Roboticsに応用するためには、対話による意図の接地(基盤化)を行いつつ画像と言語の意味の接地を行うことが重要であると講演者は考えている。本講演ではそのような技術の実現に向けて、「テキストに紐づけられた対話的画像生成」と発表者が定義・呼称して取り組んでいる研究領域について紹介し、またLanguage and Roboticsとの接続と展望について議論のたたき台を提供したい。

オンライン開催 

録画(YouTube)

過去の研究会の記録はこちら

10回研究会にご参加いただきありがとうございました。
品川さんより、当日に回答が間に合わなかった質問への回答をいただいておりますので、下記に公開させていただきます。


Q. 言語学的には質問文の多様性にはいくつかのタイプがあるような気がしました.ハンサムのはなしはvaguenessに関わっていますが,それ以外は恐らく類義関係の問題なのかなあという雑感です.

A. コメントありがとうございます。私もおそらくはいくつかのタイプがあるように思いますが、仰る通り類義関係が主になると思います。類義関係をどのように認識しておくか、認識できなければ対話によってどのように意図を擦り合わせるかのところに個人的には興味があります。


Q. 最近,GPT-3系のモデルを使った対話研究が増えているように感じているのですが,GPT-3系を使った研究は外資系企業発の研究が多く,日本の大学のものはあまり見かけない気がします.科研費をOpenAI課金に使うのは難しかったりするのでしょうか?

A. ご質問ありがとうございます。GPT-3はサービスの一つですので、難しい訳では無いと思います。GPT-3をただ使っただけでは研究として新規性を出しにくいという点がありますので、工夫した使い方をするとか、GPT-3を使うことについては新規性を見出さずに、単に擬似的なデータセットを収集するという目的で使うとかであれば十分あり得る話だと思います。GPT-3を試してみたけど思ったほどうまくいかなかった、という話は割とよく聞きますので、その辺に原因がありそうです。日本語だと特に性能は悪いと聞いております。ノウハウが必要かと思いますが、ChatGPTは日本語でもよく動いている印象ですので、ChatGPTが有料サービス化されると状況も変わってくるのではないでしょうか。


Q. conversational image editing と text-based image editingの違いは何でしょう?履歴の有無ということ?(マルコフ性を仮定すると同一?)

A. ご質問ありがとうございます。拙い説明ですみません。今回は、機械側からユーザ側に対して画像出力以外に働きかけを行えるかどうかで分けておりました。text(language)-based(guided) image editingの問題はユーザ側に画像を出力するだけで、ユーザは機械の使い方を自分でトライアンドエラーを試す必要があります。そうではなく、機械に対話システムのエージェント的な側面を持たせて、ユーザへの確認や提案といった行動を主体的にユーザに行うのがconversational image editingです。


Q. 画像編集で学習した意図の推定や対話戦略を、例えば、word文章やスプレッドシートの編集など他のPCタスクに転移できると、生活に根ざした機械に近づいてくると思います。 そのような複数タスク間の転移について知見があれば教えていただきたいです。

A. ご質問ありがとうございます。私も仰る通りだと考えておりまして、画像編集に近いところで、まずはスライド資料の作成などに応用できないかと考えております。タスク間の転移については、特に対話行為は転移しやすいのではないかと思います。例えば、「やっぱやめた」のような発話の意図は他の編集タスクでも同じであると想定できるので転移しやすいと思われます。


Q. ロボティクスで画像の生成(可視化)でいうと、最近NeRFが人気ですが、tex2image とNeRFの接点的な研究ってなんかありますか? 何か思いつくような研究はありますか?(雑な質問)

A. ご質問ありがとうございます。私はあまりしっかり追ってないのですが、最近いくつか出てきています

・CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CLIP-NeRF_Text-and-Image_Driven_Manipulation_of_Neural_Radiance_Fields_CVPR_2022_paper.pdf

・DreamFusion: Text-to-3D using 2D Diffusion https://dreamfusion3d.github.io/

・Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures https://arxiv.org/abs/2211.07600

あたりは耳にしたことがあります。基本的にはCLIPとNeRFをくっつけるという感じです。


Q. マルチモーダル情報操作については、今後なにかやりたいことはあるでしょうか?いつかどこかで話をしていた触覚の話について、妄想を聞きたいです!

A. ご質問ありがとうございます。個人的には日本語のオノマトペは面白いなと思っていて、人によって表現される感覚は異なるのかとか、どのように画像に反映され得るかという点を詳しく調べてみたいなと思っています。オノマトペの感覚は五感が重要で、視覚・聴覚の他、触覚を使えると色々と面白いことができそうだと考えております。が、今のところ具体的にこれだ、というのはありません。すみません。


Q. ロボティクス制御におけるフレーム問題への対処方法についてご意見をお伺いできますでしょうか?

A. ご質問ありがとうございます。私はロボティクス制御は専門ではないので、一般的な話として回答してみたいと思います。フレーム問題は、問題解決にありとあらゆる状況を想定していたら、無限に計算時間がかかっていつまでも問題解決が終わらない問題であると理解しておりますが、近年話題にあがる深層学習モデルも学習された分布外の入力には一般的に頑健に対応できないという点がありますし、結局は想定の範囲内のことはできるように機械を作っておくことで、結果的にフレーム問題にできている状態になっているのが現状ではないかと思います。我々人間にしてもいきなり隕石が落ちてくる可能性を想定して日ごろ仕事をしてるわけではないでしょうし、日々の経験から思考対象とする事物を無意識的に選別してフレーム的なものを自然に作っているような気がしております。機械についても同じように考えれば良いのではないでしょうか(単に個人の感想で恐縮です)。



Q. AGIの実現に向けてトップ研究者がいろいろ言及されていますが、先生はどのようなアプローチが筋が良いとお考えでしょうか?

A. ご質問ありがとうございます。個人的にはどのアプローチが良いかについてはあまり考えておりませんが、谷口忠大先生の記号創発システムの考え方に共感しています。機械学習のアプローチをこのまま進めていくことでAGIに到達するかはまだ分からないですが、到達できるならば重要になるのはいかに継続的に人に利用されて新しいデータを取得していける機械を世に出せるか、それが社会に受容されるかという点が最重要なのではないかと考えております。


Q. 自動運転におけるカメラ画像単体、もしくはLidar、ミリ波センサーとのFusion画像認識が肝になると思いますが、コストと性能とロバスト性を実現するVision技術についてご意見をお伺いできますでしょうか?

A. ご質問ありがとうございます。私は自動運転のドメインについては詳しくないため、本件についてはわかりません、すみません。


Q. 画像生成とストーリーというところで、挙げていただいた例を伺いながら、StoryGAN などを思いだしました。仰る通り、小説の挿絵にも活かせそうですね。絵が先か、文が先か、というのも気になりました(文に絵を付けるのが一般的かと思いますが、作文の際にイメージから思い浮かべる小説家であれば、絵が先に来る方法も出来るのでは)。

A. コメントありがとうございます。はい、仰る通りどちらも可能かと思います。小説が映画化されてたりもしますので、それらを組み合わせたりもできそうかなと思います。


Q. 継続学習における破局的忘却はいろいろなモーダルの実装化フェーズで課題になると思います。Elastic Weight Consolidationも一つの解決策と思いますが、今後ブレイクスルーする可能性がある筋の良い手法はありますでしょうか?GoogleのPathwaysなどはその一つになりそうでしょうか?

A. ご質問ありがとうございます。継続学習については私も興味があるのですが、現状ちゃんと追ってないので、こちらの件については、まともな回答はできそうにありません。少し話は売れますが申し添えておくと、記号創発システムの考え方は、連合学習と相性が良いと思います。個人のプライバシーを保護しながら継続学習ができれば、使えるデータの総量が増えるため、より大規模なモデル、多くのタスクでの学習が可能になり、次のブレークスルーにつながる可能性はある気がします。


Q. マルチモーダルなというのは、画像と自然言語、音声、数値データ以外に何か留意しておくべきことがあれば、ご示唆願います。

A. ご質問ありがとうございます。目的のタスクによって話が変わってきてしまいますが、ありとあらゆるデータが重要だと思います(ただしプライバシーは保護するのが重要だと思います)


Q. 既存のディープラーニングを用いていない産業用ロボットに、Vision and Languageに適用するまで、乖離は大きいと思われます。このギャップを埋める要素や問題事項があれば、教えてください!

A. ご質問ありがとうございます。すみません、既存のディープラーニングを用いていない産業用ロボットにVision and Languageをなぜ・どのように適用したいのかが分からないと本件は回答できないと思います。私は産業用ロボットにはあまり詳しくないので想像となりますが、置き換える必要も、必ずしもないのではないでしょうか?何らかの新しいタスクに必要という場合でも、既存の産業用ロボットをすべて置き換える必要はなく、たとえば、人間とインタラクションしながら産業用のロボット用のプログラムを作るロボットが一台あるだけでも十分という気がしております。


Q. 大規模プレトレーニングモデルが大きな成果を上げるなかで、言語系(NLP)ではアノテーションフリーの学習が主流かと思いますが、Vision系でもContrastive LaerningやFew/Zero shot Learningなどでラベル無し学習が主流になりますでしょうか?

A. ご質問ありがとうございます。はい、現状自己教師あり学習(Self-supervised Learning)が大きな成果をあげており、学習方法として主流な流れになっていると理解しております。



Q. 今回のご発表で、暗黙知の検出とその確認(検証)で、代表的なアプローチや手法があればおしえてください

A. ご質問ありがとうございます。暗黙知とは、曖昧性検出の話という理解でよろしいでしょうか?基本的には曖昧性を含むデータセットを構築して学習する方法、モデルの予測の不確実性を利用した方法があります。後者については、Yarin Galの博論 http://mlg.eng.cam.ac.uk/yarin/thesis/thesis.pdf や、サーベイ論文 https://arxiv.org/abs/2107.03342 をご覧になると良いかと思います。



Q. 現在信号からのラベル付は主に画像からとか知識グラフからとかという形で行われてると思うのですが,これに人間にある他の五感の信号(触覚など)組み合わせたらふわっとした意味や概念もうまく捉えられないかなと思うのですがどうでしょうか

A. ご質問ありがとうございます。良いアイデアだと思います。色々なモダリティを利用してセンシングする方がより認識できる世界の解像度は上がると思われます。


Q. Adobeの画像編集では新しい概念を画像に挿入するのではなくあくまで通常の画像編集の範囲という認識で良いですか?

A. ご質問ありがとうございます。新しい物体などを画像に挿入することも編集の範囲には入っていると思いますが、基本的には編集ツールのどれかを選択して利用するという仕組みだと考えて良いと思います。


Q. 今だとUnreal Engineも機械学習支援に力を入れている印象があるので,そこのあたりからリアルな景色ベースのCLEVERみたいなデータセットが出てこないかなと思っています

A. ご質問ありがとうございます。現状だとEmbodied AI周りで物体を動かしたりできる環境(屋内環境)のデータセット(AI2-THORなど)がそういったものに近いと思います。


Q. 対話的な画像編集で一からgroundingするのは結構面倒くさい・大変そうに見えたのですが,人間側からinitialな画像(適当に描いた落書き的なもの)を提示してから始めると楽になる,みたいな話はあったりするんでしょうか?

A. ご質問ありがとうございます。はい、落書き的なものから画像を検索したり生成したりといった話はよくある印象です。セマンティックセグメンテーションのように領域ごとにラベルに対応する色で塗りつぶしてそこから画像を生成するGauGANなどは有名かと思います。これらは画像編集として簡単だから好まれている方法だと思われます。対話的な画像編集でも、こういった色の塗りつぶしなどを操作することで画像を編集するといった工夫はできると思います。


Q. 人と共同で長時間生活していく状況までいけば雑な要求の理解もできる世界がきそうですいいですね(感想)

A. コメントありがとうございます。まさに目指す世界はそこでして、人を理解すると最終的には細かい指示は必要無くなるはずだと考えます。それこそ雑に指示してもわかってもらえる、指示をしなくてもわかってもらえるレベルにいけると面白いですね(そこまでいくと、人間から自然言語を学べなくなってしまいますが笑)


Q. 「イイ感じ」を画像で表現して確かめることは,人間間ではあまりなされないコミュニケーションだと思います.人間とシステムのコミュニケーションは,人間間でのコミュニケーションとは方法が異なる,というお考えなのでしょうか.

A. ご質問ありがとうございます。人間間でも日常的に行われている例としては、上司に「この仕事とりあえずイイ感じにやっといて」と頼まれて、やった結果を見せたら「なんだこれは!どうして相談しなかったんだ!」と怒られる場合などでしょうか。画像ではないですが、頼まれごとに対して成果物を見せて指示に沿えたか確かめる、ということはよくある話ではないでしょうか。これが経験豊富な賢い部下であれば、上司の要求が何を指すのか事前に確認をとるはずです。これを対話的な画像編集でもやっていく必要があると私は考えております。


Q. 画像編集をしたい場合、言語での指示だけではなくて、画像の一部に手書きでマークを付けつつ、「ここをちょっと変えて」のように近くにコメントも残す、というような指示を与えたい場合もありそうな気がするのですが、そのあたりについてはいかがでしょうか?

A. ご質問ありがとうございます。はい、できると思います。編集したい箇所を消して編集指示文を与えるタスクもあります。Text-Guided Neural Image Inpainting https://arxiv.org/abs/2004.03212 問題としては編集箇所を特定する必要が無い分、簡単な問題になります。テキストによる画像編集アプリなどを考える場合は仰るような方法が便利な気がします。

参加受付(connpass)

開催日:11月12日 10:30-12:00

講演者:吉野 幸一郎さん (理研GRP/NAIST)

発表タイトル:実世界の事物と紐づいた対話機能を持つロボットを目指して

概要:近年の深層学習技術の進展により、言語処理の技術は格段に進化し、これまで扱うことが難しかった常識なども扱うことができるようになってきた。しかし、こうした深層学習に基づく言語のモデルは、未だ実世界の事物と言語表現との接続が出来ているとは言い難い。本講演では、実際に実世界の事物と紐づいた対話機能を持つロボットの開発のため、理研のガーディアンロボットプロジェクトで研究を行っている内容について紹介する。

オンライン開催


過去の研究会の記録はこちら

9回研究会にご参加いただきありがとうございました。
吉野さんより、当日に回答が間に合わなかった質問を含めた質問への回答をいただいておりますので、下記に公開させていただきます。

Q. 対話ロボットを作るのに限界まで「人間(研究者)の労働」を減らしたい。アノテーションという労働を全部消したい。そのあたりに関する展望とか、吉野さんが抱えられている苦悩とかあったら教えてください。

A. 願望は私もある。大規模なデータから教師なしでクラスタリングはできるという前提で、その名づけをどのように変えるかをコミュニケーションをしながら調整できると良い。


Q. 仮定や導入に個別性がある(環境に依存性がある)ので、self-supervised learningのようにアノテーションフリーなアイデアを実環境にどのように持っていくかが重要な気がする。自律性が足りてないので、足りない部分を聞くということが出きたらと思う。

A. それはそう思う。まずはロボットがある程度動作できるようになって、足りない部分をどう認識できるようになるかが課題。


Q. 常識的行動(空気を読む)というのは人によってもかなり変わってくると思いますが、研究者自身のバイアスによって左右されてしまうということはどう対処するのでしょうか(メタ的常識を持っていないと研究自体難しそう)

A. 今回のデータはクラウドワーカにお願いしている。人によって常識というのは異なるし、実際に集めたデータにも無理そうなデータがある。今回は8割くらいの人が合意できるような気の利く行動に絞って実験をしている。


Q. 「気の利いた行動」のカテゴリ数は40個という設定で実験されたということですが(p.23あたり)、実際にはどのぐらいあればよいと思いますか?本質的には文生成のようなタスクをclassificationで解いているのか、それとも、「気の利いた行動」は本質的に文生成で生成される文よりは少ないオーダーなのかが気になりました。

A. 40は十分ではない、本質的には生成で作られねばならないが、ロボットができることには限界があるので現状はクラス選択の問題として解いている

追加コメント:英語学習でフィードバックするという話、こういう間違いはこうしたら良いという話があるが、大部分が同じようなフィードバックになる、という意図で質問させていただいた

A. 言語学習においては体系的な方法があってそれに合わせるというのが重要だと思っているが、ロボットは動作の表現能力はまだpoorである点が問題になっていると思っている


Q. P31あたりのお話で、動作前後の2画像よりも動画として複数の画像系列があった方がリッチな気もしますが、あえて動作前後の2画像に注目する動機があったりするのでしょうか?

A. 動作前後を入力として理解ができると、理想状態があった時に「こういう動作をすれば理想状態に持っていくことができる」と考えることができるのでこうした設定になっている。


Q. コメントですが、「どう反応するべきか」というより、「ユーザーが何を意図しているのか」を直接的にモデル化するべきなのではないでしょうか?

A. その通りではあるが、そもそもユーザ自身も自分の意図がよくわかっていないケースがある。お勧めをされて初めて自分の要求に自覚的になれるようなケース。こうしたケースはロボットの行動(反応)を識別するというのはひとつのやり方。

追加コメント:意図が分からないのなら確率分布でぼやっと表現できるのでは。人手で与えられるのではなく、逆算的に求められるのではないか。


Q. 訓練データのタスクがネックになると思うのですが,例えばケチャップを指さして「ごちそうさまと言ったら,これを片付けて」と口頭で伝えることで直接学習させていく試み等はあるのでしょうか.

A. システムが行動をとったのにユーザがどのように反応したかで学習するのが研究のポイントとして考えているが、やることは可能。


Q. 最近少し大規模モデルで話題でしたが、よりNNが効率よく表現するための新たなな言語獲得を創発させるというのは、良い方向性になるのでしょうか?(人類が用いている言語よりもより意思伝達に効率的な言語表現の獲得)解釈性という観点を捨ててcontollabilityを得るような方向性です。

A. 人間が介在する以上は自然言語を使用するメリットはある。一方で系に人間が存在しない場合はより効率的な言語を獲得させる、というのはありうる考え方。教師ありと教師なしの単語分割のどちらがどのケースに有効か、みたいな話。


Q. インタフェースとして「音声認識・音声合成」に関して、ちょろっと触れられる点がありましたが、実世界言語理解においてそれらは「もうできる」こと前提で研究を進めればいいという感じでしょうか? それともまだ色々な不確実性とかクリティカル? 上位の意思決定の研究においては切り離せばいい? それともまだ一緒に考えるべき? でやろ?

A. 認識・合成ともにできないところもある。例えば認識は雑踏での認識や距離のある状況下での認識はかなり困難。合成も感情音声合成などはまだやるべきところがある。後段の処理とまとめるかは、そこの認識誤りがクリティカルになってから考えればいいと思う。


Q. (コメントです)ご紹介いただいた研究を通じて、本来の研究の目的であるロボへの命令とは違いますが、いわゆる”メタ的常識”が国・地域・個人などによってどう違うか、というのも浮かび上がってきそうで面白いと思いました。

A. 文化的背景、文化的差異みたいな話は対話などの研究ではよく議論に上がっていて、そこに常識みたいなものを入れていくと面白いかもしれない。そもそもロボットに何を期待するかも文化によってかなり違う。例えばロボットを奴隷的に考える文化圏からは、今回の Proactive/Reflective みたいな話は出てこないと思う。


Q. 大規模言語モデル的なものの延長としての大規模マルチモーダル実世界環境知識モデルみたいなアプローチはどこまで、吉野さんの研究領域で可能だとおもいますか、妥当だとおもいますか、襲ってくると思いますか? 千戸の家での日常生活行動データみたいなので、SSLするみたいな。地獄の計算量と大規模計算な感じで、巨人以外は計算不能ですが

A. 我々の方向性ではないけれど、方向性の一つではあるが、そこにいくまでにそこそこ動くモデルを作らないといけない、どこかで相転移が起きるポイントはあると考えている


Q. ガーディアンプロジェクトで語られている「心の構成論」は2000年代に認知発達ロボティクス(Cognitive/Developmental Robotics)でよく語られていた考え方と非常に共鳴していると思います。國吉先生とか浅田先生とかが国内ではパイオニア的であった。その辺りからの影響はどのくらい受けているのでしょう?

A. かなり影響を受けていると思う。特にこのあたりのプロジェクトの始動に関わった先生方がそのあたりの影響を受けていると思う。あとは、ミンスキーなども結構影響を受けていると思う。


Q. システムの役割や立場に応じてReactive,Proactive,Reflectiveのどのタスクに取り組むかが動的に変化すると思いますが,現段階では1つのタスクに着目して研究されているのが主流という状況でしょうか.

A. ロボットが出来ることによってそれぞれ reactive, proactive, reflective の動作が期待される場面が違っていると思っている。とりあえず現在は reflective にやるにはどうするか、という視点が新しいと思う。


Q. p.21: 直観的には画像が効きそうですが、ほぼ効かないんですね。実例の画像を見ていると、行動のヒントになりそうな画像領域はかなり小さくて、そこに着目できるかがキーかと思いました(説明的特徴量は、まさに人がそれを抽出したということですね)。発話者の周辺の画像領域にアテンドするようなバイアスを入れるのはありでしょうか。

A. 画像のどこに注目するべきかはまさに考えるべき重要なポイント。ロボットに入ってくる情報の種類や量は大きいので、「どの情報を使うか」だけではなくて「どの情報を使わないか」についてもロボットは適切に取捨選択できないといけない。


Q. 途中でシミュレーターとして稲邑先生のSIGVerseが出てきましたが、吉野さんがされている対話ロボットの研究でよく使われるシミュレーション環境とか、注目しているシミュレーション環境とか、そもそも「シミュレーションじゃだめなんだ!」とか、シミュレーション環境について一家言あったら教えてください。ただのボヤキでもいいです。

A. 多分対話ロボットでロボットのシミュレーターを使っている人がそんなにいないと思う。そういうことをやりたい人はバーチャルエージェントを使ったHAIの分野の方がいると思う。シミュレーターについては、この環境では「何ができる」「何ができない」という割り切りが重要だと思う。半端にできる環境というのが一番使い道が難しい。


Q. データセットにない「気の利いた行動」はどのようにしたらできるようになるでしょうか?

A. 選択ベースでは現状難しい。将来的には生成ベースにするなどの方法が考えられるが、そもそもロボットの動作生成モデルがもうちょっと賢くならないとしんどい。


Q. モデルに尤もらしい帰納バイアスを入れるべきなのか、なるべく自由度の高いモデルでデータ分布自体を表現すべきなのかはどちらがよいなどのご意見はありますでしょうか(塩梅だというのはあるとは思いますが)

A. 今のところデータを沢山集めるのが難しいので、多少バイアスを入れざるを得ないと思う。データ量の問題を解決するようなブレークスルーが出てこればあるいは…


Q. 大規模事前言語モデルは役立ちそうですが、現実世界で動くロボットにおいて、大規模モデルの計算時間はどの程度問題になるのでしょうか?

A. 結局推論のスピードがあればよいので、そこまで問題にはならないんじゃないかと思う。あとは、空間計算量をどれくらい広げることができるか次第。言い換えれば、どれだけいいRAM(VRAM)を沢山同時にワーキングメモリとして使えるかどうか。


Q. 実際のロボットで取得できるデータ数が少ない問題に対して、どんな行動が取れるか、何が知覚できるかなどロボットの身体性も文脈として捉えて、筐体をまたいで使える理解・生成モデルを作るアプローチは可能か?

A. 筐体をまたいで使えるモデル(アーキテクチャ)を構築したいというのはまさに我々の目指す夢。そのためにどういう抽象度がよいのか(どこから先は筐体に紐づかないといけないのか)を議論している。


第8回研究会にご参加いただきありがとうございました。
谷口彰さんより、当日に回答が間に合わなかった質問への回答をいただいておりますので、下記に公開させていただきます。

リンク(google docs)

発表資料

第7回研究会にご参加いただきありがとうございました。
栗田さんより、当日に回答が間に合わなかった質問への回答をいただいておりますので、下記に公開させていただきます。


Q. 大規模なモデルによって推論などのタスクで精度が伸びてきた背景があると思いますが、実世界でロボットに搭載できるマシンのスペックには制限があるのではないかと感じました。その辺りの現状や今後どのようになっていくかについてお伺いしたいです。

A. ありがとうございます。例えばSayCanのロボットでは、オンデバイスで制御を完結させようとはしていないと思われます。当面は、インターネット接続があることを前提に、重たい処理は外部のサーバーで行い、重たくない処理をオンデバイスで行うようになるのではないでしょうか。このあたりは現在のスマートスピーカーの仕組みと似ていると思います。とはいえ、オンデバイスで深層学習を行うことを目指したNVIDIA Jetson Nanoのようなデバイスもありますし、今回の講演では全くカバーしていませんがTeslaのような自動運転車であればオフラインでも動作するようです。なお、もし集積回路技術に関するムーアの法則が今後もある程度は持続するのであれば、10~20年後にはオンデバイスで言語モデルも含めてすべての処理が完結するようになっているかもしれません。


Q. 指示に対する動作、という一方向のやりとりを超えて、間違った動作に対するフィードバック (あるいは指示の明確化) のようなものまで考慮したような研究はすでにあるのでしょうか。

A. ありがとうございます。言語による質問やフィードバックとしては、例えば、シミュレーション世界を利用したタスクでは、 Cooperative Vision-and-Dialog Navigation (CVDN) や Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning (HANNA)というナビゲーションタスクや、TEACh: Task-driven Embodied Agents that Chatという物体操作を行えるタスクが存在します。しかし、このように対話的なタスクについては、まだまだ研究の途上であると考えます。


Q. 大規模マルチモーダルロボットモデルが作成された時に何ができるようになると考えてますか?

A. ありがとうございます。難しい質問ですが、おおよそ開発者が学習時に教えていなかったことができるようになることが一つの到達点ではないかと考えています。クッキングロボットであれば、開発時に想定していなかった具材や調理法を、現場の人間の教示により扱えるようになることなどです。もちろん、それは全く容易なことではないと思います。


Q. 「言えること > やれること」なタスクには限界あると言う認識でしょうか?また、もしそうであればなぜでしょうか?(応用の観点からはそれでも十分な気はします)

A. ありがとうございます。上の質問への解答とも関連しますが、ロボットの機能として「やれること」を開発時にひとつひとつ定義し実装している限りは、「言えること > やれること」なのかなと思います。その場合には、開発時に想定していた「やれること」から多少逸脱するような「やれること」は基本的にできなくなってしまいます。

応用として、開発時に想していたことで十分であり、むしろ開発時に想定していないことは無理にやらせないようにしたほうが様々な理由で好ましいケースも現状多いかとは思いますが、一方で、そのようなアプローチでは「やれること」に限界があるのではないかとも考えており、今後の課題と思われます。


Q. 最終的に全てFoundation modelsでzero-shotに解けるのが理想なのでしょうか(もちろんtest timeにベイズ推論的に確信度を上げていくというのは重要だとは思います)

A. ありがとうございます。基盤モデル(Foundation model)はおそらくかなり多様な入力形式に対応できます。開発時に明確に想定していなかったようなものも含めて、汎用な応対という意味では他のどの手法よりも優れていると思います。逆に、既存のMLのタスク(特にパターンがある程度絞られており、ある程度大きなデータセットが整備でき、学習時とテスト時のドメインシフトが大きくないもの)のように、学習時に想定した入出力しかほぼこないとわかっている課題であれば、わざわざ基盤モデルでzero-shotに解く必要はないと考えます。


<幹事団>


品川政太朗 (NAIST, 理研GRP)

吉野幸一郎 (理研GRP, NAIST)

栗田修平 (理研AIP)

綱島秀樹 (早稲田大)

山木良輔 (立命館大)

谷口彰 (立命館大)

萩原良信 (立命館大)

杉浦孔明 (慶応大)

中村友昭 (電通大)

稲邑哲也 (NII)

長井隆行 (大阪大)

内田諭 (九州大)

井之上直也 (北陸先端大)

岩橋直人 (岡山県立大)

小林一郎 (お茶大)

持橋大地 (統数研)

谷口忠大 (立命館大)

連絡先:品川 政太朗 (sei.shinagawa あっと is.naist.jp)

(「あっと」は@と読み替えてください )