FAQ (日本語)

こちらは論文に関するFAQ(よくある質問とその答え)です。

論文と合わせて参照いただくことを強く推奨します。

最終更新日: 2023/5/2

一般

Q: 論文について概説してください。 

A: この論文では、ヒト脳活動といわゆる画像生成AIの一種である潜在拡散モデル(Stable Diffusion)の関係を定量的に記述することで、以下を行いました。

Q: これは脳活動のエンコーディング・デコーディングについて調べた初めての論文ですか?

A: いいえ、デコーディングにもエンコーディングにも、長い研究の歴史があります。詳しくは論文の導入部でも紹介していますが、例えば視覚体験のデコーディングについては、神経生理学の知見を応用した多数の研究が存在します(Kay et al., 2008; Miyawaki et al., 2008; Naselaris et al., 2009; Nishimoto et al., 2011)。また、深層学習が発展してからは、その流れは加速しています(Shen et al. 2019、他多数)。エンコーディングについても、刺激に関する様々な特徴量をモデル化し脳活動との対応をとる試みは古くから行われてきました(Nishimoto et al., 2011など)。近年では深層学習モデルに由来する特徴によって脳活動を記述する試みも多く(Yamins et al., 2014, Güçlü and van Gerven 2015,  など)、脳と深層学習モデルの両方の理解に役立てられています。

つまり、他の多くの研究と同様に、私たちの研究は突然出てきたものではなく、古くからの知見の積み重ねの上に、新たな技術とデータを組み合わせることによって行われました。

Q: ではこの論文は何が新しいのですか?

A: 脳活動からの視覚デコーディング(画像生成)に関して、過去の論文では映像特徴と文章で記述される意味特徴の両方を明示的に使った例はほとんどありませんでした。また、大半の研究は深層学習モデルのfine-tuningなどを必要としており、サンプルサイズの少ない脳活動データへの適用は一般に困難を伴いました。

今回の論文は、初期視覚野脳活動から推定される映像情報と高次領野脳活動から推定される(文章由来)意味特徴を組み合わせ、これらを潜在拡散モデル (Stable Diffusion)の内部表現と直接的に(fine-tuningなしで)対応させることで、一定程度の視覚内容解読ができることを示しました。

エンコーディングに関しては、関連する先行研究では主としてCNNと脳活動との対応関係が探られてきましたが、(潜在)拡散モデルという近年急速に発展してきた生成モデルの仕組みやダイナミクスを検証するために脳活動を用いた研究は初めてとなります。

Q: これはいわゆる”マインド・リーディング”技術でしょうか?

A: 今回発表した論文は知覚した内容と脳活動の関係性を調べるもので、マインド・リーディングではありません。

Q: こちらの論文は査読付きの雑誌に掲載されるのでしょうか?

A: 本論文は査読付き国際会議「The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2023」に投稿し、複数の匿名の専門家によるレビューを経て受理されました。生命科学分野では査読付きの雑誌へ投稿することが一般的ですが、AIや機械学習分野では、CVPRのような査読付き国際会議への論文投稿が類似の役割を果たしています。

手法について

Q: LDMとは、Stable Diffusionとは何ですか?

A: 潜在拡散モデル(LDM)は拡散モデルと呼ばれる数学的なモデルの一種であり、大量のデータサンプル(膨大な画像データセット等)の統計的性質を学習することで新たなサンプル(画像)を生成することが出来ます。Stable Diffusion (Rombach et al., 2022)は潜在拡散モデルの一種であり、高精細な画像を生成するAIの一種として知られています。Stable Diffusionは2022年8月にオープンソースのモデルとして公開されたため、画像生成だけでなくその内部表現の検証が可能になっています。

Q: データセットは何を使いましたか?

A: 今回の研究では、Natural Scenes Dataset (NSD)を用いました。NSDは各ヒト被験者が最大10000枚の画像を複数回見ているときの脳活動を高磁場(7T) MRIを用いて詳細に記録したもので、現時点で利用可能な同種の公開データとして最大のものの一つです。被験者が見ている画像はMS COCOと呼ばれる機械学習分野で使われているデータセットに由来しており、各画像には画像の内容が文章で記述されたテキスト情報(単純なカテゴリーラベルとは別のもの)が付与されています。本研究ではこの画像とテキスト情報を使って画像を見ているときの脳活動と潜在拡散モデル (Stable Diffusion)の内部表現との対応付けを行いました。(なお画像生成テストの際には脳活動情報のみから解読を使い、画像やテキスト情報は使っていません。)

Q: Stable Diffusionを再訓練またはファインチューニングしたのでしょうか?

A: いいえ。私たちは公開されているモデル(v1.4)をそのまま使っています。

Q: テストデータの画像再構成にどんな情報を使っていますか?画像またはテキスト情報を使っているのでしょうか?

A: 私たちはテストデータの画像再構成には脳データのみを用いており、テストデータに含まれる画像やテキストは一切使っていません。

Q: 脳のどの部位を解析に用いているのでしょうか?

A: 初期視覚野(early visual cortex)の活動を画像特徴のデコーディングに、高次視覚野(ventral cortex)の活動を意味情報のデコーディングに用いています。

その他

Q: この技術を使って想起や夢の内容を解読できますか?

A: 何かを体験(知覚)しているときの脳活動とそれを想起あるいは夢を見ている時の脳活動には一定の相同性があることが知られており、この性質を利用して想起あるいは夢の内容を一定精度で解読できることが知られています。ただし、一般的に信号強度(解読精度)は想起の方が低くなる傾向にあります。本研究で用いた技術を想起脳活動に適用した例はなく、どの程度の精度になるかは現時点では不明です。

Q: セマンティックデコーダーはどのような情報をデコードしているのでしょうか?視覚カテゴリーラベルを脳活動から解読することで映像を生成しているのでは?

A: 私たちの用いた意味情報に関する潜在表現Cは、CLIPモデルで扱われているキャプション(画像に関する文章記述)に基づいており、これは画像に関する一般的で多様な情報を含んでいます。論文では、画像のカテゴリーラベルだけを用いてセマンティックデコーダーを構築した場合は解読精度が落ちることを確認しています(Supplementary Figure B.2)。このことは、潜在表現Cを用いた今回のデコーディングは、単純な視覚カテゴリーのみの情報を用いて脳活動解読を行っているわけではないことを示唆します。

Q: これは単に意味情報をデコードしてそれらしい画像を生成しているだけでは?

A: 本研究では初期視覚野からデコードされる映像情報Zと高次視覚野からデコードされる意味情報Cを組み合わせることで画像生成を行っています。解析の結果、ZとCの両方を使った方がCのみを使うよりも視覚再構成精度が向上することを確認しています(画像例はFigure 3を、定量評価はFigure 5を参照してください)。このことは組み合わせによる効果の重要性を示唆しています。

Q: 脳デコーディングに関わる倫理・プライバシー上の問題はなんでしょうか?

A: 前提として、脳の情報を十分に解読する技術がすぐに実用化されることは考えにくいです。今回の論文で扱ったようなデコーディングモデルを構築するためには、大型のfMRIスキャナーに何時間も入らなければいけません。デコーディングモデルの精度もまだまだ向上の余地があります。しかし、脳活動の計測技術も計算モデルも、日々進歩しています。そのため将来的には、脳活動を解読することは倫理やプライバシーに関わる重大な問題を引き起こす可能性があります。私たちは、脳は極めてデリケートな個人情報であると考えており、インフォームドコンセントなしに、いかなる形の脳活動解析も行われるべきでないと強く信じています。

Q: ある人で作った脳活動デコーダーを、他の人に適用することは可能なのでしょうか?

A: 個人によって脳の形が違うため、ある個人で作ったモデルを直接他の人に適用することはできません。ただ、その差を補正する手法はいくつか提案されており、それらを利用すれば被験者を横断したモデルの適用は一定精度では可能と考えられます。

Q: 今回の技術をEEG(脳波)やMEGなど他の機器で計測されたデータに適用することは可能なのでしょうか?

A: 私たちが提案したフレームワークは、一般にEEGを含む計測機器にも適用可能です。ですが、そのような応用の精度は今のところ不明です。これは、脳波の時間・空間分解能やS/N比がfMRIと大きく異なるためです。

Q: この技術はどの程度幅広い視覚体験に適用可能なのでしょうか?

A: 本研究で用いたNSDは、できるだけ自然で多様な視覚刺激に対するヒト脳活動を収集することを目的としています。そのため、本研究で提案した技術にも一定程度の一般性があると考えています。ですが将来的には、人工的な刺激を含むより多様な刺激に対する知覚体験にも、本研究で開発した技術が適用できるのか検証する予定です。

Q: Stable Diffusionの訓練に用いられているデータと、fMRIで提示した画像に重複はあるのでしょうか? 重複がある場合、定量評価に影響を与えないのでしょうか?

A: 詳細に調べたところ、今回のfMRI実験刺激のテストデータに用いた画像のうち約7%が、Stable Diffusionが訓練に用いているLAION-5Bに存在しました(※)。そこで重複画像を除いて改めて定量評価したところ、変化はありませんでした(Inception v3を用いた際のIdentification accuracy=74.3 ± 1.7% / 74.3 ± 1.6% [Original/New]。CLIP、AlexNetを用いた定量評価でも顕著な差はありませんでした)。

加えて、テキスト符号器の訓練データ重複による影響を調べるため、テキストの符号化器にCLIP(NSD刺激でも使われたMS COCOデータセットを学習に利用)ではなくOpenCLIP(LAIONデータセットを学習に利用)で訓練されたStable Diffusion v2.0を用いて本研究と同様の解析を行いました。結果としては、定量評価結果に差はありませんでした(Inception v3を用いた際のIdentification accuracy = 74.3 ± 1.7% / 74.5 ± 2.7% [Original/New]。CLIP、AlexNetを用いた定量評価でも顕著な差はありませんでした。)

これらの結果は、fMRIで提示した画像がネットワークの訓練に用いられていることが、本論文の結論に影響を及ぼさないことを示しています。なお、今後の研究のために、NSDのテストデータとLAION-5Bのデータの重複の検証方法、重複イメージのリスト、および検証結果をこちらのURLで公開しています。

(※) なお論文内で例示したテスト(デコーディング対象)画像35枚のうち、LAION 5Bの訓練画像と重複していたものは次の3枚です:Figure 31行目 [Sup FigB4 2列目7行目とおよびSup FigB5 1列目4行目と同一]、Figure 43行目、Sup. Fig. B42列目8行目。

Q: Supplementary Materialはどこにありますか?

A: bioRxivページの右上から入手できます(リンク)。なお、preprintではない正式な論文は、CVPR本会議が実施されるタイミングまでにIEEE Xploreのページで公開されるはずですので、以降はそちらを参照ください。

Q: この手法を用いて自分でNSDを解析することはできますか?

A: はい、公開しているコードをご利用ください。

Q: 定量評価(Identification Accuracy)の具体的な数値を記載したテーブルはありますか?

A: こちらに用意しました。なお、各テストデータについて(1) 5枚の画像を生成し、(2) それぞれについてPSMを計算し、(3) 最後にその平均を用いてidentification accuracyを計算しています(計算方法の詳細はSupplementary Materialに記載しています)。