作成者:渡辺澄夫(理化学研究所革新知能統合研究センター、東京科学大学)
概要: 人工知能の実現に用いられている深層神経回路網は、構成される関数に対して冗長であり、フィッシャー情報行列のランクはパラメータ空間の次元よりも著しく小さい。このような特異性をもつモデルの学習や予測を数理的に扱うために発展してきたものが特異学習理論である。このページでは、特異学習理論に初めて出会うかたを対象に、その概要をわかりやすく紹介するとともに、近年活発に研究が進められているAIアライメントへの応用可能性についても考察する。
このページは2025年10月27日に東北大学で行われた統計科学セミナーをベースにしています。そのPDFファイルはここにあります。新しい発展があったときは加筆修正する可能性があります。
(注)1986年に発行された
J. L. McCLELLAND, D. E. RUMELHART, and G. E. HINTON, 並列分散処理, MIT Press,
には、階層的神経回路網および学習法として誤差逆伝播法が記載されていました。当時の問題意識は、このようなモデルが外界からのデータを学習したとき、内部のパラメータに外界の情報がどのように表現されているか、というものでした。実際、この本には様々なタスクに対してどのようなネットワークが形成されたかについて書かれています(ラメルハルト先生とマクレランド先生は認知心理学者です。ヒントン先生はこの分野のご研究でノーベル賞を受賞されました。)この本が出版されてすぐに、このモデルが情報工学の様々な問題において高いパフォーマンスを示すことが実験的に示され第2次ニューロブームになり、その後3転4転を経て現代の人工知能の実現に至りますが、神経回路網の内部表現を理解するという当初の課題については40年たった現代でもほとんど研究が進展していません・・・。特異学習理論が、その困難な課題への第一歩になることを期待しています・・・。
(注)解析的集合とは、解析関数の零点全体が作る集合のことです。多項式の零点全体が作る集合は代数的集合あるいは代数多様体と呼ばれます。なお、日本語で多様体という言葉は、 manifold (普通は特異点を持たず、同じ次元のユークリッド空間の開集合の貼り合わせでできている)を表すときと variety (特異点を持っていて、同じ次元の開集合の和集合とは限らない)を表すときとがあるので、読んでいる本または論文でどちらなのかを確認してください。
(注)数値計算で固有値を計算する場合、1.0×10^(-20) のようなものがあって、0かどうか微妙ですが、学習理論では n をかけたとき1のオーダーになるかどうかがひとつの目安になります。高次漸近論を考えている場合には n^2 をかけてみてください。
(注)学習理論や学習曲線という用語は、もともと心理学で作られたもので、人間や動物の学習の過程を研究するものでした。その用語が人工神経回路網にも転用されるようになって現代に至っています。機械学習という言葉も起源は同じです。
(注)ここでは物理学の知識は必要ありませんが、ここで説明している相転移は、「水が氷になる」「鉄が磁石になる」という現象と数学的には等価な構造を持っています(熱平衡状態では自由エネルギーが最小になることで相が定まります。選ばれる相は温度や磁場などの変化で自由エネルギーが最小になるように変わることがありそれが相転移です)。深層学習はコンピュータで実現されているもので自然現象ではありませんが、自然現象と数学的な仕組みは同じであるということになります。生体の神経回路網が、ここで説明した相転移のような現象を持つかどうかは、まだ解明されていません。あなたが何か新しいことを思いついたとき、あなたの脳神経回路では、どのような現象が起きたのでしょうか。
(注)人間が自分の価値観をぴったりとある関数で表すことができるというのは幻想です。