が成り立ちます。ベクトル空間上の作用素 A が与えられたとき 任意の u と v について (Au,v)=(u,Bv) を満たす作用素 B のことをAの共役作用素といい B=A* と表記します。もしも A=A* が成り立つときには、 A のことを自己共役作用素といいます。自己共役作用素はユニタリ変換を用いて対角化可能でありその固有値はすべて実数であることを示すことができます。このことはベクトル空間が無限次元である場合にも一般化することができ、その場合は自己共役作用素がスペクトル分解を持つことを示すことができます。以上の数学的事実は、量子力学において物理量が自己共役作用素で表され、その固有値が観測の結果として得られることとちょうどうまく対応しています。このことは学部3年生の講義で必ず習うはずです。
さて、問題はここからです。内積の定義から上記の(1)(2) を取り外すとどうなるでしょうか。(u,u)<0 となる u があり、0でない v が (v,v)=0 になったりするわけです。そのような内積が定義された空間のことを不定計量空間と呼ぶことがあります。相対論で必要になるミンコフスキー計量は不定計量であり、時空間が不定計量であることからその上に定義される物理量(量子場)もまた不定計量に関する自己共役作用素となります。このときとても困ったことに、不定計量に関する自己共役作用素は、有限次元空間の場合でさえ対角化できるとは限りません。このため量子力学を相対論に従うように拡張しようとすると、観測の枠組みがうまくいかなくなるという問題があることが知られています。いまのところ現実に我々が暮らしている世界の存在は相対論を満たす量子場であると考えられているので、理論がうまくいかないとするととても困ることになります。存在確率が負になる粒子(量子場)が理論上はどうしても必要になるため定式化において現れるものの観測はできないように閉じ込めておくという枠組みが想定されています。「存在確率が負の粒子が必要だが観測はできない」。自然は人間が言葉で理解するものとして存在しているわけではないので、もし自然が本当にそうなのであれば、そうであるということになります・・・。
(注)いまから40年ほどまえ、京都大学数理解析研究所の図書館に「数理解析研究所講究録」のシリーズが置かれていました(数理研で行われた研究会で発表された論文をまとめたもので膨大な量です)。その中に冨田稔先生が書かれた不定計量に関する自己共役作用素の分解についての論文がありました(冨田先生は、作用素環論の発展の基盤となった冨田・竹崎理論で高名なあの冨田先生です)。そこには、不定計量に関する自己共役作用素に対して それが定義されている空間を 3つの部分空間の直和として表すことができ、(従って作用素は3×3=9個の作用素に分かれます)、それぞれの作用素がどのような数学的性質を持つかについて書かれてありました。
(注)場の量子論に関心のあるかたがここを読まれているとは思えませんが、万が一、そのようなかたがいらした場合、不定計量空間は本当にわからない世界なので、これを研究される場合は、何もわからないこともありうるということを想定されたうえで研究をなさってください。(真に未知の不確実性の暗闇の中にあります)。もしも何かわかれば、数理物理学にとってとても重要なものになると思います。
(注) 内積が定義されている空間では、その位相は内積から定義されるノルムによって定めるのが普通です(ヒルベルト空間)。しかしながら、不定計量しか定義されていない空間において位相をどのように定めるかについては必ずしも自然なものはありません。0でない v で (v,v)=0 を満たすものが普通にいくらでもあるため、位相をいれるために不定計量内積とは別に何かを設定したくなりますが、その何かは人工物にすぎず物理学的に自然なものではないような感じがします。時空であるミンコフスキー空間は有限次元線形空間なので自然に入る位相はユニークですが、量子場が定義されている無限次元空間はどのように考えるのがよいでしょうか。(量子電磁力学においてはゲージの取り方というさらに難しくて重要な問題もあります)。
(2025/9/26) [分配関数(続き)] β>0 を実数とします。ある実数値関数 H(x) が与えられたとき、x の確率分布
p(x|β)=(1/Z(β)) exp(-βH(x))
は、自然科学だけではなく、とても広範な領域で必要になります。ここで
Z(β) = ∫ exp(-βH(x))dx
は正規化定数です。前回も述べましたが、この Z(β) は単なる定数であるにもかかわらず、この値を求めることができると、気体の状態方程式が導けたり、確率モデルの妥当性を調べたりできるという意味でとても重要なものですが、そのように重要なものであるからこそ、簡単には計算できないという課題があります。そこで数値計算が大切な役割を果たすことになり、実際に多くの方法が作られています。これに関連する計算法やソフトウエアはそのためだけではなく、より広い用途にも役立つため、科学のためにも技術のためにも不可欠なものになっています。
さて、意外なことかもしれませんが、数値計算を行う場合には、「p(x|β) に従う確率変数の実現値を生成すること」と「Z(β)を求めること」とは同じことではありません。つまり、そのどちらかができたとしても、それはもう一方も同時にできることを意味していません。多くの場合、前者のほうが比較的容易であり(といっても難しいのですが)、前者ができたとしてもそれだけで後者が計算できるわけではありません。確率変数の生成よりも定数の計算のほうが難しいというのはちょっと不思議なことではあります。
前者ができたとして、前者を利用して後者を計算する方法としては、次のようなものがあります。
F(β) = - log Z(β)
とおきます。もしも F(β) が求まれば Z(β)はすぐに計算できます。β による微分と x による積分の順序が交換可能であるとすると
dF/dβ= ∫ H(x) p(x|β) dx
が成り立つので、 p(x|β) に従う確率変数の実現値 {xi; i=1,2,...,K} が得られたとき {H(xi);i=1,2,...,K} の平均値を計算すると dF/dβ の数値近似を与えていることがわかります。F(β) が dF/dβ の βについての積分であることから F(β) の数値近似を求めることができます。実際 Z(0) は積分する x の領域の面積であることから F(0) が求まり、また 0 と β との間を十分に細かく刻んで各 β に対して dF/dβ を求め β の刻み幅をかけてから和を取ることで F(β) -F(0) の数値近似が得られます。
(注1) p(x|β) に従う確率変数の実現値 {xi;i=1,2,...,K} の生成法としてはマルコフ連鎖モンテカルロ法(MCMC)が利用されます(これにもメトロポリスヘイスティング法、ギブスサンプラー、ハミルトンMCなどあります)。2010年ころまで、考えている問題ごとに自分でMCMC法を設計する必要がありました。MCMC法が良好に動作するためには、それに先立って1回あたりのステップ間隔や繰り返し数などを試行錯誤で適切に決めておく必要がありました。STANによってそれらの自動化やMCMC法のプログラムの前提となる手計算をする必要がなくなり、MCMC法は爆発的に利用されるようになりました。
(注2) とはいえ、いまでも大規模なシステムや本当に無限個の変数を持つシステムを扱うにはどうしたらよいかなど、若い研究者のかたがたが活躍されるべき課題はたくさんあります。また 深層学習を熱平衡状態の中で動かすためにはどうしたらよいかなど、現在進展中の問題もたくさんあります。さらに exp(-βH(x)) だけでなく exp(itH(x)) は量子力学や場の量子論で必要になる課題です。これからも、ますます発展するべきですし、発展するに違いないでしょう。
(注3) 中間値の定理から、ある β*>0 が存在して
( F(β) - F(0) ) / β = ∫ H(x) p(x|β*) dx
が成り立ちます。もしもこの β* の値がわかるならば、その β* でだけ p(x|β*) を実現すればいいので、計算量を減らすことができます。そのような β* がおおよそわかる場合もあります。ところで 本来 F(β) は β における確率分布 p(x|β) に対して定義されていたにも関わらず、この方法で計算しようとすると β とは異なる β* での確率分布が必要になるのは、数学的には当たり前のことではあるのですが、心情的に納得できない点です。つまり、ある温度での平衡状態を調べるために別の温度での平衡状態を調べるというのは、本当にそれでいいのでしょうか。
(注4) 混合正規分布や混合多項分布などのように隠れ変数を導入してパラメータと隠れ変数の同時事後分布についてギブスサンプラーを作ると効率的に計算できるモデルがありますが、この方法は β=1 でないとそのままでは使えません。上の β* では使えないわけです。このような場合への対処法として、さまざまな方法がありうると思いますが、例えば n 個のデータのうちの nβ* 個だけを取り出して、それで事後分布を作っておき、その分布と目的の分布の相違を重点サンプリングを利用して補正するという方法があります。
(注1)試験問題では、与えられたハミルトニアンに対して分配関数を計算し、そこから物理法則が導出できればOKです。しかしながら、科学の実際の場では、ハミルトニアンは科学者により仮に設定された統計力学モデルを表しており、そのモデルの妥当さは、理論から導かれた法則と実験とを比較することで検証されます。これは仮説演繹法と呼ばれている大昔からの科学の基本的な方法です。ただし、理論的予測と実験結果が一致していたとしても、それだけで理論が正しいと結論されるわけではありません。実際、「気体が分子からできているかどうか」が未解明だった時代には、気体分子運動論により気体の状態方程式が導かれてもなお、その理論が正しいかどうかは結論づけられていませんでした。
(注2) 分配関数の βの代わりに 時間 t と虚数単位 i を用いた exp( itH(x,p) ) は量子力学で必要になります。虚数かどうかを気にしなければ同じ問題を考えているとも言えますが、多くの場合、これらの計算を行うには自然現象がどのようになっているかを洞察する必要があり、その自然現象は問題ごとに異なります。分配関数が計算できたから自然現象が解き明かされたのか、それとも科学者が自然現象の特徴を洞察できたから分配関数が計算できたのか、というのは答えのない問いであり、それは同時であることが多いようです。未知の問題を考え続けていくと、数学と自然現象が少しずつ関連づけられていき、なにかのきっかけで両者が出会うことになります。
P(x)= a(x)f(x)+b(x)g(x)
が成り立つことである」と定義しましょう。以上の設定のもとで、ある与えられた多項式 P(x) が {f(x),g(x)} で割り切れるかどうかを判定するアルゴリズムを作れるか? という問題を考えていきます。
割るほうの多項式がひとうであれば、多変数の多項式でも割り算を行うことはできます(割り算アルゴリズムと言います。単項式の順序をあらかじめ決めておいて、普通の割り算と同様に先頭の項から消えるように商をきめていきます)。 P(x) を f(x) で割ったときの余りを求め、次にその余りを g(x) で割ったときの余りが0になれば、もちろん、P(x)は{f(x),g(x)} で割り切れますが、その逆は成り立つとは限りません。つまり割り算アルゴリズムを順番に実行して余りが0にならなかった場合には、 P(x) が {f(x),g(x)} で割り切れるかどうかを判定できないということです。この問題は決して易しくはありません。もしも可換環論を学ぶよりも前に独力でこの問題の解決を与えることができたとしたら、その人は相当にすばらしい才能を有していると思います。
世の中には「数学は確定している知識の集合だ」と感じるかたもいらっしゃるかもしれませんが、実は数学を研究されているかたがたにとっては、数学は未知なことのほうが圧倒的に多い世界です。上記で述べた多項式で割り算ができるかどうかを判定する問題も、その構造が解明されるまでは未知であり「不確実性」の中にありました。判定アルゴリズムは作れるかもしれないし、作れないかもしれないし、その見込みについても誰もわからなかったわけです。
さて、未知の問題を考えるとき、数学における常套手段のひとつとして、問題を等価な別の命題に言い換えてみる、というものがあります。次のような多項式の集合 I を考えます。
I = { a(x)g(x)+b(x)f(x) ; a(x),b(x)は多項式}.
すると、ある多項式 P(x) が{f(x),g(x)} で割り切れるということと「 P(x) ∈ I 」とは等価な命題であることがわかります。そこで集合 I の性質を調べましょう。この集合 I は多項式環のイデアルであることがわかります(イデアルの定義を満たしていることをすぐに確認できます)。こうして、もともとの問題は、ある多項式 P(x) があるイデアル I に含まれているかどうかを判定することはできるか?という問題に言い換えることができました。
数学の常套手段の第2は対象を別のしかたで表現してみるということです。1965年にブッフベルガーは、与えられたイデアル I を、特別に良い性質を持つ生成元で表す方法を考えました。上記の例では I は {f(x),g(x)}から生成されたイデアルで、このとき I=<f,g> と書きます。イデアル I を I=<f1,f2,...,fk> と表せる別の生成元の集合 {f1,f2,...,fk} であって、各 fi のリーディングターム (単項式順序で先頭にくるもの)LT(fi) が消えないように選ぶことを考えたわけです。割り算をするとき、我々は割られる多項式と割る多項式の先頭の元を見比べて商を考えますが、つねにそのようなことができるような生成元を考えればよいのではという発想ですね。ブッフベルガーは、多項式環の任意のイデアルについて、そのような良い性質を持つ生成元は常に存在すること、およびそれらを具体的に作りだせるアルゴリズムを示しました。そのような生成元の集合をグレブナー基底といいます。グレブナー基底を使って P(x) の割り算アルゴリズムを実行すれば、その結果が0になるかどうかによって P(x) が I に含まれているかどうかを必要十分に判定することができます。(注意:基底という名前がついていますが、ベクトル空間の基底とは異なります。例えば、与えられたイデアルに対してグレブナー基底となる多項式の個数は一般にユニークには定まりません。)
あるイデアルのグレブナー基底を求める関数(ソフトウエア)も、グレブナー基底を使って割り算を行う関数(ソフトウエア)も、シンボリック計算を行う計算機プログラムにはついていることが多いです。数値計算用のプログラムでもグレブナー基底を求める関数が用意されていることが多いので、使ってみることができます。(なお、人間とLLMはどちらもこのタイプの計算には適していないので、人間とLLMが計算をした場合には検算が必要です。)
こうして、多項式の割り算についてはグレブナー基底という素晴らしいアイデアでほとんど完全といえる結果に到達できました。「不確実性」の世界にあった未知のものが、「確実」になったわけです。世界中の人が未知の状態にあったとき、グレブナー基底のような概念が現れてくることをあらかじめ想定できた人はいたでしょうか(注1)。さらに、こうした成果は、さらなる「不確実性」の中に私たちがあることを教えてくれることになります。この例でいえば、例えば、多項式環に「xで微分する演算(∂x)を付け加えると、新しく非可換環ができますが、そのような場所でも同種のことができるのか?といったことを考え始めると未知の世界は大きくなる一方であり、未知の領域が広がる速さは、未知が既知となる速さよりも速いので、未知の世界がどうなっているかを、あらかじめ私たちが想定できることはなさそうです。
(注1)1964年広中先生の特異点解消定理の論文が出版されましたが、その中でグレブナー基底と実質的に同じ概念が現れていました(広中標準基底と呼ばれています)。あらかじめその姿を想定できない未知の世界においても、ある時代が到来すれば、先駆者たちは同じような時期に類似する概念に到達するものなのかもしれません。
バーンスタインと佐藤・新谷は1970年代初頭に互いに独立にb関数の概念に到達していました。b関数もまた、なぜそのようなものを考えようとしたのかわからない不思議な概念です。しかし、グレブナー基底もb関数も、存在することが分かった後では、極めて強力であり、数学のみならず、科学や技術の発展を与える基礎になっています。誰も想像さえできなかった未知の数学が現れて、わからなかったことを明らかにし、さらに大きな未知がその先にあることを教えてくれたのです。
科学は観測・実験と理論を両輪として未知の世界を探求していきますが、未知の世界は本当に未知なのであり、発見される事実があらかじめ想定されていた状況とはまったく違うものであることもよく起こります。すなわち科学が挑戦しているのは未知の未知(Unknown Uncertainty) であり、事前に人間が思い描いた可能性の中に自然があるとは限りません。太陽系においてもまだ私たちが知らない天体があるのでは?という研究が続けてなされています。
こどものころ、「冥王星から見た太陽の想像図」を何かの本で見たことがあります。地球からは大きく輝いて見える太陽が、冥王星から見ると遠く離れた星のひとつにすぎず(とはいっても特別に明るい星です)、冥王星までくると太陽から遥か遠くまできたのだという旅情のようなものを感じたことをよく覚えています。現代では、冥王星から見た太陽を本当に撮影できるようになりました。また冥王星の直径は月の65%、カロンの直径は月の35%ですが、冥王星とカロンの距離は地球と月のわずか5%です(2万km、つまり冥王星とカロンは互いにすぐ近くを公転しあっています。その距離は地球半周しかありません)。冥王星から見たカロンの大きさ(直径)は地球から見た月の7倍、面積では50倍、いつも空の中の同じ場所に同じ面を向けて止まって見えます。もしもカロンの上に東京があったら、冥王星から明るく見えるだろうと思います。
さて、人工知能の推論で利用されている人工神経回路網も、フィッシャー情報行列のランクは、パラメータの数よりも遥かに小さくなります。統計学の立場からはフィッシャー情報行列の固有値0に対応する固有空間は実質的な推論に影響を及ぼさない余分な部分ですので、推測精度の向上のために、それらを削り取ることが奨励され、そのための方法もたくさん用意されています。適切に削り取るにはどうしたらよいか、とか、何についての適切性を考えるかなどについて、非常に多くの研究があります。
現実のデータの学習に使うとき、余分に見える部分は本当に何の役にもたっていないのでしょうか。←これは人工神経回路網のお話ですが、生体神経回路網ではどうなのかということも考えてみたくなりますね。
それにしても実現できたということの意義は大きく、LLMができるまでは深層学習の組み合わせにより意味を理解しているかのように応答するソフトウエアが作れるかどうかは研究者も含めて誰もわからなかったのですが、実現された今となっては、当たり前のことだったようにみんな知っています。いったん実現できるということがわかってしまえば、もう、どうなるかわからなかった過去にはもどることはありません。機械学習を専門としている研究者たちは、いつかできるとしても、もう少し先の未来になるのではと思っていたと思います。
これは、例えば数学の証明についても同じで、ある定理について証明が行われるまでは、そもそもその定理が成り立つかどうか誰にもわからないわけですが、いったん証明されると、その後は定理が成り立つということがわかっているからか、最初の証明よりも簡単な、直接的な、あるいはより本質的な証明が見つかるようになります。