無題

Thank you for visiting to this cite. These articles are written in Japanese by Sumio Watanabe. Latest articles are displayed first. Please read this page by using machine translation.

(2025/11/28) [ 記憶を消してももう一度遊びたい ] ときどき、「記憶を消してもう一度はじめから遊びたいゲーム・トップ２０」というランキングをみることがあります。これはおそらく、そのゲームを遊んだ人にとって、ストーリーがあらかじめ予想できなかったにも関わらず、自然で無理のない流れであり、遊んでいる間ずっと楽しくワクワクし、またゲームの終了後にさらに考え感じさせてくれるものを残してくれたということなのでしょう。ゲームに限らず、そうしたものに出会うのはとても幸せなことであるであると思います。

　数学や自然科学の中には、人間の作家によって作られたストーリーではなくても、それでも、もう一度、記憶を消して最初から感動を味わってみたいと思うような「物語」を感じるものがあります。

　たとえば、複素関数論では、正則関数の定義から出発し、冪級数展開、収束半径やコーシーの積分定理、留数定理などを証明していきます。解析学らしい級数の扱いかたから出発し、実関数の範囲では計算できなかった定積分の値を求める応用や代数学の基本定理が導けることを習ったりしていくわけです。しかしながら、複素積分が具体的な経路には依存せず、特異点をどのように回ったかだけによって決まる、というあたりから「物語」が動き出します。解析接続によってリーマン面という幾何学な概念への基盤が作られ、また、その幾何学を記述するために代数的な扱いが必要とされるという意味で代数学への橋渡しが準備されます。つまり複素関数論において、最初は調和的な性質を持つ関数を扱うための技法なのだと感じながら進んでいくと、いつのまにか、幾何学であり代数学でもあり、気づいたときには、古典的な数学から現代数学へとつながるたくさんの道の前にいることになります。途中で証明されていく定理が「うまくいきすぎる」、「そんなことまで成り立つのか」「なんて意外なところまでつながっているとは」と私たちに感じさせるのは、そこから先に、まだ未知ではあるが、そうしたものを成り立たせている数学的自然の不思議な気配があるからでしょう。

　複素関数論というとき、普通は一変数複素関数論のことを意味していることが多いですが、多変数関数論になると、そのことはよりはっきりと表れてきます。多変数関数論は、分類としては解析学に入るとはいうものの、多変数の正則関数が作るイデアルは代数的でもあり幾何学的でもあり解析学的でもあって、ある人には代数幾何学であるし、ある人には位相幾何学のようにも見えるし、さらに係数体が複素数ではなく一般の体でもいいのではと思った瞬間に、数学のあらゆる分野になっていくわけです。

　もしかしたら、数学や科学の研究をしている人々の原動力は、「記憶を消してもう一度あそびたいと思うような感動」の体験にあるのでは、という仮説を持っています。実際に研究を進めている人々にとっては、いま研究しているということがまさにその中にあるということでもあります。

　（例）多変数関数論を進めるにあたって大切な定理に、ワイエルシュトラスの準備定理があります。この定理の、代数：幾何：解析の割合は、50:20:30 くらいな気がします。

　（例）特異学習理論は、代数：幾何：解析：確率論が 20:20:30:30 だと思います。

(2025/11/20) [ 因数定理 ] 下記の図をご覧ください。

これは

z = xy /(x^2+y^2) (1)

のグラフを描いたものです。グラフをよく見ると原点の値が 0/0 となるため記入されていないことがわかります。そこで原点での z の値を自然に決めることはできるかという問題を考えましょう。相加相乗平均の関係、あるいはコーシー・シュワルツの不等式から、原点以外では、つねに

-1/2≦z≦1/2

であることがわかります。すなわち、z=f(x,y)/g(x,y) とおくとき、 |f(x,y)|≦g(x,y)/2 が成り立ちます。しかしながら、この関数 z=f(x,y)/g(x,y) は原点では連続にできません。ある点 (x,y) が原点のどの方角から (0,0) に近づくかにより z が近づく値も変わるからです。

　このようなことは１変数多項式では起きないことについて注意してください。実際、１変数多項式 f(x), g(x) が |f(x)|≦ g(x) を満たすとき g(x) の因数は多重度も含めて f(x) の因数にもなっています。因数定理を繰り返し適用してください。従って f(x)/g(x) は必ず割り切れて多項式になるため g(x)=0 となる x であっても f(x)/g(x) が連続関数となるようにその値をユニークに定義することができます。これを除去可能な特異点といいます。一方、２変数以上の多項式では、そのようなことは一般に成り立ちません。ある多項式 F(x,y) が F(a,b)=0 を満たしていても (x-a)(y-b) を因数に持つとは限らないからです。

　上記のような１変数と２変数以上の体上の多項式環の相違は、１変数では任意のイデアルがひとつの多項式から生成されますが、２変数ではそうとは限らないという性質の違いを表しています。前者のような環のことを主イデアル整域(PID)といいます。

(注) 練習しましょう。ある環がPIDかどうかは必ずしも自明というわけではありません。

PID の例： Z, Z[ω], K[x]. ここで Z は整数環、ω は１の３乗根で、 K は体.

PID でない例：Z[x], Z[sqrt(-3)], K[x,y]. ここで sqrt(-3)は(-3)の平方根.

それぞれ証明を考えて練習すると、いろいろとわかるかも。

　ところで z=xy/(x^2+y^2) のような関数は、応用には現れないかというとそうではなく、意外かもしれませんが、学習理論ではときどき表れます。関数

E(a,b,c)=∑ { Zi - c tanh(aXi+bYi) }^2

を考えてみましょう。これは、入力層２、中間層１、出力層１の３層神経回路網（(a,b,c) は結合荷重）に、入力 (Xi,Yi) と出力 Zi の例の組が与えられたときの二乗誤差です。∑ は i=1,2,...,n についての和を表しています。すると E(a,b,c) を c について最小化したときの二乗誤差は

E*(a,b) = min_c E(a,b,c)

= E(0,0,0) - F(a,b)

ここで

F(a,b) = { ∑ Zi tanh(aXi+bYi) }^2 / ∑ { tanh(aXi+bYi) }^2

となり、式(1) と実質的に同じ構造になっていることがわかります。この関数 E*(a,b) を最小にする (a,b) を求めること、すなわち F(a,b) を最大にする (a,b) を求めることは、３層神経回路網の入力層から中間層への結合荷重を最適化することに相当します。しかしながら、この最適化問題は F(a,b) が原点で不連続であることから、たいへん解きにくいことがおわかりいただけるかと思います。

　もしも { Xi, Yi, Zi, i=1, 2, ..., n } が互いに独立に標準正規分布に従うと仮定すると、F(a,b) の平均値は 1 となり、(a,b) に依存しない定数関数であることがわかります。言い換えれば「平均すると定数関数となる関数」について平均を取る前の関数の最大値とその最大値を与えるパラメータ (a,b) を求める、という問題になっています。このことはデータが増えると最適なパラメータが不定に近づくということを意味していて、最適な点の近傍を固定して議論することができません。このため残念ながら、この問題はこれ以上には解明されていません。ただし、「関数の平均の最大値」よりも「関数の最大値の平均」のほうが大きいので、max F(a,b) の平均値は 1 よりも大きくなるということがわかっています。またコーシー・シュワルツの不等式から n 以下の値になります。統計学を学ばれたたかたは、おおよそ３くらい（=パラメータ(a,b,c)の次元) ではと思われるでしょう。おそらくそれよりも大きくなります。深層学習では、入力に近いパラメータほど、このような最適化問題の対象になっています。

　（参考）あるデータセットに対する F(a,b) のグラフを下記に載せます。最大値を与える (a,b) がどうなるか想像してみてください。ここでは2例のみあげますが、データの出方に依存して F(a,b) はまったく異なる関数形になります。

データセット(n=100) ２例に対する関数 F(a,b) のグラフの例。最大値を与える (a,b) は原点の近傍であるときもあれば、無限遠であるときもあります。もちろん、原点でも無限遠点でもない可能性もあります。　

（参考） E(a,b,c) に正則化項を加えて E(a,b,c)+A|c|^2 とすると、c についての最小化が不定にならないのでよく利用されます。プログラムを作る場合には動作が不安定にならないように正則化項を入れておくほうが安心でしょう。何かの目的のため（例えば汎化誤差を最小化するため）に A を最適化することについては様々な方法が研究されています。（参考追加）パラメータ (a,b,c) が取りうる範囲が有界閉集合である場合には、最尤推定もしくは事後確率最大化推定において学習誤差が正規確率過程の最大値で与えられることや学習誤差が小さいほど汎化誤差が大きくなることを示すことができます (S. Watanabe, Algebraic geometry and statistical learning theory, Cambridge University Press, 2009, p.203-219).

(2025/11/14) [ 交換可能 ] ここでは交換可能な確率分布が持つ数学的な性質を考えてみましょう。まず次の二つの図の「ポリアの壺」と「確率が未知のコイン投げ」をご覧ください。

上の図をもう一度説明すると

(1) ポリアの壺：(I) 最初は壺に赤白１つずつ入っている。(II) 壺から玉を取り出して、「その玉」と「その玉と同じ色の玉」の合わせて二つを壺に入れることを n 回繰り返す。

(2) 確率が未知のコイン投げ：区間 [0,1] の一様分布に従って P を決めて、表が出る確率が P のコインを作り n 回独立に投げる。

となります。このまったく異なるように見える二つの確率的現象が、ぴったりと同じ確率分布を持つことは簡単に確認できます。実際、どちらでも、 k 回 (k≧0) までに出た赤（表）の回数が i のとき、次に赤（表）が出る確率は (i+1)/(k+2) になり、これより(X1,X2,...,Xn) の同時分布が等しいことがわかります。

これは数学的にはその通りであり、何も疑問点はありません。それでも奇妙な感じがするとしたら、それは前者では「赤が出る確率がどうなるかは運命次第で変わり、確率が収束するかどうかもわからないし,、収束するとしても何処に収束するか試行の結果でしかわからない」ように見えるのに対して、後者では「最初に確率が決められていて、大数の法則によりサンプル平均がその確率に収束する」ように見えるからでしょう。つまり、前者では「運命は未来が訪れるそのときまでは未確定である」のに、後者では「運命は未知ではあっても最初から確定している」ように、両者は異なるように見えます。しかしながら、確率分布が異なるように感じるのは人間の錯覚であり、前者でも後者でも大数の法則がなりたち、その収束先は、一様分布に従う確率変数 P になっています。なお、この例では、確率変数 (X1,X2,...,Xn) の確率分布は、どの k 個の組(1≦k≦n) への周辺分布も等しく、そのような場合を交換可能と呼びます。独立ならば交換可能ですが、交換可能であっても独立とは限りません。一方、交換可能であれば独立なものの混合として表現することができます。

(注) ポリアの壺では、収束先の確率変数 P など存在しないと思われるかたもあるかもしれませんが、その存在を述べたものがド・フィネッティの定理であり、それは「ポリアの壺」と「確率が未知のコイン投げ」が同じ確率分布を持つということに他なりません。

　(注) 間違えやすい点として、 X1, X2,...,Xn のサンプル平均 Y の収束先は E[Y] =1/2 ではなく、E[Y|P] =P であるということがあげられます。つまり、収束先は平均値ではなく、確率変数です。

（注）「ポリアの壺で最初の玉の個数を変えたもの」は、「コインの確率Pを生成する確率を一般のベータ分布にしたもの」と同じになります。また出た玉に応じて壺に入れる玉の種類や個数を変えた場合など、いろいろと一般化できるので考えてみてください。

　さて、それでは上記の二つの違いを表現するにはどうしたらよいでしょうか。確率分布に加えて「因果グラフ」を導入してみます。ポリアの壺では、因果グラフは「X1→X2, X1→X3, X2→X3, ・・・」となっています。一方、確率が未知のコイン投げは「P→X1, P→X2, P→X3, ..., 」となっています。この違いがあるため、もしも確率的現象に介入できるものとすると、介入によってどのような影響を受けるかが異なります。前者では X1 に介入すると X2 の分布が影響を受けますが、後者では X1 に介入しても X2 の分布は影響をうけません。具体的には、前者では p(X2|do(X1))=p(X2|X1) であるのに対して、後者では p(X2|do(X1))=p(X2) になっています。「ポリアの壺」と「確率が未知のコイン投げ」が異なる確率的現象のように感じられたということは、人間は生まれながらにして因果グラフの違いを感じ取っていたのだ、ということを意味しているのでしょうか。

　（注）ここでは「X1に介入する」ということを「因果グラフにおいて X1 に入るすべての矢印を消去してからすべての変数の同時分布を作り直したのち条件つき確率を計算する」と定義しています。因果グラフが与えられたというもとでのこの演算法は J. パールによって導入されました。

　（注）（X1,X2,...,Xn）の確率分布がぴったり一致しているので、それらに関する受動的な観測をいくら増やしても、二つの現象を区別することはできません。しかしながら、例えば X1 に介入してそのときの X2 を観測することを繰り返せば、両者を区別することが可能です。

（注）「運命は偶然により定まっていく。未来は最初から決まってはいない」と考えるか、「運命は最初から定まっている。誰も知らないだけである」と考えるかは、確率分布では区別できないが、因果グラフ（因果ストーリー）があるならば区別できるということですね。

(2025/11/6) [ 特異点と関数 ] まず上の図をご覧ください。これは、f(x,y)=x^5-y^3=0 をみたす実数の組 (x,y) の集合を2次元ユークリッド空間の中に描いた図です。次に下の図は関数 z=exp(-n f(x,y)^2) のグラフを描いたものになります(n=10)。上の図形は、普通の曲線のように見えますが、下のグラフは原点の近くだけ膨らんでいます。このようなことが生じる理由は、上の図形で原点が特異点であるためです（接線がユニークに引けても特異点である例です）。この例は n=10 ですが、 n をさらに大きくしていくと、z>ε>0 となるような (x,y) の集合は原点の近傍がほとんどになっていくことがわかります（下の図）。

（注）これと似ていますが f(x,y)=x^5-y の場合には、原点は特異点ではなく、また原点への集中も起こりません。グラフを描けるプログラムを持っていたらこの違いは簡単に確かめられるのでぜひ比べてみてください。

f(x,y)=x^5-y^3, 原点が特異点, n=100

f(x,y)=x^5-y^3, 原点が特異点, n=1000

f(x,y)=x^5-y^3, 原点が特異点, n=10000

f(x,y)=x^5-y, 特異点なし, n=100

f(x,y)=x^5-y, 特異点なし, n=1000

f(x,y)=x^5-y, 特異点なし, n=10000

(2025/10/30) [ 漸近展開 ] 無限級数で定義された関数

f(x) = ∑ (a_k) x^k (1)

を考えてみましょう。ここで数列 { a_k } と x はともに実数であるとします。また ∑ は k=0,1,2,3..., に関する無限和を表しています。もしも、ある実数 r>0 が存在して

∑ |a_k| r^k < ∞ (2)

であると仮定すると、式(1)は |x|<r の範囲で絶対収束し、その領域で f(x) は解析関数になります。解析関数は、項別に微分したり、項別に積分することができるというとても扱いやすい性質を持っています。つまり無限和をとるという演算と微分・積分するという演算の順番を変えても結果が同じになるというわけです。式(2)を満たす r の上限のことを収束半径ということがあります。

　さて、それでは、どのように r>0 をとっても(2)が成り立たない場合はどうでしょうか。そのような場合は応用では現れないかというと、そうではなく、物理学や情報学では、そのようなケースが頻繁に表れます。例として

f(x) = ∫ exp( - y - xy^2 ) dy (3)

を考えてみましょう。式(3)で ∫ は区間 [0, ∞) での積分を表すものとします。式(3) は x<0 では有限な値にならないので、 x>=0 であるとします。定義から f(0)=1 であり、x>0 では 0<f(x)<1が成り立ちます。すなわち f(x) は x>=0 から実数への普通の関数を定義しています。さて関数 exp( -xy^2) を y についてテーラー展開すると

exp( -xy^2) = ∑ (-xy^2)^k / k! (4)

となるので、これを (3) に代入して形式的に項別に積分計算することで得られる関数

g(x) = ∑ (b_k) x^k , ただし b_k= (-1)^k (2k)!/ k! (5)

を考えてみます。式(5)は式(3)を形式的に計算したものですが、無限和と積分の順番が交換できるとは限らない（実際、この場合はできません）ので、f(x) と g(x) は同じ関数ではありません。このケースでは f(x) は普通の意味での関数になっていますが、(5)式の ∑ についての無限和は |x|>0 では収束しないので（収束半径は0)、g(x) は普通の関数を定義してはいません。つまり無限級数(5)は形式的なものであり、意味はありません。

　以上のお話は、単に当たり前のことを述べているだけですが、収束しない級数である(5)式を、もう少しよく考えてみるところからが数学です。(5)式の無限和を有限で打ち切ったものを考えます。

g_N(x) = ∑* (b_k) x^k (6)

ここで ∑* は k=0,1,2,3,..., N までの和です。これは有限和なのでもちろん g_N(x) は普通の関数になっています。関数列 { g_N(x) } は Nを無限大に近づけたときの極限を持たないことに注意してください。しかしながら好きなところで N を止めて x を正の側から0に近づけた極限 x→+0 を考えると

( f(x) - g_N(x) ) / x^N → 0 (7)

が成り立ちます。これはつまり x が原点の近くであれば g_N(x) は f(x) の良い近似を与えているということです。例えば N=3 のときは

f(x) ～ 1-2x+12x^2-120x^3 +o(x^3)

となります。N=1,2,3 のときのグラフを下記にあげました。この近似式は x=0 の近くではとても良い精度ですが、x が 0 から離れるとまったく近似になっていないので注意してください（Nを大きくしても x から離れたところで精度がよくなるということはありません）。以上をまとめると、『解析関数でない関数 f(x) が、収束しない無限級数 g(x) を有限で打ち切ったもの g_N(x) で、原点の近くでいくらでもよい近似ができる』、ということです。これは、かなりわかりにくく、いりくんだことを言っていると思いますので、納得できるまで、ご自身の心の中で検討してみてください。収束しない級数であっても数学的に意義があるということです。これを漸近展開といいます。解析関数の場合、異なる関数が同じ冪級数展開をもつことはありませんが、一般の関数では、二つの異なる関数が同じ漸近展開をもつことはあります。言い換えれば、漸近展開の情報によって元の関数はユニークには決まりません。

　さて、式(3) と同じように区間 (-∞, ∞) における積分

f(x) = ∫ exp( -y^2 - xy^4) dy (8)

を考えると同様の状況が生じますが、これは物理学でいうところの『自由場に相互作用項 xy^4 を加えたもの』です。式(8)における dy を１次元の積分ではなく、関数空間における積分だと考えれば、式(8)は場の理論や統計力学で普通に表れるものになっています。

　さて、一方、数学を研究されているかたにとって漸近展開を考えるメリットとしては、次のようなことがあります。確率論などで漸近展開が必要になるケースでは、その漸近展開の係数に考察している問題で重要な値（◎◎不変量とか◇◇曲率とか）が現れるという経験法則があります。それはつまり、運が良ければ、漸近展開を考えることで未知であった数学的構造が見つかることがあるということです（ただし、いつでもうまくいくという保証はありません）。

(注) 念のため申し上げますが、無限和が発散するということは漸近展開の定義には含まれていません。つまり無限和が収束しても発散しても式(7)が成り立てば漸近展開です。解析関数の冪級数展開は、漸近展開の特別な例でもあります。ただし、普通は解析関数の冪級数展開を漸近展開であるという言い方をすることはありません。

（注）例えば二つの異なる無限回微分可能な関数 exp(x) と exp(x)+exp(-1/x^2) は x=0で同じ漸近展開を持ちます（ただし後者の関数では x=0 で exp(-1/x^2)=0 と定義します）。この例では、どちらの関数の漸近展開も絶対収束する冪級数であり、その収束先は exp(x) とぴったり一致しています。これは、解析関数でないときは漸近展開が収束しても元の関数に戻るとは限らないという例になっています。

上の図は、関数 f(x) の漸近展開 g_1(x), g_2(x),g_3(x) です。x→0 では漸近展開の次数があがるほど正確になりますが、原点以外での精度があがるわけではありません。

無限遠点での近似をしたい場合には、(3)式に x^(1/2)y=z の変数変換をして

f(x) = ∫ exp( - z/x^(1/2) - z^2 ) dz/x^(1/2)

として exp( - z/x^(1/2) ) を展開してください。x^(-1/2) についての冪級数展開ができます。こちらは原点の近傍での近似はなりたっていません。

(2025/10/23) [ 最適化 ] 実数の多変数 x=(x1,x2,...,xn) 上に定義された実数値関数 E(x) を最大にする x （最適解）を見つけたいという課題は、様々な場面で現れます。関数 E(x) が微分可能であり、E(x)を極大にする x がひとつであるときには、それが E(x) を最大にする x でもあり、grad E(x)=0 を満たす x をみつけてその点でヘッセ行列が負定値であれば、大局的な最適解になっています。これを数値的に見つけるために最急上昇法やニュートン法など様々な方法が考案されて使われています。

　さて E(x) を極大にする x がひとつでないときどうしたらよいか、というのは現代でも難しい問題で、完全な方法というのはありませんが、ここで『E(x) を極大にする x がユニークでない』という言葉から多くの人が思い浮かべやすい関数の形は上の図のような状況ではないでしょうか（多峰性関数）。確かに上の図では極大を与える x が複数個ありますが、変数が2次元以上の関数は、私たちが思い浮かべるよりもずっと多様な形状を持ちうるので注意が必要です。実際、下の図のような場合には極大値を与える x は無限に存在します。

　下の図のようなケースは一般的ではないと思う人もあるでしょう。しかしながら、深層学習における尤度関数あるいは事後分布は、学習モデルが階層的であることが理由で、上の図ではなく下の図に近いことが知られています。この違いは様々な影響を学習に与えます。

(1) 最急上昇法が近づいていく先の点は無限にあります。ニュートン法は使えません。

(2) 最急上昇法に雑音を加えてランジュバン方程式を作ると、その解である密度関数が満たすフォッカー・プランク方程式の定常解は、特異点の近傍に集まります。

(3) データが増えることによる学習の進展は、特異点近傍から別の特異点近傍へのジャンプによって実現されます。

以上のことは、人工知能の学習を理解するための重要な指針のひとつを与える可能性があると期待されています。

(2025/10/16)[ 変数変換 ] 未知の状況において、うまくいく方法が見つからず試行錯誤を続けていると、少しずつですが、自分の想定では不十分である理由が感じ取れるようになってきます。関数

　H(a,b,c,d)= \int_{[0,1]} { a tanh(bx) + c tanh( dx) }^2 dx

に対して集合 A=[0,1]^4 における積分

Z(n) = \int_A exp{ -n H(a,b,c,d) } da db dc dd

の計算をしようとしていたとき、変数 (a,b,c,d) の変換をいくら行ってもうまくいきませんでした。Z(n) において n が大きくなる極限を考えるとすると、多くの人はまず H(a,b,c,d) の最大値を与える (a,b,c,d) を見つけて、その点の周りでガウス関数で近似しようと思うでしょう。しかしながらその方法はうまくいきません（ガウス関数では近似できないからです）。次に、極座標表示を考える人もあるでしょう。これは試してみるべきアイデアですが、この場合はやはりうまくいきません。新しい変数 (p(1),p(2),p(3),...) を

p(k)=ab^(2k-1) +cd^(2k-1) (k=1,2,3,...)

のように作るという方法もあります。このとき無限個の変数 p(1), p(2), p(3), ... が現れてくるにも関わらず、実は (p(1),p(2))だけあれば十分であること、またその十分性が、実は2個の多項式から生成されるイデアルが、無限個の多項式から生成されるイデアルと等しいこと

<p(1),p(2)>=<p(1),p(2),p(3),...>

と等価であることまで手計算でわかるようになると、考えている問題は解析的な要因ではなく代数的な要因で定まっているらしいということがわかってきます。ここで、わかってくるというのは少しも論理的ではなく感覚的な手ごたえであり、まだまだ問題の解明には遠いのですが、何か未知のものが必要であるということを感じられるようになります。その未知のものはあらかじめ想定できるものではありませんでした。p(3) が <p(1),p(2)> に含まれることの具体的な計算は下記の課題をご覧ください。

上記の不等式は、本質的に多項式 h が fと g から生成されるイデアルに所属するということから導かれています。このことは次のように一般化できます。

『K, j を１以上の整数とします。多項式 f_j を

f_j=∑_{k=1}^K (x_k) (y_k)^(2j-1)

と定義します。f_1,f_2,...,f_K で生成されるイデアルを I とすると任意の j について

f_j∈ I

が成り立ちます。』

(2025/10/8) [ 解析接続 ] 1変数の複素数 z から1変数の複素数への関数 f(z) が a を中心とした半径 r の領域 |z-a|< r において絶対収束する冪級数で表されるとき、f(z) をその領域内で解析的であるといいます。このときその領域内の a でない点を中心とした冪級数が絶対収束する領域が |z-a|< r よりも外側まであるときには f(z) の定義域を広げることができます。同じ操作を繰り返せる場合には、f(z) をさらに広い領域上で定義された関数と考えることができます。これを解析接続といいます。この考え方はどんな場合に有意義になるでしょうか。

ここではその例を考察します。無限回微分できる任意の関数 g(x) と複素数 z が与えられたとき、閉区間 [0,1] 上での積分

f(z) = \int_[0,1] x^z g(x) dx (Re(z)>-1) (1)

を考えましょう。この積分は Re(z)>-1であれば積分値は有限確定です。g(x) の好きなオーダーまでのテーラー展開を考えると

f(z) = \int_[0,1] (x^z){ g(0)+xg'(0)+(1/2)x^2g''(0)+...} dx (2)

となります。x についての積分を実行すると

f(z) = g(0)/(z+1) +g'(0)/(z+2)+(1/2)g''(0)/(z+3) +... (3)

となります。f(z) は Re(z)>-1 の領域で定義されていましたが、式(3)から、複素平面全体に有理型関数としてユニークに解析接続できるということがわかりました。一般に解析接続を行う場合、接続の仕方がユニークでないこともあります（例えば z^(1/2) の場合は原点の周りを２周すると戻るようなリーマン面が必要になります）が、ここでは解析接続がリーマン面を必要としないことがわかりました。また、式(1)と式(3)が任意の無限回微分できる関数 g(x) に対して等しいことから、下記の二つの超関数が等しいことがわかりました。

x^z (4)

δ(x)/(z+1)-δ(x)'/(z+2)+δ(x)''/(2(z+3))+... (5)

ここで δ(x) はデルタ関数です。普通の関数 x^z を複素数 z の関数としてローラン展開すると展開係数がデルタ関数の微分になっているように見えます(正しくは超関数に値を取る複素関数をローラン展開したことになっています）。さて、f(z) は Re(z)>-1 でのみ定義されていましたが、解析接続すると z=-1,-2,-3,...以外で定義できることがわかりました。これより x^z は積分できる関数としては Re(z)>-1 でしか定義されていない一方で、関数の概念を拡張して超関数にまで広げることにより解析接続を行うことが可能になり、超関数としての非自明な展開式(5) が得られたというわけです。超関数として考えなければ式(4)が式(5)と等しいと思いつく人はいないでしょう。注意するべきこととして式(4)=式(5)の等号は超関数として等しいという意味であり、普通の関数として等しいわけではありません。実際、式(4)=式(5)に形式的に x=1 を代入することは定義されていない行為であって、そのとき式(4)と式(5)の値は等しくありません。

以上を要約すると、次のようになります。『積分して得られる関数の解析接続を考えると、積分される前の関数の超関数としての解析接続が得られる。そのとき普通の関数のままではできなかった計算ができるようになり、その結果として非自明な関係が得られることがある』ということです。以上のことのより具体的な説明は超関数にありますので、関心があるかたはご覧いただければと思います。「超関数は普通でない関数であり存在しないから、こんな計算はできない」ではなく「数学は自由であり、未知を探求するために、どんなものを考えてもよい」ということです。実際、ここで述べたことは多変数関数 g(x,y) の指数乗 g(x,y)^z に対しても同じことを実行することができ、g(x,y)=0 で定義される図形が特異点を持つ場合においても学習理論を導くことが可能になります。

(注1) ルベーグ積分は学部３年くらいで習うことになりますが、その中の大切な定理としてルベーグの優収束定理があります。関数列 fn(x) が実質的に各点（almost surely) で f(x) に収束し、かつ |fn(x)| が積分可能な固定関数でバウンドできるとき、f(x)もまた積分可能な関数であり、 fn(x) の積分値は f(x)の積分値に収束する、というものです。この定理はとても重要なものですが、物理学や情報学では、この定理の前提をみたさないケース（積分可能な固定関数でバウンドできない）も多く、上記で説明したものは、その典型的な例になっています。一方で、超関数論は大学院課程で初めて習うのではないかと思いますが、超関数論を習う前では、上記の計算が数学的には不明瞭なことをしているように見えてしまうという困難な点があります（超関数の収束を議論するために超関数の集合に位相をいれておく必要があります）。そのような場合、担当の先生は、「ここはちょっと説明が不十分ですが、修士課程で超関数論を習うと、はっきりとわかります」と説明されているのではないでしょうか。4年生で卒業研究を始めるときには、まだ超関数論を習っていない人も多いのではと思います。

(注2) 超関数は一般に普通の関数の積分で表すことはできません。しかしながら「任意の超関数は積分できる関数列の極限で表すことができる」という定理があります。超関数の集合に入れた位相により、「積分できる関数で表される超関数が作る集合」は、超関数の集合の中で稠密(dense)であるということです。これを超関数の表現定理といいます。例えば δ(x)' がどんな積分可能関数列の極限なのか考えてみてください。超関数を数式で書くときに出てくる dx というのは、その意味では単なる記号ではなく、積分で表されるものの極限だから積分を拡張したものなのだ、という気持ちの表れだと考えることもできます。実際、積分の変数変換 dy=(dy/dx)dx なども普通の積分のときと同じように成り立ちます。

(注3) なお、ここで超関数といっているのは Schwartz の distribution のことです。名前の通り、関数から複素数への連続線形汎関数であるという意味で「分布」を一般化した概念です。これよりも広くかつまったく異なる視点からの理解を与える概念として佐藤超函数（Sato hyperfunction ）があります。

(2025/10/2)[不定計量空間] 内積を持つ有限次元のベクトル空間を考えて、二つのベクトル u と v の内積を (u,v) と書くことにします。内積は、その定義から

(1) 任意の u について (u,u) は０以上

(2) (u,u)=0 と u=0 は同値

が成り立ちます。ベクトル空間上の作用素 A が与えられたとき任意の u と v について (Au,v)=(u,Bv) を満たす作用素 B のことをAの共役作用素といい B=A* と表記します。もしも A=A* が成り立つときには、 A のことを自己共役作用素といいます。自己共役作用素はユニタリ変換を用いて対角化可能でありその固有値はすべて実数であることを示すことができます。このことはベクトル空間が無限次元である場合にも一般化することができ、その場合は自己共役作用素がスペクトル分解を持つことを示すことができます。以上の数学的事実は、量子力学において物理量が自己共役作用素で表され、その固有値が観測の結果として得られることとちょうどうまく対応しています。このことは学部３年生の講義で習います。

　さて、問題はここからです。内積の定義から上記の(1)(2) を取り外すとどうなるでしょうか。(u,u)<0 となる u があり、0でない v が (v,v)=0 になったりするわけです。そのような内積が定義された空間のことを不定計量空間と呼ぶことがあります。相対論で必要になるミンコフスキー計量は不定計量であり、時空間が不定計量であることからその上に定義される物理量（量子場）もまた不定計量に関する自己共役作用素となります。このときとても困ったことに、不定計量に関する自己共役作用素は、有限次元空間の場合でさえ対角化できるとは限りません（2次元の場合で例があります。具体的なものは下記の数式をご覧ください）。このため量子力学を相対論に従うように拡張しようとすると、観測の枠組みがうまくいかなくなるという問題があることが知られています。いまのところ現実に我々が暮らしている世界における存在は相対論を満たす量子場であると考えられているので、理論がうまくいかないとするととても困ることになります。そこで、存在確率が負になる粒子（量子場）が理論上はどうしても必要になるため定式化において現れるものの観測はできないように閉じ込めておくという枠組みが想定されています。「存在確率が負の粒子が必要だが観測はできない」。自然は、人間が言葉で理解できるものとして存在しているわけではないので、もし自然が本当にそうなのであれば、そうであるということになります・・・。

　（注）いまから40年ほどまえ、京都大学数理解析研究所の図書館に「数理解析研究所講究録」のシリーズが置かれていました（数理研で行われた研究会で発表された論文をまとめたもので膨大な量です）。その中に冨田稔先生が書かれた不定計量に関する自己共役作用素の分解についての論文がありました（冨田先生は、作用素環論の発展の基盤となった冨田・竹崎理論で高名なあの冨田先生です）。そこには、不定計量に関する自己共役作用素に対して　それが定義されている空間を　３つの部分空間の直和として表すことができ、（従って作用素は３×３＝９個の作用素に分かれます）、それぞれの作用素がどのような数学的性質を持つかについて書かれてありました。

　（注）場の量子論に関心のあるかたがここを読まれているとは思えませんが、万が一、そのようなかたがいらした場合、不定計量空間は本当にわからない世界なので、これを研究される場合は、何もわからないこともありうるということを想定されたうえで研究をなさってください。（つまり不定計量空間は真に未知の暗闇の中にあります。研究者の使命は真に未知の世界を探求することではありますが、もしも何もわからなかった場合、職業を続けられなくなる恐れがありますので、無理だと判断した場合には引き返す勇気を持って研究なさってください）。もしも何かわかれば、数理物理学にとってとても貴重なものになると思います。荒木不二洋先生が書かれた不定計量空間についての論文に下記のものがあります。

Araki, H. On a pathology in indefinite metric inner product space. Commun. Math. Phys. 85, 121–128 (1982). https://doi.org/10.1007/BF02029137

(注) 内積が定義されている空間では、その位相は内積から定義されるノルムによって定めるのが普通です（ヒルベルト空間）。しかしながら、不定計量しか定義されていない空間において位相をどのように定めるかについては必ずしも自然なものはありません。０でない v で (v,v)=0 を満たすものが普通にいくらでもあるため、位相をいれるために不定計量内積とは別に何かを設定したくなりますが、その何かは人工物にすぎず物理学的に自然なものではないような感じがします。時空であるミンコフスキー空間は有限次元線形空間なので自然に入る位相はユニークですが、量子場が定義されている無限次元空間はどのように考えるのがよいでしょうか。（量子電磁力学においてはゲージの取り方というさらに難しくて重要な問題もあります）。

(2025/9/26) [分配関数（続き）] β>0 を実数とします。ある実数値関数 H(x) が与えられたとき、x の確率分布

p(x|β)=(1/Z(β)) exp(-βH(x))

は、自然科学だけではなく、とても広範な領域で必要になります。ここで

Z(β) = \int exp(-βH(x)) dx

は正規化定数です。前回も述べましたが、この Z(β) は単なる定数であるにもかかわらず、この値を求めることができると、気体の状態方程式が導けたり、確率モデルの妥当性を調べたりできるという意味でとても重要なものですが、そのように重要なものであるからこそ、簡単には計算できないという課題があります。そこで数値計算が大切な役割を果たすことになり、実際に多くの方法が作られています。これに関連する計算法やソフトウエアはそのためだけではなく、より広い用途にも役立つため、科学のためにも技術のためにも不可欠なものになっています。

　さて、意外なことかもしれませんが、数値計算を行う場合には、「p(x|β) に従う確率変数の実現値を生成すること」と「Z(β)を求めること」とは同じことではありません。つまり、そのどちらかができたとしても、それはもう一方も同時にできることを意味していません。多くの場合、前者のほうが比較的容易であり（といっても難しいのですが）、前者ができたとしてもそれだけで後者が計算できるわけではありません。確率変数の生成よりも定数の計算のほうが難しいというのはちょっと不思議なことではあります。

　　前者ができたとして、前者を利用して後者を計算する方法としては、次のようなものがあります。

F(β) = - log Z(β)

とおきます。もしも F(β) が求まれば Z(β)はすぐに計算できます。β による微分と x による積分の順序が交換可能であるとすると

dF/dβ= \int H(x) p(x|β) dx

が成り立つので、 p(x|β) に従う確率変数の実現値 {xi; i=1,2,...,K} が得られたとき {H(xi);i=1,2,...,K} の平均値を計算すると dF/dβ の数値近似を与えていることがわかります。F(β) が dF/dβ の βについての積分であることから F(β) の数値近似を求めることができます。実際 Z(0) は積分する x の領域の面積であることから F(0) が求まり、また 0 と β との間を十分に細かく刻んで各 β に対して dF/dβ を求め β の刻み幅をかけてから和を取ることで F(β) -F(0) の数値近似が得られます。

(注1) p(x|β) に従う確率変数の実現値 {xi;i=1,2,...,K} の生成法としてはマルコフ連鎖モンテカルロ法(MCMC)が利用されます（これにもメトロポリスヘイスティング法、ギブスサンプラー、ハミルトンMCなどあります）。2010年ころまで、考えている問題ごとに自分でMCMC法を設計する必要がありました。MCMC法が良好に動作するためには、それに先立って１回あたりのステップ間隔や繰り返し数などを試行錯誤で適切に決めておく必要がありました。STANによってそれらの自動化やMCMC法のプログラムの前提となる手計算をする必要がなくなり、MCMC法は爆発的に利用されるようになりました。

(注2) とはいえ、いまでも大規模なシステムや本当に無限個の変数を持つシステムを扱うにはどうしたらよいかなど、若い研究者のかたがたが活躍されるべき課題はたくさんあります。また深層学習を熱平衡状態の中で動かすためにはどうしたらよいかなど、現在進展中の問題もたくさんあります。さらに exp(-βH(x)) だけでなく exp(itH(x)) は量子力学や場の量子論で必要になる課題です。これからも、ますます発展するべきですし、発展するに違いないでしょう。

(注3) 中間値の定理から、ある β*>0 が存在して

( F(β) - F(0) ) / β = \int H(x) p(x|β*) dx

が成り立ちます。もしもこの β* の値がわかるならば、その β* でだけ p(x|β*) を実現すればいいので、計算量を減らすことができます。そのような β* がおおよそわかる場合もあります。ところで本来 F(β) は β における確率分布 p(x|β) に対して定義されていたにも関わらず、この方法で計算しようとすると β とは異なる β* での確率分布が必要になるのは、数学的には当たり前のことではあるのですが、心情的に納得できない点です。つまり、ある温度での平衡状態を調べるために別の温度での平衡状態を調べるというのは、本当にそれでいいのでしょうか。

(注4) 混合正規分布や混合多項分布などのように隠れ変数を導入してパラメータと隠れ変数の同時事後分布についてギブスサンプラーを作ると効率的に計算できるモデルがありますが、この方法は β=1 でないとそのままでは使えません。上の β* では使えないわけです。このような場合への対処法として、さまざまな方法がありうると思いますが、例えば n 個のデータのうちの nβ* 個だけを取り出して、それで事後分布を作っておき、その分布と目的の分布の相違を重点サンプリングを利用して補正するという方法があります。

(2025/9/15)[分配関数] Tを絶対温度として、k=1.38×10^{-23}(J/K) をボルツマン定数とするとき、β=1/(kT) のことを逆温度といいます。絶対温度 T の熱浴の中にある n 個の粒子の位置と運動量を (x,p)= { (xi,pi) ; i=1,2,...,n} とするときのエネルギーが H(x,p) という関数で与えられているものとします。この関数 H(x,p) をハミルトニアンといいます（注１）。このとき定積分

　　　Z(β) = \int \int exp( -βH(x,p) ) dx dp

が計算できてβの関数として求められたとすると、関数Z(β)から熱平衡状態にある系の性質を導出できるということが統計力学で知られています。しかしながらこの積分は、いくつかの例外を除いて値を求めることが難しいという問題があります。積分の値が求められるものとしては、(1) 自由粒子つまりすべての粒子が相互作用を持たない場合、(2) １次元に並んだスピンが隣接相互作用のみを持つ場合（転送行列法が使える場合）、(3) 厳密ではないが平均場近似をする場合、などです。今から４０年くらい前、多くの物理学科では久保亮五先生の演習書（培風館）で、そのような例を学んでいました。もしかして今でもその演習書が使われているとすると４０年以上もみんながその本を勉強しているということになります。

　さて上記の Z(β) は分配関数と呼ばれています（注2）。統計力学（必修科目）の期末試験では「与えられた系の分配関数を求め自由エネルギーと比熱を導出せよ」という問題がほぼ必ず出題されるため、上記の(1)(2)(3)については、物理学科の学生は全員ができるようになっていたのではないかと思います。しかしながら、ここで心配な点は、ハミルトニアンが上記の(1)(2)(3)のいずれでもない問題が出題されて定積分が計算できなかったらどうしたらよいのか、ということでした。実際、相互作用のある粒子では分配関数を手計算で行うことはできませんし、現実にあるほぼすべての自然現象において分配関数は計算できません。

　遠い昔、このことが心配になり、図書館にいって定積分の公式集を調べたことがあります。定積分について紹介している本はたくさんありますが、どれも厚さ10cmくらいの大判の本で、「このような定積分は、このようになる」という一覧が掲載されていましたが、たくさんある公式を覚えることはできそうにないし、その導出法を自分ですべて考えることも難しいと思われました。統計力学における可解モデルは数学的にも特別に重要な性質を持つため、そのことを詳しく述べた本もあります (R.J. Baxter, Exactly Solved Models in Statistical Mechanics)。この本は学部生には高度すぎました。

　こうして「分配関数が計算できなかったら困る問題」は解決されないまま、年月は流れ去りました。ところが、社会人になってから、現実社会における実務の問題を扱う上で（自然科学ではない領域で）、計算できない分配関数をなんとかして計算せよ、という問題に再び出会うことになりました(続く)。

（注１）試験問題では、与えられたハミルトニアンに対して分配関数を計算し、そこから物理法則が導出できればOKです。しかしながら、科学の実際の場では、ハミルトニアンは科学者により仮に設定された統計力学モデルを表しており、そのモデルの妥当さは、理論から導かれた法則と実験とを比較することで検証されます。これは仮説演繹法と呼ばれている大昔からの科学の基本的な方法です。ただし、理論的予測と実験結果が一致していたとしても、それだけで理論が正しいと結論されるわけではありません。実際、「気体が分子からできているかどうか」が未解明だった時代には、気体分子運動論により気体の状態方程式が導かれてもなお、その理論が正しいかどうかは結論づけられていませんでした。

（注２）分配関数の βの代わりに時間 t と虚数単位 i を用いた exp( itH(x,p) ) は量子力学で必要になります。虚数かどうかを気にしなければ同じ問題を考えているとも言えますが、多くの場合、これらの計算を行うには自然現象がどのようになっているかを洞察する必要があり、その自然現象は問題ごとに異なります。分配関数が計算できたから自然現象が解き明かされたのか、それとも科学者が自然現象の特徴を洞察できたから分配関数が計算できたのか、というのは答えのない問いであり、それは同時であることが多いようです。未知の問題を考え続けていくと、数学と自然現象が少しずつ関連づけられていき、なにかのきっかけで両者が出会うことになります。

(2025/9/9)[多項式の割り算] 2変数以上の多項式の割り算を考えてみましょう。以下では x=(x1,x2,...,xn) として（n は２以上の整数）、多項式とは実数を係数とする x の多項式のことを呼ぶものとします。多項式 f(x) と g(x) (どちらも0でない）を固定します。このとき、「ある多項式 P(x) が {f(x), g(x)} で割り切れる」ということを、「ある多項式 a(x) と b(x)が存在して

P(x)= a(x)f(x)+b(x)g(x)

が成り立つことである」と定義しましょう。以上の設定のもとで、ある与えられた多項式 P(x) が {f(x),g(x)} で割り切れるかどうかを判定するアルゴリズムを作れるか？　という問題を考えていきます。

割るほうの多項式がひとつであれば、多変数の多項式でも割り算を行うことはできます（割り算アルゴリズムと言います。単項式の順序をあらかじめ決めておいて、普通の割り算と同様に先頭の項から消えるように商をきめて余りを計算します）。 P(x) を f(x) で割ったときの余りを求め、次にその余りを g(x) で割ったときの余りが０になれば、もちろん、P(x)は{f(x),g(x)} で割り切れますが、その逆は成り立つとは限りません。つまり割り算アルゴリズムを順番に実行して余りが０にならなかった場合には、 P(x) が {f(x),g(x)} で割り切れるかどうかを判定できないということです。この問題は決して易しくはありません。もしも可換環論を学ぶよりも前に独力でこの問題の解決を与えることができたとしたら、その人は相当にすばらしい才能を有していると思います。

　世の中には「数学は確定している知識の集合だ」と感じるかたもいらっしゃるかもしれませんが、実は数学を研究されているかたがたにとっては、数学は未知なことのほうが圧倒的に多い世界です。上記で述べた多項式で割り算ができるかどうかを判定する問題も、その構造が解明されるまでは未知であり「不確実性」の中にありました。判定アルゴリズムは作れるかもしれないし、作れないかもしれないし、その見込みについても誰もわからなかったわけです。

　さて、未知の問題を考えるとき、数学における常套手段のひとつとして、問題を等価な別の命題に言い換えてみる、というものがあります。次のような多項式の集合 I を考えます。

I = { a(x)g(x)+b(x)f(x) ; a(x),b(x)は多項式}.

すると、ある多項式 P(x) が{f(x),g(x)} で割り切れるということと「 P(x) ∈ I 」とは等価な命題であることがわかります。そこで集合 I の性質を調べましょう。この集合 I は多項式環のイデアルであることがわかります（イデアルの定義を満たしていることをすぐに確認できます）。こうして、もともとの問題は、ある多項式 P(x) があるイデアル I に含まれているかどうかを判定することはできるか？という問題に言い換えることができました。

数学の常套手段の第２は対象を別のしかたで表現してみるということです。1965年にブッフベルガーは、与えられたイデアル I を、特別に良い性質を持つ生成元で表す方法を考えました。上記の例では I は {f(x),g(x)}から生成されたイデアルで、このとき I=<f,g> と書きます。イデアル I を I=<f1,f2,...,fk> と表せる別の生成元の集合 {f1,f2,...,fk} であって、各 fi のリーディングターム (単項式順序で先頭にくるもの）LT(fi) が消えないように選ぶことを考えたわけです。割り算をするとき、我々は割られる多項式と割る多項式の先頭の元を見比べて商を考えますが、つねにそのようなことができるような生成元を考えればよいのではという発想ですね。ブッフベルガーは、多項式環の任意のイデアルについて、そのような良い性質を持つ生成元は常に存在すること、およびそれらを具体的に作りだせるアルゴリズムを示しました。そのような生成元の集合をグレブナー基底といいます。グレブナー基底を使って P(x) の割り算アルゴリズムを実行すれば、その結果が０になるかどうかによって P(x) が I に含まれているかどうかを必要十分に判定することができます。（注意：基底という名前がついていますが、ベクトル空間の基底とは異なります。例えば、与えられたイデアルに対してグレブナー基底となる多項式の個数は一般にユニークには定まりません。）

　あるイデアルのグレブナー基底を求める関数（ソフトウエア）も、グレブナー基底を使って割り算を行う関数（ソフトウエア）も、シンボリック計算を行う計算機プログラムにはついていることが多いです。数値計算用のプログラムでもグレブナー基底を求める関数が用意されていることが多いので、使ってみることができます。（なお、人間とLLMはどちらもこのタイプの計算には適していないので、人間とLLMが計算をした場合には検算が必要です。）

　こうして、多項式の割り算についてはグレブナー基底という素晴らしいアイデアでほとんど完全といえる結果に到達できました。「不確実性」の世界にあった未知のものが、「確実」になったわけです。世界中の人が未知の状態にあったとき、グレブナー基底のような概念が現れてくることをあらかじめ想定できた人はいたでしょうか（注１）。さらに、こうした成果は、さらなる「不確実性」の中に私たちがあることを教えてくれることになります。この例でいえば、例えば、多項式環に「xで微分する演算(∂x)を付け加えると、新しく非可換環ができますが、そのような場所でも同種のことができるのか？といったことを考え始めると未知の世界は大きくなる一方であり、未知の領域が広がる速さは、未知が既知となる速さよりも速いので、未知の世界がどうなっているかを、あらかじめ私たちが想定できることはなさそうです。

（注１）1964年広中先生の特異点解消定理の論文が出版されましたが、その中でグレブナー基底と実質的に同じ概念が現れていました（広中標準基底と呼ばれています）。あらかじめその姿を想定できない未知の世界においても、ある時代が到来すれば、先駆者たちは同じような時期に類似する概念に到達するものなのかもしれません。

　バーンスタインと佐藤・新谷は1970年代初頭に互いに独立にｂ関数の概念に到達していました。ｂ関数もまた、なぜそのようなものを考えようとしたのかわからない不思議な概念です。しかし、グレブナー基底もｂ関数も、存在することが分かった後では、極めて強力であり、数学のみならず、科学や技術の発展を与える基礎になっています。誰も想像さえできなかった未知の数学が現れて、わからなかったことを明らかにし、さらに大きな未知がその先にあることを教えてくれたのです。

(2025/9/1) [冥王星とカロン] 19世紀の後半ころ、海王星の軌道が微妙なずれを持つことから、ピッカリング、ローウェル、ケタカルによってその外側に未知の惑星があることが理論的に予測されていました。ローウェルはこの未知の惑星を探し続けましたが見つけることができませんでした。彼の死後1930年にトンボーが冥王星(プルート）を発見しました。冥王星は予想されていた位置に近い所にありましたが、実は海王星の軌道のずれは海王星の質量の誤推定が主な理由であったため、冥王星が予想された位置の近くにあったのは偶然であったと考えられています（また冥王星の質量は予測よりもずっと小さかった）。1978年クリスティーがカロンを発見しました。冥王星のすぐ近くにあったにもかかわらず冥王星が発見されてからカロンが発見されるまで48年もかかったわけです。当初カロンは冥王星の衛星であると思われていましたが、詳しく観測が行われるにつれて、冥王星とカロンの重心は、両者の外側にあること、つまり両者は、どちらかを他の衛星とみるよりも二重惑星と考えるほうが妥当であると知られるようになりました。その後、冥王星があるエッジワース・カイパーベルトには冥王星と同じような天体が他にもあることがわかり、2006年国際天文学連合で話しあいが行われて冥王星は惑星ではなく準惑星に分類されることになりました。カロンは準惑星の衛星ということになります。2015年、探査機ニューホライズンズが冥王星の近くまで行って撮影を行い、窒素の氷で作られた領域があることなどを発見しました。

　科学は観測・実験と理論を両輪として未知の世界を探求していきますが、未知の世界は本当に未知なのであり、発見される事実があらかじめ想定されていた状況とはまったく違うものであることもよく起こります。すなわち科学が挑戦しているのは未知の未知(Unknown Uncertainty) であり、事前に人間が思い描いた可能性の中に自然があるとは限りません。太陽系においてもまだ私たちが知らない天体があるのでは？という研究が続けてなされています。

　（注）こどものころ、「冥王星から見た太陽の想像図」を何かの本で見たことがあります。地球からは大きく輝いて見える太陽が、冥王星から見ると遠く離れた星のひとつにすぎず（とはいっても特別に明るい星です）、冥王星までくると太陽から遥か遠くまできたのだという旅情のようなものを感じたことをよく覚えています。現代では、冥王星から見た太陽を本当に撮影できるようになりました。

（注）冥王星の直径は月の65%、カロンの直径は月の35%ですが、冥王星とカロンの距離は地球と月のわずか5%です(２万km、つまり冥王星とカロンは互いにすぐ近くを公転しあっています。その距離は地球半周しかありません。東京とリオデジャネイロの距離くらいです。）。冥王星から見たカロンの大きさ（直径）は地球から見た月の7倍、面積では50倍、いつも空の中の同じ場所に同じ面を向けて止まって見えます。もしもカロンの上に東京があったら、冥王星からすぐ近くに明るく見えるだろうと思います。

地球からみた月と冥王星から見たカロンの大きさを比べてみました。カロンの直径はおよそ1200km つまり札幌と広島の距離くらいなので、もしも日本列島がカロンの上にあったら、この絵のカロンの中には入りきらないことになります。

(2025/8/23) [冗長性] 1990年代ころまで、 DNA の持つ情報のうち、遺伝情報を持つ領域は全体の2%くらいで、残りの 98% の領域は役割を持たない余分な部分であると考えられていて、ジャンクDNAと呼ばれていたそうです。大学の分子生物学の講義などでも当時はそのように説明がなされていたようですから、そのころに大学で学ばれたかたはそのように理解されているかもしれません。しかしながら、現代では、その領域のDNAの役割はまだ完全に解明されてはいないものの、遺伝子の発現を調節するというようなとても重要な役割を果たしている可能性が知られるようになりました。たんぱく質をコードしない領域は非コードDNAという名称で呼ばれ、重要な研究対象となっているそうです。科学はどんどん刷新されているので、大学の専門科目で学んだことでも新しい発展に留意するべきであるという例ですね。

　さて、人工知能の推論で利用されている人工神経回路網も、フィッシャー情報行列のランクは、パラメータの数よりも遥かに小さくなります。統計学の立場からはフィッシャー情報行列の固有値０に対応する固有空間は実質的な推論に影響を及ぼさない余分な部分ですので、推測精度の向上のために、それらを削り取ることが奨励され、そのための方法もたくさん用意されています。適切に削り取るにはどうしたらよいか、とか、何についての適切性を考えるかなどについて、非常に多くの研究があります。

　現実のデータの学習に使うとき、余分に見える部分は本当に何の役にもたっていないのでしょうか。←これは人工神経回路網のお話ですが、生体神経回路網ではどうなのかということも考えてみたくなりますね。

(2025/8/17) [神経回路網] 現在の人工知能の中心で動いている深層学習は、昔は人工神経回路網(artificial neural network)と呼ばれていました。これは生物や人間の神経細胞（ニューロン）およびそれらをつないでいるシナプスを単純化して作られたものです(生体の神経回路は人工的なモデルよりもずっと複雑な動作をします)。人工知能を作るとき、生体の神経回路を模倣したものを使うことは必須なのか、それとも生体とは全然違うものでも学習機能さえあれば同じように動くのか、ということについてはまだわかっていません。いまのところ、生体の神経回路を模倣したものが一番良好に動作し人工知能が作られています。地球から遠く離れたところに高度な文明を持っている生物がいると仮定すると、きっと人工知能を作っているだろうと思いますが、その文明の人工知能は、どういう仕組みで作られているでしょうか。数学や物理学の一部は私たちのものと類似するものを持っていると予想しますが、生物学が似ているかどうかはまったく想像できません（この違いはそれぞれの学問分野の面白さの特徴を表していると思います）。いま私たちが使っている人工知能はどちらに近いでしょうか。今の私たちの生体神経回路網は、偶然にこのような形になったのか、それとも、もう一度、地球に新しい生命が生まれて最初から進化しなおしてもやはり同じようなものになるのか、どちらだと思いますか。

(2025/8/12) [意味という幻想] 大規模言語モデル(LLM)を使うとまるでAIが文章の意味を理解して答えているのではないかという感じがしますね。1990年ころに自然言語処理の研究者のかたから意味を理解するソフトウエアを作ることがものすごく困難である理由をお教えいただいたことがあります。実は今でも意味理解ができるソフトウエアが作られたわけではありません。LLMは巨大な可変パラメータを持ち、人間よりも大量の文章を学習することで、たくさんの単語の共起関係を獲得し、どこに注目するのかを推測し、次に来る単語を予測するということをしているだけです。つまり統計的学習だけでまるで意味が分かるのではないかと思われるように人間と対話することや英語を日本語に翻訳することができてしまいます。「(1)人間から見て意味が理解できる相手のような感じがする」「(2)意味が理解できるということ自体が幻想かもしれない」「(3) しかしソフトウエアで実際に実現できていて誰でも使える」ということとを同時に考えてみると、これが1990年のころ、はてしなく遠くに見えた35年後の未来だったのかという不思議な気持ちです。

　それにしても実現できたということの意義は大きく、LLMができるまでは深層学習の組み合わせにより意味を理解しているかのように応答するソフトウエアが作れるかどうかは研究者も含めて誰もわからなかったのですが、実現された今となっては、当たり前のことだったようにみんな知っています。いったん実現できるということがわかってしまえば、もう、どうなるかわからなかった過去にはもどることはありません。機械学習を専門としている研究者たちは、いつかできるとしても、もう少し先の未来になるのではと思っていたと思います。

　（注）これは、例えば数学の証明についても同じで、ある定理について証明が行われるまでは、そもそもその定理が成り立つかどうか誰にもわからないわけですが、いったん証明されると、その後は定理が成り立つということがわかっているからか、最初の証明よりも簡単な、直接的な、あるいはより本質的な証明が見つかるようになります。

Page updated

Google Sites

Report abuse