このページの文章は、『ひゃくとりむし』の編集者である中西元男さんの了承を得て、筆者が投稿した原稿をウェブサイト用に編集したものです。引用する場合は[河野勝行.2020アナ眼とデジ眼(1)どちらが優れているわけでもない.ひゃくとりむし (471): 5642–5645](202011月1日発行)としてください。

アナ眼とデジ眼(1)

どちらが優れているわけでもない

我々が虫を見る時、アナログ的に見たり(アナ眼)デジタル的に見たり(デジ眼)するが、どのような時にアナ眼になり、またどのような時にデジ眼になるのだろうか?これから数回にわたり、虫屋に関わる色々な課題におけるデジ眼とアナ眼について(やや机上の空論的であるが)論考してみようと思う。まずは手始めに、どちらが優れているわけでもないことを論考しようと思う。

我々が虫の大きさや個体数などを種間、個体群間、年次間などで比較する場合、その違いに意味があるかどうかを検討するために統計的手法を使うことを迫られる。なぜなら、これらは本質的に「ばらつき」を内含する事象だからである。それぞれ異なる由来をもつ個体を一つずつ取り出して、それぞれの由来を代表させて比較することは根拠に乏しい。なぜなら、それは「ばらつき」に基づく偶然に影響されるからである。

比較の際の尺度としてよく使われるのは、標準偏差を伴った平均値である。その背景にあるのは正規分布であり、それに従った確率変数の場合、[平均値±1×標準偏差、±2×標準偏差、±3×標準偏差]の範囲にはそれぞれ標本の約68.3%、95.4%、99.7%が含まれることを高校の数学で教えられた。しかしながら、「であることが知られている」と教えられただけで、それ以上深く教えられた記憶はない。

いま高校時代の「数学III」の参考書を持ち出して確認しているが、これにはこれまでの仕事で必要だった統計検定の基本的なところが一通り書かれていたことに驚いた。どこまで高校で習ったのか、まったく覚えていなかったからである。しかし、「確率・統計」における「推定・検定」は入試に出ないとかいう理由で、詳しく教えられなかった気がする。いま振り返ってみれば、これまでに仕事で使った数学は、「確率・統計」が一番重要だったと思うので、若いうちにしっかり身に付けておけば良かったと若干後悔している。歳を取ってからでは苦労させられる。

この参考書を見ると、確率分布には離散型と連続型があることが説明され、それぞれの代表として二項分布(それの発展型として負二項分布を含む)と正規分布が挙げられている。これらの間の本質的な違いは何であろうか?個体数が離散型の分布に従うことは疑う余地はないであろう。では、大きさはどうであろう?

大きさは直感的には連続的な変数であるように感じられる。なぜなら、大きさに境目は無いように見えるからである。しかし、昆虫の体は細胞からできており、その細胞は(少々端折るが)分子からてきでおり、分子は原子からできており、原子は原子核と電子からできており、原子核は陽子と中性子からできており、陽子や中性子や電子は素粒子からできていることが明らかになっている、と言うか、科学的にはそのような共通認識になっている。素粒子がそれ以上細かく分けられない単位であるとすれば、そこに不連続が生じることになり、ひいては昆虫の大きさも、実は不連続な確率分布に従う変数であることがわかる。このように考えると、現実世界に連続型の分布が当てはめられる尺度はほとんどなく、誰もが連続的な尺度だと同意できるのは[時間]以外になさそうに思える。時間は、どこまで細かく切り刻んでも、刻みきれないように思える。

ところで、昆虫の大きさ(他の多くの尺度も同様)を離散型の変数として扱うことは、実用的には滅多にない。なぜなら、連続型の変数であると見なした方が便利であるからである。現実的には、昆虫の大きさの変異に正規分布を当てはめて扱う場合が多い(多くの場合は変数変換を伴うが)。その最も大きな理由は、正規分布に基づいた解析方法が多く開発されていることであろう。もちろん、昆虫の大きさを離散型の分布としても扱えないことはないが、計算が面倒であり、多くの場合実用的ではない。

昆虫の大きさに連続型の分布を当てはめるときに何が行われているかといえば、それは[近似]である。筆者を含め、それをあまり意識している人は多くないと思うが、「アナログ」のもともとの意味は「類似(物)」や「相似(物)」であり、「連続的」という意味ではない。要するに、「問題のない範囲で連続型の変数で近似しましょう」ということをやっている。

二項分布は、高校数学の参考書にも書かれているように、代表的な離散型の分布であるが、標本の数(n)が増えるにつれ、グラフで見る分布の形は正規分布に近づくように見える。その参考書にも、「二項分布はnが大きくなると正規分布に近づく」と説明されている。また実際に、「二項分布の極限は正規分布に一致する」ことが証明できるようである(筆者の理解は全く不十分だが、直感的には正しいだろうと察せられる)。実際に何かの確率を計算しようとした場合、nが小さければ、順列と組合せを元に確率を直接計算することはそれほど困難でない。しかし、nが大きくなるにつれ、計算すべき量が指数的に増加するので、すぐに困難に直面する。しかし、確率変数が正規分布に近似できるとしたら、平均値と標準偏差を求めることはさほどの手間ではなく、それに基づいて確率密度関数を決めれば、比較的容易に近似値を計算できる。その場合の計算の量は、正確に確率を求めることに比べれば遥かに少なくて済む。しかし、あくまでこれは近似値なので、実用的に無視しうる程度の誤差を含むことは容認する必要がある。ここで念のために確認するが、離散型の分布はデジタルであり、連続型の分布はアナログである。

以上のことから、nが小さい場合は確率を直接求め、それに基づいた判断を行えば良いが、nが大きくなった場合には確率を直接求めることが困難になるので、実用的に無視しうる誤差を含むものの、近似を元に求めた確率に基づいて判断をするのが妥当になる、ということが言える。これを敷衍すれば、アナログとデジタルの間に絶対的な優劣関係が存在しないことは明らかであり、アナログとデジタルの両方を、それぞれ得意な領域で使う、というのが我々にとっての最適戦略であると言えよう。また、どちらを使うか、またどのように近似するのかの判断を間違わないことが肝要である。

「アナ眼とデジ眼」という表題は、編集者の中西さんからご提案いただいた。