統計学の基本用語.母数は分母でも全数でもない!:母数とは母平均や母分散

井口豊(生物科学研究所,長野県岡谷市)
最終更新:2017年11月12日

国会議員の「母数」の誤用も目立つ。それについては,園田博之,茂木敏充の両氏(ともに自民党)の誤用例を私のブログで指摘した。

国会議員ならば,正しい用語で話してもらいたいものだ。

統計学で扱う「母数」を英語にすると, parameter と言う。「パラメータ」は,日本語でも時々使われる単語である。以下に示すように,母数の定義を理解してないケースが非常に多い。母数の代わりにパラメータと言ってみれば,もしかすると自分の誤りに気づくかもしれない。

Webページを見ていると,統計データに言及する時,どうも 母数=分母
あるいは
母数=全数
と考えているような例が多い。

Yahoo! 知恵袋で,「母数」をキーワードにして検索してみて欲しい。そんな質問や回答が,ぞろぞろ出てくる。

統計学とは無関係な話題なら,まだ「俗語」として,母数を全体数の意味で使う用法も許されるだろう。しかしながら,統計学関連の質問でさえ,母数の意味を理解していない人が多い。質問者の場合は初学者だからと言えるかもしれないが,回答者まで母数の意味を理解してないようでは困る。

なぜ,母数=分母と考えるのだろうか?後述するように,統計学の教科書には,母数の定義がきちんと書かれているのである。しかも特に専門書と言うわけでなく,大学1,2年で使う程度の基礎的教科書に書かれていることなのである。それにもかかわらず,誤解した質問,誤解した回答が非常に多いのである。

例えば,知恵袋で見てみよう。

東京の男のうち20歳未満は何%?? という例題で・・・男が700万人 ← これを 母数 と定義
「全学生を母数とする内定率」なら高い方です。

教えてgooでの回答にも出てくる。

ベストアンサー20pt
全議員のうち無作為の100人のアンケートとといった場合全議員(=母数)、100人の 議員(標本数)
ベストアンサー10pt
母数というのは・・・「母集団の大きさ」も確かそうです

前者のベストアンサーで,議員(標本数)という説明も間違いであり,標本サイズ(サンプルサイズ)が正しい。これについては,次の統計解説を参照。

livedoor ナレッジでの回答にもあった(現在,同サイトは終了)。

  • 分母と母数の違いを教えてください。

回答 1:関東地区の視聴率調査の場合、関東地区で視聴可能な1500万世帯が母数で、標本 数が600

回答 2:母集団の大きさ(総数)として使うこともあり・・・いろいろな意味に用いられる、一般的 な、ある意味であいまいな言葉・・・分母と同一視してこれまで困らなかった

Sooda! での質問と回答にもある。

回答者:長老さん
満足な母数(被験者数)がどの程度か

このように,Q&Aサイトの回答者でさえ,母数=分母,あるいは,母数=全数と思わせるような回答例を挙げている。あくまで一部の例だが,後述する批判的サイトを見ると,さらに,ぞろぞろ例が出て来そうである。

livedoor ナレッジ回答者 2 が述べたように,それで意味が通じていた,という歴史的背景もありそうだ。しかし,当然ながら,それを批判したサイトも結構ある。

ときどき、分母のことを「母数」と表現するリサーチャーがいてすご~く気になる・・・市場調査業界の内外を問わずよく耳にします・・・ここでいう「母数」とは分数の「A/B」 の「B」の部分のことを指しているようで・・・「母数」という言葉には「分母の数」という意味は存在しない。
母数を「分母」と同じ意味で使っているのは、統計学の本をちゃんと読んでいない
「母数」を「分母」の意味で使うのはやめろ

これは,新聞に出た,大学生の就職率の話であり,
就職率 = 就職した学生 / 全卒業生
と計算し,全卒業生を母数と呼んでいる用法を批判している。

実は,この記事,日本を代表する新聞社である朝日新聞の統計調査で使われた誤った用法なのである。統計調査で,統計用語を間違うとは情けないではないか。

母数について再度検討しよう。

統計学では,例えば,正規分布は,平均μ,分散σ^2で決定される確率分布だが,このように確率分布を決定する統計量を母数(パラメータ,parameter)と言う。文字通り,それによって,分布の数式が表現でき,分布形も定まるので,パラメータと呼ばれる。母集団確率分布の特徴を表す特性値なのである。これは統計学の教科書に普通に書かれていることだが,なぜか,母数=分母,という誤用法あるいは俗的な用法が浸透?しているらしい。さきほど,朝日新聞の誤った用法を指摘したが,朝日新聞のオンライン用語辞典 kotobanku(コトバンク)の母数の項目には,母集団を規定するパラメータときちんと書かれているのである。

検定の種類に言及する際に,パラメトリックとかノンパラメトリックという用語を聞いた人は多いだろう。このパラメトリック(parametric)という語は,パラメータの形容詞である。検定の際に,ある母集団確率分布を仮定し,その分布を規定する母数の問題に帰着させて考えるのがパラメトリック検定である。代表的なのは,平均と分散という二つの母数を利用した t 検定である。

一方で,確率分布の形を仮定せず,母数を考えないのがノンパラメトリック検定である。例えば,マン・ホイットニー(Mann-Whitney)の U 検定がそれである。

パラメトリックとノンパラメトリックという語は簡単に使われているが,それがそれぞれ,母数検定と非母数検定の意味(日本語)であると,どのくらいの人が理解しているだろうか?

このように,母数とか,パラメータあるいはパラメトリックという用語で,その具体的用法を知れば,最初に示した知恵袋やその他 Q & A サイトの回答者の何人かは,全く的外れな説明をしていることが分かる。

母数の例を一つ挙げろと言われたら,平均(正確には,母平均)を挙げれば良いのである。平均は最も良く知られた基本統計量であり,かつ,最も代表的な母数である。難しい計算でも,ややこしい理論でもない。ごく一般的な統計用語である。例えば,手元にある基礎的な統計教科書「統計入門」(和田秀三・著,サイエンス社)でも,母数の例1として,真っ先に母平均を挙げている。

しかし,ネットで検索してみて,分数の分母,あるいは,全体数の意味で,「母数」という語が頻繁に用いられているのを知った。このような統計学用語の誤用が見られる背景には,パソコンや統計ソフトの発達と普及に伴って,その利用スキルだけ習得した教員や学生が増えていることがあるのかもしれない。つまり,理論的学習がおろそかになった教員や学生が多くなっているかもしれないのである。