四分位数と四分位群:複数定義と用語の区別,その歴史

井口豊(生物科学研究所,長野県岡谷市)
最終更新:2017年9月30日

高校の段階でも学ぶようになった四分位数(Quartile)だが,これには複数の定義があり,高校の教育界で物議を醸したことがある。 四分位数の定義(計算の仕方)が,高校授業で学ぶものと,Excelで算出されるもので異なるのである。それに関しては,以下の解説参照。

さらに,教科書出版会社「数研」の説明にある「四分位数の定義」も参照。

この Q&A の中で,高校数学で の四分位数の定義 を決めた文部科学省の説明が,「一番簡単な定義である」というのが面白い。この「高校数学」で定義された四分位数の求め方について,例えば,Yahoo! 知恵ノート四分位範囲および四分位偏差の求め方で,次のような 2 例の四分位数の計算が示されている。

奇数個 a: 1, 5, 7, 10, 13, 16, 18, 20, 24
偶数個 b: 1, 5, 7, 10, 14, 18, 20, 24

具体的な計算については,その知恵ノートを参照して欲しい。結果だけ述べると,以下のようになる

a :第 1 四分位数 6,第 3 四分位数 19
b :第 1 四分位数 6,第 3 四分位数 19

これらのデータを,統計解析ソフト R の quantile 関数を使って,9種類の 四分位数を算出してみよう。ここでは,まず自作の qt 関数を作り,表形式で,これらの 四分位数を表示させる。

## 9種類の4分位数を計算・表示する関数 ##
qt<- function(x) {
  table<- matrix(as.numeric(NULL), 9, 3)

  for (type in 1:9) {
  table[type, ]<- quantile(x, c(1/4, 1/2, 3/4), type=type)
  }

  dimnames(table) <- list(1:9, c("Q1", "Q2", "Q3"))
  return(round(table, 3))
}

## データ ##
a<- c(1, 5, 7, 10, 13, 16, 18, 20, 24)
b<- c(1, 5, 7, 10, 14, 18, 20, 24)

##  9種類の4分位数 ##
qt(a)
qt(b)

結果は以下の通り。

この結果から分かるように,高校の授業で学ぶ,奇数個データ a はタイプ 6 の定義であり,偶数個データ b はタイプ 5 の定義に相当するのである。高校では,わざわざ,奇数偶数で異なる定義の計算を行い,しかも,この方法は汎用性があるとは言えない。前述の知恵ノートをの説明を見ると分かるが,まず中央値(メディアン,median,第2 四分位数に相当)を決め,その上下に,第1,第3 四分位数を決めている。これでは,例えば,この定義で五分位数(Quintile)を計算しろと言われても困惑してしまうだろう。なお,四分位数に複数定義が存在するのだから,当然だが,中央値も定義によって異なる。それは上記の結果から明らかである。

今や中高生でもパソコンを扱う時代である。彼らが将来,統計データを解析するときもパソコンや統計ソフトが頼りとなるであろう。それを見越して,高校生の時から,統計ソフトで 四分位数がどのように計算されているか,それを解説するような授業をしてほしいものだ。

そのことに関連して,2007年の東大の理系数学の入試問題として, log 2 の値を 1/x の数値積分によって 近似させる問題が出た。これも,紙と鉛筆で解ける程度の積分計算なのだが,私としては,もう少し複雑にしてパソコン利用の問題として出してほしかった。それについては,私のブログ参照。

ここまで述べてきた四分位数は,順序化されたデータを4等分する区切りの値(value)である。一方で,そのようにして4等分されたデータの集団(group)に対しては,文字通り, 四分位群(Quartile group) と呼ばれる。個々の集団は,日本語では,第1,第2,第3,第4 四分位群と呼ばれる。例えば,以下の論文がその例である。

深谷幸生・大野良之・松本忠雄・荒深美和子(1987)
血中鉛量と血圧:某二事業所での鉛検診資料から
日本衛生学雑誌, 42(3): 754-761.

それらは英語でも,それぞれ文字通り, the first, second, third, fourth group と呼ばれ,以下の論文にその例が見られる。

Foo, K. et al. (2003)
A single serum glucose measurement predicts adverse outcomes across the whole range of acute coronary syndromes
Heart, 89: 512-516.

この論文では,冒頭の Abstract にも以下のように書かれていて,理解しやすい。

The patients were stratified into quartile groups (Q1 to Q4).

英語の場合,注意すべき点は, quartile 自体に, 四分位数と 四分位群の意味が存在することである。これは,英語辞書で確認すれば,すぐ分かる。オンラインで調べるなら,例えば,あのオックスフォード出版会が運営する Oxford Dictionaries の quartile の定義が参考になる。なお,このサイトは, Oxford Dictionary of English (ODE) のオンライン版に相当する。

その最初の定義を見ると,次のように書かれている。

Each of four equal groups into which a population can be divided according to the distribution of values of a particular variable.
これが,4つに分けられたグループ,つまり「 四分位群」を意味することが分かる。

例文として, in the highest quartile, the mean age was 72 と載っていて,その下の, +More example sentences のタブをクリックするすれば,さらに多くの例文が見られる。

二番目の定義として, いわゆる「四分位数」が載っている。

Each of the three values of the random variable which divide a population into quartiles.

学術文献で quartile が四分位群の意味で使われている例としては,次のものを参照。

Reaven, G. M. (1988)
Role of insulin resistance in human disease
Diabetes, 37: 1595-1607.

この p. 1597 Fig. 3 を見ると,次のような説明となっている。

Study population was divided into 4 quartiles

つまり, quartiles で quartile groups を表している。

前述の Oxford Dictionaries にも載っているように, quartile の語源はラテン語の「四分の一」なので, 四分位数よりも, 四分位群の定義のほうが,一般の人にとっては自然かもしれない。実際,英語のテレビや新聞などでは, quartile を四分位群の意味で使うほうが多く見られる。私自身も,学生時代, 最初に知った quartile の用例は,四分位群という意味だった記憶がある。

今年1月13日放送の実践ビジネス英語(NHKラジオ第2)では,quartile が,統計学の教科書で一般的に使われる 「四分位数」の意味ではなく,「 四分位群」の意味で解説されていた。もちろん,どちらも正しい用法であるが,文脈によって区別が必要である。これに関しては,以下のブログも参照。

この知恵ノートで解説する 四分位数に限らず,一般に分位数を表す英語である「クォンタイル (quantile)」には,等分割する値(value)の意味と,そのようにして分割された群(group)の二つの意味がある。英語文献を読んだり,ニュースを聞いたりする際は,その点に注意が必要である。ウィキペディアの分位数にも,そのような解説が無かったので,私が追記した(2016年10月24日 (月) 13:37; Iguchi-Y)。

そのようにして等分割された群に対して,総務省統計局は,分位階級という用語を用いている。英語で,そのような用語が使われている論文は,以下のもの参照。

Yemiru, T. et al. (2010)
Forest incomes and poverty alleviation under participatory forest management in the Bale Highlands, Southern Ethiopia
International Forestry Review, 12(1): 66-77.

この論文の例えば, Table 4 に, Income Quintile class と書かれている。

quartile の用語としての歴史を知るには,以下の論文が役立つ。

Aronson, J. K. (2001)
Francis Galton and the invention of terms for quantiles
Journal of clinical epidemiology, 54: 1191-1194.

この論文の最初のページ第2段落で,まず quartile の定義に触れられている。そこでは,オックスフォード大学出版会が出版し,世界で最も権威ある英語辞書とも言える Oxford English Dictionary (OED) の定義が引用されている。

each of any set of values of a variate which divide a frequency distribution into equal groups, --- also, any one of the groups so produced

ここでも, quartile に数(value)と群(group)の意味があると分かる。

それに続いて quartile という単語の歴史が論じられる。これが the late 19th century に現われたということなので,意外と新しい用語なのである。さらに,ある数値の範囲を等分してグループ分けするというアイデアは, Francis Galton によるものなのである。彼は,進化論で有名な Charles Darwin の従兄弟にあたる。ただし, OED によれば, quartile という単語を最初に用いたのは,Donald McAlister となっている。

大学の授業でも,統計量としての 四分位数の定義や計算式だけでなく,上記のような語法やその歴史に,簡単で良いので触れてほしいものである。

quartile に限ったことではないが,数字が絡むと,英単語や英熟語(もちろん,その他の外国語でも)の微妙な意味の違いが,大きな問題を招くことがある。以下の論文は,太田邦昌の「more than 誤訳論争」に対して,科学教育の観点も含めて,私が意見を述べたものである。大学受験用の英語問題集にさえ,数値関連の誤訳が見られることも指摘した。

井口豊(1994)
なぜ"more than"を誤訳するのか?
生物科学,46(3): 159-163.