高校のある二つのクラスは数学を同じ先生に教わっています。
先日数学のテストがあり、その先生は生徒の手元にテスト結果を返すと共に、あのクラスよりこのクラスの方が平均点が高かったことを教えてくれました。
「あのクラスより、このクラスの方がテストの平均点が高かった、ということは…このクラスの方が優秀!やった!」と判断するのは、ちょっと待ってください。たまたま少しだけ平均点に差が出ただけかもしれません。たまたまの結果に喜ぶのはちょっと悲しいです。「確実な差」と言える差であると分かってから喜びたいです。
「平均点に差があるから、差がある」という判断が今までの判断でした。
「あの石は重そうに見えるから、重い!」と言っているかのような、とても主観的な判断の仕方でした。
今回の話題は、「ちゃんと重さを量ってみて、重いかどうか判断してみよう」と思った時の重さの量り方の練習です。
「統計的に判断して意味のある差であるから、差がある」という判断が、ココで練習する判断です。ちょっと判断のスキルがレベルアップできそうです。
分析に使うデータは、引き続き第2話で提出したデータです。
第4話では、第3話で提出したエクセルに書き足していきます。
第4話で使う見本データは、C-Learningからダウンロードしてください。
動画:差がある、差がないっていうけど、その差って何?たまたま差があるように見えるだけじゃない?本当に違うの?に答える方法を紹介します。
建材の開発の舞台を例に考えてみます。
「建材メーカでより高強度の建材と作ろうと日々研究を進めていたある日、ある配合により従来の建材より高強度なサンプルを作ることに成功しました。
一個だけのまぐれかもしれませんので、同じ配合で10個サンプルを作って、従来の配合のサンプル10個と強度を比較してみました。
サンプル10個の強度の平均値を算出してみると、新しい配合のサンプルの方が高い平均値となりました。」
さて、このような場合に、新しい配合の建材の方が従来品より高強度であると判断して、従来より高強度な商品として売り出して良いでしょうか?
動画:技術開発や設計の現場で統計解析やデータがどのように使われているのか、実体験を交えて紹介します。
お察しの通り、答えはNOです。
確かに、今回作ったサンプル10個の平均強度では、従来品の平均強度より高強度だったかもしれません。
ただ、今回作ったサンプル10個はいずれも従来品より高強度だったのでしょうか?
あるいは、サンプルをあと10個追加してもう一度強度を確認してみても、その10個すべてが従来品より高強度となるのでしょうか?
従来品より強度が低くなる可能性はどの程度でしょうか?
従来品より強度が低くなる可能性をどこまで許すかを決めれば、今回取り組んでみる「検定」により「統計的にみて、今回の配合は従来の配合より高強度と言える」や逆に「統計的に見て、今回の配合は従来の配合と強度面では変わらない」と意思決定することができるようになります。
今回は、以下に取り組んでみます。
2種類のデータの平均値に差があるのか統計的に判断してみる。
2種類のデータが似たようなばらつき具合のデータなのか統計的に判断してみる。
一つ目の平均値の差の検定は、t検定と呼ばれています。
二つ目のばらつきの検定は、f検定と呼ばれています。
そして、2種類のデータが同じである確率の目安としては、5%や1%、0.1%などが使われています。
ちなみにこの値のことを有意水準と呼び、αで表します(α=0.05、など)。
統計的に見て意味のある水準のことです。
また、2種類のデータが同じである確率の算出値のことをp値と呼びます。
2種類のデータが同じである確率が小さいほどp値は小さくなり、p値が決めておいた有意水準(α=0.05)より小さければ、「2種類のデータは統計的に見て異なる」ということができます。
それでは実際に検定をしていきます。
検定の内容は、「平均値の差の検定」と「ばらつきの検定」の二種類です。
まずは、平均値の差を検定してみます。
平均値の差の検定は、T.TESTです。
データはA~Iまでの9種類ありますが、今回使うT.TESTは一対のデータしか比較することができません。
「AとB」や「CとD」の間での平均値の差の検定はできますが、「AとBとC」の間での平均値の差の検定はできません。3郡以上の平均値の差の検定には、もう少し別の検定方法を使います。
今回は9郡の差の検定を行いたいので、T.TESTの対応できる範囲外です。
3郡以上の平均値の差の検定は、次回扱います。
データとしては、NPS、緊張覚醒、「リラックスしている」の値の3種類ありますが、NPSを例に計算を進めていってみます。
平均値の差の検定で使う関数はT.TEST(A,B,C,D)です。
AとBは、比較したい平均値の元データです。ここでは、A-B、B-C、C-D、D-E、E-F、F-G、G-H、H-I、の8通りの組み合わせについて検定します。
Cは、「AとBのどちらか一方が確実に大きな値となる」など大小関係が明らかかどうかに関係してきます。一方が他方より大きくなることがあらかじめわかっていれば片側検定を選びます。どちらか分からなければ両側検定を選んでおきます。ここでは、両側検定を選んでおきます。
Dは比較したい2つのデータを、ばらつき具合の異なるデータを持ってきているのか、同じサンプルから2回データを採取したのかなどの条件に基づき選択します。ここでは、同じ回答者からの異なる対象に対する評価を扱いますので、「対」を選択します。
NPSについてA-Bの間での検定結果を見てみると、p値は0.101でした。
「AとBが同じである確率は10.1%である」という解釈ができます。
一般に差があると解釈されている目安が5%、1%、0.1%であることから考えると、10.1%という値は差があると判断するには差が小さいようです。
その一方で、C-Dの間の差は小数点以下3桁を表示してもp値は0.000で、0.1%より小さい値ですので、C-Dの間には統計的に見て有意な差があると解釈して良さそうです。
ばらつき具合に差があるのか検定するには、F検定という方法を使います。
関数はF.TEST(A,B)です。
AとBは、比較したい元データです。
平均値の差の検定と同様に、ここでは、A-B、B-C、C-D、D-E、E-F、F-G、G-H、H-I、の8通りの組み合わせについて検定します。
NPSのAとBのばらつき具体の検定の結果、p値は0.170でした。
ばらつき具合に差があると解釈できる一般的な目安が5%や1% 、0.1%ですので、p値0.170=17.1%はばらつき具合に差があるとは言えないと解釈できます。
つまり、AとBは、そんなに偏り具合が違わない母集団から集めてきたサンプルと考えることができます。
NPS以外の指標、「緊張覚醒」と「「リラックスしている」の値」 についても、平均値の差の検定とばらつきの検定をしてみます。