「結構ばらついている」「少しだけばらついている」と言ったりしますが、結構ってどれだけ?少しってどの程度?という気分になることありませんか?
そのようなばらつきの程度をスパッと言い切る方法を、第3話では紹介します。
さて、第3話では、データのばらつきについて扱い方を練習していきます。
機械を相手にしたって、その機械で作り出されるものに全く同じものはないのです。
人の意思決定が、みんな全く同じなんてことはほとんどないでしょう。
そのようなばらつきには、大きく二つの考え方があります。
第3話では、この二つのばらつきについてのみ考えます。
ちょっとややこしいので、他の作業はしません。
作業をしない代わりに、ばらつきの違いをよく見ておいてほしいです。
卒論・修論でデータを扱う際に、困らないように、よく見ておいてほしいです。
分析に使うデータは、第2話で提出したデータです。
第3話では、第2話で提出したエクセルに書き足していきます。
第3話で使う見本データはC-Learningからダウンロードしてください。
動画:みんな違う、少しずつ違う、結構違う…どの程度の違いを言っているのかわからない!の解決方法を紹介します。
多くの方に答えていただいたデータを眺めてみると、バラバラです。
誰一人、同じ答え方をしていません。
もし自分と全く同じ意思決定をするような人がいたら…なんだかちょっと気持ちが悪いような気がします。
ばらつきの表し方には2つあります。
「標準偏差」と「標準誤差」です。
名前はとてもよく似ています。
しかし、その意味は大きく違います。
標準偏差には、標準偏差の役割があります。
標準誤差には、標準偏差とは違う意味があります。
標準偏差を求めながら、標準偏差について考えてみます。
皆さんには9種類の部屋の印象を、NPSなどのいくつかの指標で評価してもらいました。
今回知りたいのは、これまで見てきたものも、読んできたものも、過ごしてきた場所も、関わっている人たちも、全然違う皆さんが9種類の部屋の印象を評価した時に、どの程度ばらけた結果になるのか、という点です。
前回、皆さんの回答を平均しましたが、まったくもってバラバラな回答で比べる意味がないくらいかもしれません。
あるいは、各部屋に対する皆さんの評価は、結構狭い範囲に集まっているかもしれません。
集めたデータのばらつき具合を表すのが「標準偏差」です。
標準偏差は、集めたデータがおよそどの範囲にあるのかを知る手掛かりになります。
少しストーリーで考えてみます。
「5個入って1kgのリンゴが二袋あったとします。片方の袋には、拳より少し大きな似たようなサイズのリンゴが入っています。もう一方の袋には、小さな小さなリンゴもあれば、手のひらからあふれんばかりの大きなリンゴも入っています。一つ一つのサイズの偏りが小さい一つ目のリンゴの袋の方が、みんなで分けたときに喧嘩にならなさそうです。一つ一つのサイズの偏りの大きな二つ目のリンゴは、ジャムにするのであれば別に良いのですが、そのまま食べるときには皮も剥きづらそうですし食べづらそうです。」
標準偏差は、データがとりそうな範囲をざっくりと教えてくれる値です。
標準誤差は、集めたデータの平均値やその差を比較するときに、その平均値がおよそ取りえる範囲を示しています。
こちらも少しストーリーで考えてみます。
「5個入って1kgのリンゴが二種類あったとします。片方の袋には、拳より少し大きな似たようなサイズのリンゴが入っています。もう一方の袋には、小さな小さなリンゴもあれば、手のひらからあふれんばかりの大きなリンゴも入っています。一つ目の袋はAさんが作っていて、二つ目の袋のリンゴはBさんが作っています。Aさんの作るリンゴのサイズは似ていて平均的な重さにはあまり差がありません。その一方でBさんの作るリンゴの袋の平均的な重さは、中に入るリンゴが小さいものばかりに偏ると軽くなり、大きなリンゴばかりに偏ると重くなります。」
標準誤差は、データを分析した結果がどれだけばらつきそうかをざっくりと教えてくれる値です。
それでは実際に標準誤差を算出してグラフに追加していきます。
標準誤差を算出するには、標準偏差を先に算出する必要があります。
ややこしいですね…
標準偏差を求めるExcelの関数は、STDEV.Sです。
実はSTDEV.Pというとてもよく似た関数でとてもよく似た結果を算出してくれる標準偏差の求め方もありますが、ここではSTDEV.Sを採用します。
STDEV.SとSTDEV.Pの違いは、集めたデータを「人類全員からはデータを集められないから、一部の人だけを抜粋したもの!」ととらえるか「このデータがすべて!」ととらえるかの違いです。
ここでは、世界中の大学生からはデータを集められないので、一部の人だけのデータを使わせてもらうことにして、関数にはSTDEV.Sを使うことにします。
標準偏差を√サンプル数で割った値が標準誤差です。
サンプル数は、ここでは回答者数なので、次の関数を使ってサンプル数を求めます。
それが、COUNTAです。
√は、SQRTで求めています。
グラフをクリックすると、+マークが出てきます。
誤差範囲→その他のオプション→…とクリックしていきます。
すると右側にグレーの設定スペースが登場しました。
「誤差範囲」の項目の一番下に、「ユーザー設定」という文字が切れた部分があります。
その横の値の指定をクリックします。
ユーザー設定の誤差範囲のタブが表示されたら、正と負の両方とも、先ほど求めた標準誤差の範囲を選択します。
最後に、「OK」を押せば完了です。
棒グラフの上部に、上下方向に棒が追加されました。
標準偏差と標準誤差、ややこしいですよね。
第3話の最後に、標準偏差と標準誤差の特徴を、まとめてみます。
標準偏差:集められたデータがどの範囲をとりそうか。
標準誤差:データの平均値がどの範囲をとりそうか。