第2話では、第1話で皆さんに作っていただいたデータを使っていきます。
様々な視点から分析できるよう多様なデータを皆さんにつくっていただきましたが、この授業ではデータをいくつかに分けて提供していきます。
さて、第2話では、「データを代表する値」という値を考えていきます。
よく聞く「データを代表する値」は平均値ですね。ただ、平均値ではうまくデータを代表できない例は実はたくさんあるのです。自分の扱っていく実験や調査でそのようなデータに出くわしたらどのように対処しましょうか? ここでは、その対処方法のスキルを身に着けていきます。
動画:平均値、中央値、最頻値って何?その概要をざっくりと説明します。
実際のデータを使って平均などを学んでいきますが、まずはデータをC-Learningからダウンロードしてください。
データは、スプレッドシートでは開かず、ダウンロードしてExcelで使ってください。
STEP1.生データのシート
STEP2.文字列を数値に置き換えて部屋の印象を評価するシート
STEP3.使う指標のみを抜粋したシート
STEP4.さらにまとめたシート このデータを使う!
基本情報.部屋の天井・壁・床の色の組み合わせのシート
5つのシートは、STEP1.からSTEP4.の順に作りましたが、これ以降で使っていくのは「STEP4.さらにまとめたシート このデータを使う!」だけです。
生データと呼ばれる収集しただけの状態から、分析に使えるようになるまでにいくつものステップがあります。その途中のまとめる過程については、「STEP2.文字列を数値に置き換えて部屋の印象を評価するシート」にExcelの関数の使い方の説明付きで載っています。「関数は苦手!使ったことない!」という方にも分かってもらいたいと思って書いたので、既に関数を使っている方はどんどん先に進んでください。
なお、味気ない生データが、価値を生み出すグラフ等へ生まれ変わっていくプロセスはロジカルではありますがセンスを感じる部分でもあります。データサイエンティストがセンスあふれる職業だと言われるのも何となくうなづけます。
「基本情報.部屋の天井・壁・床の色の組み合わせのシート」には、部屋のタイプ毎の特徴をまとめてあります。
図:「STEP2.文字列を数値に置き換えて部屋の印象を評価するシート」の一部です。Excelの関数の使い方の説明も載っています。
リビングのタイプはA~Iまでの9種類あります。
どのような部屋かは、「基本情報.部屋の天井・壁・床の色の組み合わせのシート」にまとめてあります。
なぜこのような組み合わせの9種類なのかは今後の話の中で出てきますが、キーワードだけ先にお伝えしてしまいましょう。そのキーワードは「直交表」です。
さて、まず知りたいのは、「どのタイプのリビングの評価が高いのか?」ということです。
ただ、評価と言っても色々な考え方があります。
リビングなのでリラックスできることが重要だけど、そのリビングを離れて暮らす家族に自慢できるくらい素敵と感じるかも大切そうです。逆に、緊張感があったりしたら、リビングとしてはイマイチかもしれません。さらに、なぜ感じ方にそのような違いが生じるのかも気になります。
そこで、次のような指標を設定して、それぞれの指標に基づいてリビングを評価してみます。
NPS:自慢できるくらい素敵と感じるかを表し、値が高いほど評価が高い。
「リラックスしている」の値:リラックスの程度で、値が高いほど評価が高い。
緊張覚醒:リラックスや安心、落ち着きの程度で、値が高いほど評価が高い。
リラックスの影響因子:天井、壁、床、建具、インテリア、窓の外のうち最もリラックスに影響を与えた因子で、感じ方の差の原因を考えるヒントになる。
図:抜粋した4つの評価指標が部屋のタイプ毎にまとめられています。
まずは、「STEP4.さらにまとめたシート このデータを使う!」を別のExcelのファイルにコピー&ペーストしてみます。
「シート全体を選択」→「Ctrl + C」→「Ctrl + V」ではなく、「シート全体を選択」→「貼り付けたい場所で右クリック」→「値で貼り付け」でコピー&ペーストしてください。
次に、NPS、「リラックスしている」の値、緊張覚醒の3つについて、部屋ごとに平均値を算出してみます。
Excelで計算してみます。
使う関数はAVERAGEです。
実は、NPSの正しい使い方は少し違うのですが、ここでは回答された値をそのまま使ってしまいます。
平均値を算出できたら、グラフにしてみます。
数字の羅列を見るより、グラフを見る方が、認知的な負荷が小さくてすむので理解やイメージが容易になります。
図:リビングのタイプ毎のNPSの平均値をグラフにしたものです。
どうやら、評価指標としてNPSに着目すると、タイプDやタイプI、タイプGのリビングの評価が高そうです。
次に、NPS、「リラックスしている」の値、緊張覚醒の3つについて、部屋ごとに中央値を算出してみます。
Excelで計算してみます。
使う関数はMEDIANです。
中央値を算出できたら、グラフにしてみます。
図:リビングのタイプ毎のNPSの中央値をグラフにしたものです。
平均値と比べると、値も順位もあまり大きくは変わっていません。
回答者の中で真ん中の評価をした人の値が中央値です。その中央値と平均値に大きな差がないということは、極端な回答をした人が少なかったと言えると思います。皆さんが一問ずつ丁寧に回答したことが、こんなところからも感じ取れるのですね。
最後に、NPS、「リラックスしている」の値、緊張覚醒の3つについて、部屋ごとに最頻値を算出してみます。
Excelで計算してみます。
使う関数はMODEです。新しいExcelのバージョンの場合、MODE.SNGLと入力する必要があるかもしれません。私のExcelはMODE.SNGLでした。
図:リビングのタイプ毎のNPSの最頻値をグラフにしたものです。
算出した最頻値をグラフにしてみます。
最も多く選択された回答が最頻値です。平均値や中央値と比べると、ずいぶんと値が違うようです。
Dタイプが最も高い評価であることに違いはありませんが、Bタイプの評価がずいぶん高くなっています。また、Iタイプの評価が下がったのに加え、EタイプやHタイプも評価を下げています。
この違いは、何を意味するのでしょうか?
極端な値があると、平均値はその値に引っ張られてしまいます。最低評価が数名、その次に低い評価も数名…と、極端な回答をする方が数名いるようなすそ野の広い分布の場合、中央値も同様です。その一方で最頻値が何を表すかというと多数決です。平均値や中央値が様々な人の意見を気にしている八方美人な指標であるのと比べると、最頻値は多数決であり単純・シンプル・やや強引な指標です。
平均値を押し上げたり押し下げたりしていた極端な値をとるすそ野の少数意見が含まれていたタイプの部屋は、最頻値では多数決によりそれらの少数意見が考慮されなくなり、平均値と最頻値で値が大きく異なるのです。
つまり、平均値と最頻値で評価が大きく変化したタイプの部屋は、好みのばらつきが大きいと言えるのです。
NPS以外の指標、「緊張覚醒」と「「リラックスしている」の値」の平均値・中央値・最頻値も算出して、グラフ化してみます。
どのような計算をして、どんなグラフで表現すれば、リラックスの影響因子を分析しやすくできるでしょうか?
ヒントを頼りに、ご自身で試してみてください。
ヒントは、Excelの関数 COUNTIFです。