これまで、様々な計算に取り組んできました。
全ての組み合わせを直接比較しようと思ったら27回も実験条件を作らなければならなかったところを、実験計画法の直交表という破壊的な技でわずか9つの実験条件で網羅してきました。
エクセルで計算しようと思ったらとんでもなく手間のかかる高度な計算を、RやR Studioを使ってわずか数行のコードで成し遂げてきました。
「何となくポジティブ/ネガティブ」と分析者の主観に頼るしかなかったアンケートの自由記述を、誰が分析しても同じ結果を得られるテキストマイニングにより公平に分析してきました。
データをもらって、言われたとおりに作業をして、何か結果が出てきて…という作業に終始してしまうようなリードだったかもしれませんが、実はかなり高度な作業に皆さんは取り組んできました。
これまでの取り組みは、「天井と壁と床の色を、明るい色、中間の色、暗い色の3色からそれぞれ選ぶ場合、どの組み合わせが最も部屋の用途(リビングと勉強部屋)に適しているかを調査・分析して明らかにする」という課題を通じて、データ分析の基礎を体験することを目指しています。
そのプロセスも終わりに近づいています。
今回は、天井と壁と床の色の最適組み合わせを明らかにします。
以下は、主成分分析の結果の前半です。
> summary(pca)
Importance of components:
PC1 PC2 PC3
Standard deviation 1.6964 0.31498 0.15207
Proportion of Variance 0.9592 0.03307 0.00771
Cumulative Proportion 0.9592 0.99229 1.00000
太字の部分に注目してください。
まず、上の方の「Importance of components」は、主成分分析をした結果の各成分(PC1, PC2...)の重要度をまとめている部分であることを伝えています。
その中身を見ていきます。
Proportion of Varianceは、各成分がデータを説明できる程度を示しています。
この計算結果の場合、PC1がデータの95.92%を説明できる成分であることが分かります。
その下のCumulative Proportionは、各成分がデータを説明できる程度の累積です。
およそ80%を超える程度までの成分が有効であるとされています。
この計算結果の場合は、第一主成分のみで80%を超えていますので、有効な成分はPC1で示されている第一主成分のみとなります。
以下は、主成分分析の結果の後半です。
> pca$rotation
PC1 PC2 PC3
NPS 0.5697036 -0.8138843 0.1141497
緊張覚醒 0.5793571 0.4962279 0.6466090
リラックスしている.の値 0.5829092 0.3022420 -0.7542325
第一主成分のみでデータの約96%を説明できるので、今回は第一主成分のみに着目します。
NPS、緊張覚醒、リラックスしているの値のいずれの指標の値も、0.4を超えています。
0.4を超えているかどうかが、その指標を最終的に採用するか否かの分かれ目になり、0.4を超えている場合にようやく採用となります。
また、この値は、各指標の重みに相当する値です。
次に、主成分分析の結果の図を見てみます。
NPS、緊張覚醒、リラックスしているの値のいずれの指標も同じ右方向を向いています。
これは符号が同じであることを意味しています。
例えば、この図に矢印が左向きの指標がもう一つあったとしたら、その指標の符号は負になります。
この3本の矢印が同じ方向を向いていることから、この主成分はリラックスの軸と言えそうです。
最後に、水準平均に基づき天井、壁、床の中で最も評価の高かった色を選び、主成分分析から得た重みをかけて順位を付けます。
以下が水準平均の図です。
上の図を見ながら、下の表を埋めていきます。
各図の各部位(天井、壁、床)の中で最も高い得点を取った色(明、中、暗)に対して1点を加点して下の表に書き込みます。
次に、主成分分析から得た各指標の重みを書き込みます。
得点と指標の重みをかけ、重みを加味した得点を求めます。
最後に部位ごとに各色の合計得点を求めて、各部位で最高得点を獲得した色の組み合わせが最適組み合わせとなります。
今回のデータでは、天井は暗く、壁と床は中間色とした場合にリビングとして最も評価の高い印象を得られると言えます。
さて、勉強部屋については、データを共有しますので、皆さん自身で最も評価の高い組み合わせを探してみてください。
まず、以下が主成分分析の結果の前半です。
この場合、第一主成分だけでは累積が80%に届かないので、累積が80%を超える第二主成分までを有効な主成分とします。
> summary(pca)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.4293 1.3805 0.17042 0.14950
Proportion of Variance 0.5107 0.4764 0.00726 0.00559
Cumulative Proportion 0.5107 0.9871 0.99441 1.00000
第一主成分も第二主成分も、全部の指標が同じ符号とはなっていません。
このような場合、各主成分の意味を考え、より妥当な意味を見出せるほうの軸を採用します。
第一主成分はエネルギー覚醒が正でNPSと緊張覚醒が負で、「頭の働きが鈍い」は0.4に満たないので不採用となっています。
NPSを包含できてはいませんが、ひとまずこの軸はポジティブ・ネガティブの軸ということにしておきましょう。
第二主成分を見てみましょう。
NPSが正で、緊張覚醒と「頭の働きが鈍い」の自己評価が負の値となっています。
これは、プラスの印象・マイナスの印象ということにしてみます。
> pca$rotation
PC1 PC2 PC3 PC4
NPS -0.5508152 0.4380178 -0.7006016 -0.1178997
緊張覚醒 -0.4773171 -0.5240001 0.1631509 -0.6862756
エネルギー覚醒 0.6042341 -0.3548638 -0.6459453 -0.3028655
頭の働きが鈍い -0.3219815 -0.6384638 -0.2555267 0.6506904
何となく第二主成分の方が使えそうなので、ここでは第二主成分を採用してみます。
重みが0.4より小さいエネルギー覚醒については、重みを0(ゼロ)で計算しておきます。
なお、この重みの正負の符号は、データが少し変わるだけで入れ替わります。
最適組み合わせは、数値の大きさに着目して決めます。
各指標の水準平均から、各部位(天井、壁、床)で最も水準平均の値が大きい色(明、中、暗)をリストアップしていきます。
リビングの検討で使った表を勉強部屋用にも作って、値を代入していってみます。
今回の課題は、勉強部屋の天井、壁、床の色の最適組み合わせを導く表の作成です。
ちなみに、レゴとシジフォスとイケアとというサブタイトルは、「人の意思決定には強い偏りがありそのことに気づいている人は少なく、偏りをコントロールできている人はさらに少ない」ということを実験的に明らかにしてきているアメリカのデューク大学のダン・アリエリー氏による実験のキーワードが出展です。
私たちの意思決定に偏りがある以上、印象や主観で物事を判断することには偏りが付きまとってしまうので、この授業で取り組んでいるようにデータに基づいて(データドリブンで)物事を決めていくことがフェアな意思決定につながると私は思っています。