散布図と相関係数
散布図と相関
次の表は、高校1年生男子40人の新体力テストの結果です。5種目のうち、50m走の結果をx,持久走の結果をyとして、点(x,y)を平面上にプロットしたのが右下の図です。この図を散布図といいます。
この新体力テストのデータが、次のような形式のcsvファイルに用意されているとします。
番号,50m走,立ち幅跳び,ハンドボール投げ,反復横跳び,上体起こし,長座体前屈,握力,持久走
1,6.6,251,35,66,41,60,48,5.16
2,7,250,30,56,36,58,41,6.14
3,6.9,267,30,68,30,54,45,6
(以下同様)
これをread.tableで読み込みます。(その前に、作業ディレクトリを指定しておきます)
ファイル名を sample2-1.csv としましょう。
任意の2つの種目を選んで、y,zに代入し、plot関数を用いて散布図を描きます。
たとえば、50m走は2列目、ハンドボール投げは4列目なので、
y<-x[[2]]
z<-x[[4]]
とすれば、50m走のデータを y に、ハンドボール投げのデータを z に代入できます。
次に、 plot(y,z) で散布図を描きます。
変数名には日本語も使えるので、yの代わりに「50m走」,zの代わりに「ハンドボール投げ」とすれば、次のような結果が得られます。ただし、「50m走」の「50」を全角にする必要があったり、日本語入力そのものが面倒ということはあります。
なお、y,zに代入せず、直接 plot(x[[2]],x[[4]]) とすることもできます。
相関係数
2つの変量の相関関係は、散布図を描くことによって視覚的に解釈ができますが、相関の程度を数値で表すことを考えてみましょう。
次の図は、散布図にそれぞれの平均値のラインを引いたものです。このように正の相関が強いものは、右上と左下に点が多く集まっています。それぞれの値と平均値の差(偏差)の正負を考えると図のようになります。
xとyの偏差の積を考えると、第1象限と第3象限は正、第2象限と第4象限は負になります。そこで、これらの平均を考えると、相関が正か負か、そしてその程度はどうなるかを数値化できます。
偏差の積の平均
をxとyの共分散といいます。
さらに、xとyの共分散をx,yの標準偏差の積で割った値をxとyの相関係数といいます。相関係数の式は次の通りです。
Rでは、x と y の相関係数は cor(x,y) で求められます。
Cinderellaで散布図を描く
Cinderellaではその都度作成するのは大変なので、ある程度汎用的なものを作っておきます。
次の図のようになります。
ソフトはこの下からダウンロードできます。
< 戻る >