散布図と相関係数

散布図と相関

次の表は、高校1年生男子40人の新体力テストの結果です。5種目のうち、50m走の結果をx,持久走の結果をyとして、点(x,y)を平面上にプロットしたのが右下の図です。この図を散布図といいます。

この新体力テストのデータが、次のような形式のcsvファイルに用意されているとします。

番号,50m走,立ち幅跳び,ハンドボール投げ,反復横跳び,上体起こし,長座体前屈,握力,持久走

1,6.6,251,35,66,41,60,48,5.16

2,7,250,30,56,36,58,41,6.14

3,6.9,267,30,68,30,54,45,6

(以下同様)

これをread.tableで読み込みます。(その前に、作業ディレクトリを指定しておきます)

ファイル名を sample2-1.csv としましょう。

任意の2つの種目を選んで、y,zに代入し、plot関数を用いて散布図を描きます。

たとえば、50m走は2列目、ハンドボール投げは4列目なので、

y<-x[[2]]

z<-x[[4]]

とすれば、50m走のデータを y に、ハンドボール投げのデータを z に代入できます。

次に、 plot(y,z) で散布図を描きます。

変数名には日本語も使えるので、yの代わりに「50m走」,zの代わりに「ハンドボール投げ」とすれば、次のような結果が得られます。ただし、「50m走」の「50」を全角にする必要があったり、日本語入力そのものが面倒ということはあります。

なお、y,zに代入せず、直接 plot(x[[2]],x[[4]]) とすることもできます。

相関係数

2つの変量の相関関係は、散布図を描くことによって視覚的に解釈ができますが、相関の程度を数値で表すことを考えてみましょう。

次の図は、散布図にそれぞれの平均値のラインを引いたものです。このように正の相関が強いものは、右上と左下に点が多く集まっています。それぞれの値と平均値の差(偏差)の正負を考えると図のようになります。

xとyの偏差の積を考えると、第1象限と第3象限は正、第2象限と第4象限は負になります。そこで、これらの平均を考えると、相関が正か負か、そしてその程度はどうなるかを数値化できます。

偏差の積の平均

をxとyの共分散といいます。

さらに、xとyの共分散をx,yの標準偏差の積で割った値をxとyの相関係数といいます。相関係数の式は次の通りです。

Rでは、x と y の相関係数は cor(x,y) で求められます。

Cinderellaで散布図を描く

Cinderellaではその都度作成するのは大変なので、ある程度汎用的なものを作っておきます。

次の図のようになります。

ソフトはこの下からダウンロードできます。

戻る