付録. M5実習3:データの図示

n  はじめに

¡  質的変数(カテゴリー変数)については表にしてまとめるほかありませんが,量的変数については,要約統計量(記述統計量)を求めるだけでは データの全体像は今ひとつはっきりしません.そこで,量的変数については,グラフを描くことにしましょう.

¡  データを本格的に統計解析する前には,データを要約するだけではなく,グラフを描くことも必須です.

         データレビュー  要約統計量・表  グラフ

n  ヒストグラム

¡  年齢ageのヒストグラムを描くには関数hist( )を使います.

 data = read.csv(“demodata.csv”)

 hist(data$age)   # hist(data[ ,”age”] またはhist(data[ , 3]でも良い

¡  データレビューなのでグラフに多少不備があっても良いのですが,度数(Frequency)の最大値がY軸の目盛りを越えているのが気になります.そこで,

 hist(data$age, ylim=c(0, 200) )

とすれば,Y軸の目盛りが最大度数より上にくることがわかります.グラフを描くときは,このように様々なオプション(プログラムでは引数[ひきすうと呼びます)を指定することによって,色や形,サイズなどを自由に設定して美しく仕上げることができます.

¡  表示されたグラフを論文やスライドに使うには,グラフのウインドウ上で右クリックをして,メタファイルに保存を選ぶか,メタファイルにコピーを選び他のファイルにペーストすれば良いでしょう.

¡  男女別の年齢ageの分布を調べたければ,まず男性だけのデータ(maledata)と女性だけのデータ(femaledata)とをつくり,それぞれに対して関数hist( )を使います.

 maledata = data[ data$sex ==”M”, ]

 femaledata = data[ data$sex==”F”, ]

 hist(maledata$age)

 hist(femaledata$age)

n  ボックスプロット(箱ひげ図)

¡  年齢ageのボックスロットを描くには関数boxplot( )を使います.

 boxplot(data$age)  # data$ageの代わりにdata[ ,”age”] hist(data[ , 3]も可

¡  ボックスプロットの見方は,まず箱は第1四分位数と第3四分位数を表し,箱の中の太線は第2四分位数(=中央値)を表します.第1四分位数と第3四分位数の差を四分位範囲と呼びますが,この四分位範囲の1.5倍より,箱の外側にあるデータを外れ値と見なし,四分位範囲の1.5倍のところに横棒(ヒゲ)を描きます.上図では,第1四分位数から四分位範囲の1.5倍より手間のところより箱側にヒゲが描かれています.これは,最小値が1.5倍のところより手前にあるからです.必ずしも四分位範囲の1.5倍のところにヒゲが描かれるわけではないことに注意してください.

¡  ボックスプロットとヒストグラムの関係には,以下のような明確な対応関係があります.

左右対称の分布なら中央値は箱の真ん中にあり,分布がかたよると中央値も偏った方にズレることがわかります.

¡  男女別にボックスプロットを描くには,ヒストグラムのようにわざわざ男女別のデータを作らなくても,

 boxplot(age ~ sex, data)

とすれば,男女別にボックスプロットが描かれます.一般的にいうと,変数△のそれぞれの層について,変数◯のボックスプロットを描くにはboxplot(~△,データの変数名とします.

n  散布図

¡  量的変数(例えば年齢)×質的変数(例えば性別)のプロットには,上述のように質的変数の違い(男女)ごとにヒストグラムやボックスプロットを描けば良いわけです.

¡  量的変数×量的変数のプロットには,関数plot( )を用いて散布図を描きます.

 plot(data$wt~data$ht) # どちらも同じ

 plot(wt ~ ht, data)

¡  どちらのプログラム法でも同じ散布図が得られます.上のプログラムは今まで通りで,変数◯と変数△について,plot(~としています.この場合,Y軸が◯にX軸が△になります.

散布図  plot(Y軸~X)

ただし,データの変数名dataを後に書けば,変数名◯・△のところに”data$”をつける必要はなくなるわけです.それが2番目のプログラム法です.

¡  散布図を描けば,2つの量的変数の間の関係が一目瞭然となります.上の例では,「身長が高いほど,体重も重い」という右肩上がりの関係が見てとれます.

n  QQプロット

¡  データレビューのあとで行なう統計解析では,正規分布を前提とした手法がたくさんあります.そこで,さまざまな変数が正規分布にどれくらい一致しているか(または正規分布からどれくらい外れているか)をグラフ化したものがQQプロットです.

¡  例えば,年齢ageQQプロットは,関数qqnorm ( )を用いて,

 qqnorm(data$age)

とすれば描けます.年齢が正規分布ならばQQプロットは直線になるはずです.

(注)実は,QQプロットは正規分布だけでなくどのような分布についても描くことができますが,ここでは正規分布についてのQQプロットを説明するにとどめます.

Ċ
西山毅,
2011/06/21 9:24
Ĉ
西山毅,
2011/06/21 9:24
Comments