D 分析ツール

GeoGebraの表計算ビューにある解析・分析ツールです。

統計的なグラフを簡単に描くことができます。

Cinderellaには該当する関数はないので,自作することになります。

「Cindyscript基礎と応用」の「データ処理」のページをごらんください。

1変数解析

行,または列のデータを使って,ヒストグラムなどを描きます。グラフは別ウィンドウが開きます。右上のボタンでグラフィクスビューにコピーすることもできます。また,右上の「メインウィンドウでビューを表示」ボタンをクリックすると表計算ビューの中で表示されます。

上図で,左側の代表値は,Σx ボタンをクリックすると表示されます。

この中で,σは標準偏差,sは不偏標準偏差です。高校数学の教科書では不偏標準偏差は扱っていないので注意が必要です。

また,Q1,Q3は第1,第3四分位数です。これについては後述します。

右上のオプションボタンをクリックすると,度数分布表の表示や階級の設定などができます。

階級は手動で設定することもできます。ただし,設定を記憶するので,次に他のデータでヒストグラムを作ろうとするとうまくいきません。「自動」に設定し直してから作る必要があります。

<注意>2017年3月現在の不具合

度数分布表 にチェックを入れると,2変量回帰分析のときに,余分な度数分布表が表示されてしまいます。しかも,これが解除できなくなってしまうので,分析が終わったら度数分布表のチェックを外しておく方がよいでしょう。なお,一旦保存してから起動し直せば戻ります。

Cinderellaでは,リスト処理でデータ処理を行います。すべてが「手動」(プログラミング)になります。

ヒストグラムの他,箱ひげ図などもできます。

<注意>Rとの違い

統計ソフトのRと,GeoGebraでは四分位数の計算方法が違います。

GeoGebraの方法は,日本の高校数学の教科書にあるものと同じです。第1四分位数と第3四分位数のとり方は

データが奇数個のとき,中央の値を外して上側と下側に分けて,それぞれの中央値をとる。

データが偶数個のとき,半分ずつに分けてそれぞれの中央値をとる。

となっています。

これに対し,Rのsummary()で得られる四分位数では,次のように計算しています。

データの個数をn,第1四分位数はq=1/4,第3四分位数はq=3/4 として

t=1-q+q*n;

とし,tが整数ならt番目の値,そうでなければ,rをtの直前の整数,sをrの直後の整数として

(s-t)×(r番目の値)+(t-r)×(s番目の値)

とします。

Cinderellaでは,どちらの方法でも計算できます。高校生向けであれば前者で計算するのがよいでしょう。

2変量回帰分析

2行または2列のデータを用いて散布図を描きます。回帰モデルは左下のメニューからいくつか選ぶことができます。

次のデータは高校生の新体力テストの結果から,50m走と持久走を選択したところです。離れた列を選択する場合は Crtl(⌘)キーを押しながら列名(B,I)をクリックします。

「2変量回帰分析」のアイコンを選択すると散布図が表示できます。各種データもΣx ボタンで表示できますが,項目名(50m走,持久走)が表示されず ColumnI,ColumnB となっています。

左上のデータについて説明しておきます。Xは横軸に取ったデータ,Yは縦軸に取ったデータです。

MeanX,MeanY は平均

Sx,Sy は不偏標準偏差

r は相関係数

ρはスピアマンの順位相関係数

Sxx,Syy は偏差の2乗和

Sxy はxの偏差とyの偏差の積の総和

です。

相関係数(ピアソンの相関係数)は Sxy/(√Sxx・√Syy) で算出されます。

スピアマンの順位相関係数は高校数学には登場しません。実データの代わりに順位を用いて,ピアソンの相関係数と同じ計算をしています。ただし,順位はよくある順位(同点は同順位)と異なり,同点の場合は同点の数だけ均等割にします。

たとえば,よく使われる順位は,1,2,3,3,5,6,6,6,9,・・ですが,1,2,3.5,3.5,5,7,7,7,9,・・ となっていきます。スピアマンの相関係数の式も2通りあるようですが,GeoGebraでは順位をそのままピアソンの相関係数と同じ式で求めています。詳しい計算方法については,Cindyscript基礎と応用のページをごらんください。

Cinderellaの場合は,少し手間はかかりますが,プログラミングすればできます。汎用に作って関数として定義してしまえば,以後は簡単に散布図が表示できるようになります。

さらに,プロットした点から逆にそのデータを表示することもできます。次の図は,右下の少し離れた点をクリックして,そのデータを表示したところです。生徒番号8番の生徒であることがわかります。

このように,いわゆる「外れ値」をチェックしたり,点が密集しているところを調べたりするのに便利です。

クリックした位置からデータの範囲を設定して,リスト処理で選択するだけなので,それほど難しいことではありません。表計算ソフトではもちろん,GeoGebraでもできないことです。

このクリッカブル散布図の作り方は,Cindyscript基礎と応用のページをごらんください。

多変量解析

積み重なった箱ひげ図を描きます。

確率計算器

表示メニューから「確率計算器」を選ぶのと同じです。