自分は何を知りたいのか?
統計解析には「目的」が必要
統計解析は、データについて客観的な結論を与えるためになくてはならないものとなっている。
データを眺めた時の主観的な印象(「実験処理で値が変わっていそう」的な)について、統計解析は客観的な答えを与えてくれる。
実際、学生から統計解析なしのデータを見させられた指導教員は、「次は統計解析を加えなさい」と必ず言うはずだ。
しかし、データ解析に初めて取り組む人、たとえば卒研生などにとって、どんな統計解析をするべきなのか?という問いは、そんなに簡単な課題ではないかもしれない。
「データを取ったはいいけどどう統計解析したらよいかわからない」
こういう事態に陥るのは、何を目的にデータを解析しようとしているのか自分でイマイチよくわかっていないからだろう。
目的がクリアでないと適切な解析方法を調べて選び出すことができないし、それでも強引に解析に進むと解釈不能な結果に頭を抱えることになる。
僕はよく学生から統計の質問を受けるけれども、目的が欠けていると感じることが多い。
「目的」があるから「方法」がある
目的とは、柔らかく言えば「〇〇を知る(明らかにする)ために、××する」の〇〇に入るものと言えるだろう。
殺虫剤を撒いたら植木につく虫の数がどう変わるか知りたい(記載型)、でもいいし、アゲハチョウはミカンの木が多い場所に多いかどうか確かめたい(仮説検証型)でもいい。
要するに、何を知りたいのか?ということである。
これら目的を達成するためのもの(上で言う××)、それが「方法」である。
前者の場合、殺虫剤を撒いてみて、撒く前と虫の数を比較するという方法が考えられる。後者であれば、いくつかの地点でミカンの木の数とアゲハチョウの数を調べ、ミカンの木の数が多い場所ほどアゲハチョウの数も多いか調べればよいかもしれない。
重要なのは、上に挙げた2つの方法は、それぞれの目的があるからこそ意味をなすということである。
統計解析は「方法」
統計解析も方法のひとつだ(手段、あるいは道具といってもいい)。
そして、統計解析という方法は、その種類に応じて達成できる目的が決まっている。
たとえば、t検定とかWilcoxon検定とかいった統計解析は、「△と□との間に”差”があるかどうかを明らかにする(2群の差)という目的を達成することができる方法である。
なので、殺虫剤を撒く前と撒いた後で虫の数に差があるか明らかにするためには、t検定やWilcoxon検定を行えばよい。
でも、ミカンの木の数が多い場所ほどアゲハチョウの数も多いかどうかは、t検定やWilcoxon検定では明らかにできない。
それは、これらの統計解析方法が達成できる目的は2群の差の検証であり、2つの数(連続変数)の関係を明らかにする方法ではないからだ。
だから、統計解析を行うときには、目的に応じて適切な統計解析の方法を選ぶ必要がある。
そのためには、目的(何を知りたいのか?)がはっきりしていないといけない。
何を知りたいのかをはっきりさせよう
統計解析には「目的」が必要だ。
それは、統計解析の種類に応じて達成できる目的が違うからだ。
一番大事なことは、何を知りたいのかはっきりさせることが最初のステップだということ。
「データを取ったはいいけどどう解析したらよいかわからない」
そう感じたら、自分は何を知りたかったのか思い出そう。
'18 7/31