研究実施計画を立てる、あるいは論文のレビューにおいて、統計学の知識を持つことは、自分の仮説を検証するための手続きに必須である。
論文などに多用される統計解析方法とそのポイントについて解説する。
□ 比較するのか?関係を確認するのか? 予測(因果推論)するのか?
比較は、「BMIの平均値は男女間で異なるか」など、パラメータの代表値とそのばらつきから、2つ以上のグループ間で比較し、その差があるかを確認する。関係性は、「男性患者では、BMIの増加は年齢と関連があるか」など、2変数の関連性を調べること。予測は、ある事象に対する因果関係を明らかにすることである。
□ データの対応について
対応があるデータは、同じ人が同じ条件で2回以上繰り返して得られたデータ。対応がないデータは、関連がない(独立した)2標本のデータのこと。
□ 尺度と検定の手法
連続変数(年齢や血圧など連続した値など)のうち、母集団がある確率分布に従うことがわかっているときにパラメトリック検定が適応される。一方、性別(0:男性,1:女性など)のうち、母集団が特定の分布をしていないときはノンパラメトリック検定が用いられる。通常、得られた標本が正規分布しているかどうかを考え、正規分布している場合はパラメトリック検定、していない場合はノンパラメトリック検定を選択する。
□ 標本数
標本は多ければ多いほど良いとはいえず、適切な標本数を検討する必要がある。パワーアナリシスを用いて計算できる。統計学的には、標本数が多くなれば有意差が出やすくなることから、効果量で差の大きさを表現することが近年求められている。