解析のユニット

(独立性、ランダム化、局所管理)

独立性

多くの統計解析は、データが互いに独立であることを仮定している。

データが互いに独立であるとは、あるデータの値は他のデータの値に左右されない、ということである(逆に、あるデータが他のデータに左右されるとき、これらのデータは"相関している"という)。これを満たさないと、母数の推定が偏るとか、検定が不当に有意になりやすい/有意でなくなりやすいとかいったことが生じやすくなる。典型的なのは反復測定デザインで、同じ個体や場所から繰り返し取ったデータをすべて独立として解析してしまうと、データの水増しが生じてしまい(疑似反復)実際よりもずっとP値が小さくなってしまう。互いが独立であると仮定できる最小のデータの単位を、本稿では解析のユニットと呼ぶ。

解析のユニットを認識することは、統計解析において極めて重要である。データの特性から互いが独立であると仮定できるユニットを見極め、それに基づいて統計解析の目的を設定することにより、適切な解析方法を選択することができる

たとえば、圃場にプロットを複数設けて、各プロットに植物個体を複数植えた上で、プロットごとに何らかの実験処理を加えたとする。このような場合、プロット内の植物個体のデータは互いに独立と仮定できるだろうか?  個体間の距離が充分離れていれば独立と仮定できるかもしれないが、たかだか数十cmの距離であれば、植物が互いに影響を与え合ったり、物理環境が似通っていることを介した相関関係が生じ得る。この場合、プロット内の植物個体のデータが互いに独立と仮定することには無理がある。したがって、植物個体を解析のユニットに設定することは避け、各プロット(植物集団と解釈できるだろう)をユニットに設定した方がよいだろう。その場合、解析の目的は、実験処理の効果を植物個体に対してではなく、植物集団に対して検証することになるだろう。また、どうしても植物個体に対する実験処理の効果を検証したい場合には、独立でないデータに対応した解析方法を選択する必要があるだろう。(→混合効果モデル)

解析に進む前に、データの特性と自分の知りたいことに合った解析のユニットが何なのかよく考えよう。


*解析のユニットは自分が注目する要因によって変わることもある。*nlme::lmeにおけるlevelの概念に対応しているかもしれない。

ランダム化

データが互いに独立でなくなってしまう大きな原因のひとつは、データの値に影響してしまうと考えられる見落とされた要因の存在である。

典型的なのは、場所によって変化する要因である。たとえば、大きな圃場に植物個体を等間隔に植え、処理個体とコントロール個体で植物の被食率を比較することを考える。しかし、圃場の西の隣に大きな森林がある場合、そこから植食者が侵入することにより西側の方が東側より被食率が大きくなる可能性が否定できない。このような場合、西にある植物個体同士の方が西と東の植物個体間よりも被食率が似ていることが起こる。

こういった問題への対処には大きく分けて2つ考えられる。一つはランダム化である。植物個体に完全にランダムに処理を割り当てた場合、西にある個体と東にある個体は平均的に同程度に処理個体かコントロール個体に割り当てられると期待できる。こうすると、見落としていた要因による偏りを低減することができる。


局所管理

もう一つの方法が局所管理である。

上記の例で言えば、西からの植食者の侵入による被食率の偏りが事前に十分に予想される場合に有効である。

具体的には、西側の中で処理個体とコントロール個体をランダム(かつ同数が望ましい)に、東側の中で両処理個体をランダムに割り振る。そして、処理間の比較はあくまで西側内/東側内で行う。つまり、比較するデータ間ではその他の要因はできる限り均一にするということである。こうすると、注目している以外の要因の影響を取り除くことができる。これは、西側か東側かという要因を統計モデルに組み込むことで達成できる。(→Nested ANOVA)



*実はランダム化と局所管理は実験計画法におけるフィッシャーの3原則と呼ばれるもののうちの2つ。もう一つは反復。普通はこの3つを解説すると思うが、注意すべきは独立でないと反復にならない(正確さは向上するが)ということだと思ったのでこのようにまとめた。**ここでの説明はあくまで自分の理解に基づくものです。特に独立性と反復について深く考えるとよくわからなくなってくる。擬似反復によるデータ間の相互依存性は、統計だけのことを考えれば必ずしも因果関係であるとは限らないというのが自分の理解なのだが…。

'18 10/21