並べ替え検定

標本の並び替えを使って統計量を算出するノンパラメトリック検定

 並べ替え検定(順列検定、Permutation test)あるいは再無作為化検定(Re-randamization test)は、p値算出手段に基づく1つの総称である。方法は、複数の標本をまとめたものからサンプリングしなおして(リサンプリング)、検定統計量を計算することを繰り返し、すべての組み合わせで計算した検定統計量の分布を帰無分布とする。この帰無分布をもとに、もともと得られていた標本における検定統計量がどこに位置しているかによって、帰無仮説の棄却などの判定を行う方法である。例えば、Mann-WhitneyのU検定など(そのほかの例1例2例3)のよく使われるノンパラメトリック検定の多くは並べ替え検定の1種である。これらは標本の順位を使った並べ替え検定である。ただし、「並び替え検定」は総称としてではなく、下記のような、平均値の差を計算する並び替え検定を指すことも多い。本稿での並べ替え検定は、断りがなければ、平均値の差の並べ替え検定とする。

 例えば、サンプルサイズ5と6の標本に関する平均値の差に関する並べ替え検定を考えると、2つの標本を合わせてサンプルサイズ11の標本とし、そこから5個サンプリングする。取り出した5個と残った6個を新しい標本とし、それぞれの平均値を計算し、平均値の差を得る。これをすべての組み合わせについて計算して、平均値の差の帰無分布とするのである。そして、元の標本における平均値の差よりも極端な平均値の差となった場合の数を数え上げ、全並び替え数で割ったものをp値とする。つまり、場合の数の数え上げなので、並び替え検定は正確検定である。

作業的には、2つの標本を混ぜた、サンプルサイズ11の標本があって、5番目と6番目のデータの間に仕切りがあることを想定して、11個のデータを並べ替える。並べ替えた結果、仕切りの左側をサンプルサイズ5の標本、右側をサンプルサイズ6の標本としても、上記のサンプルサイズ11の標本から5個取り出す場合でも同じ結果となるので、この作業内容から、並べ替え検定と呼ばれている。上記では、平均値を比較する統計量としたが、適切な帰無仮説の設定と統計量の算出ができるなら、他の統計量でも応用可能である。例えば、分散の比の検定も可能である。


並び替え検定の利点と限界

 並べ替え検定はp値の算出法に関して、極めて直感的であり、応用範囲も広い。特にサンプルサイズが小さいときは、パラメトリック検定よりも正確なp値を算出されることが期待できる。しかし、後述するが、並べ替え検定は保守的すぎる傾向があり、仮定を満たすのであればむしろt検定のほうがバイアスのない結果を出す可能性があるまた、これまでの仮説検定法と同様に限界も存在する。並べ替え検定における重要な仮定は、比較する標本間でデータの交換が可能でなければならない。これは、比較する標本は同じ形状の分布から生成されている、ということである。これまでの多くのノンパラメトリック検定と同様の仮定が必要になる。平均値の差の並べ替え検定であれば、母集団は正規分布であることがより好ましく、コーシー分布のように外れ値が発生しやすい分布では適用できない。また、並べ替え検定は正確検定なので、計算量が多いという点は1つの弱点である。サンプルサイズが大きいときは、実質t検定とやっていることはほぼ変わらないので、パラメトリック検定を検討するべきである。

 

※2023.6.9追記

このページでは、これまでの統計的仮説検定の手法と同様に並び替え検定を紹介する予定であったが、いくつか検討するうちに、この手法を採用する価値が薄い状況が多いのではないかと判断するに至った。詳しくは別ページにて解説するので、そちらを参照いただきたい。ただし、上記のリサンプリングという考え方は重要なので、このページを残しておくことにする。