臨床研究関連教材

統計解析

統計解析とは

統計解析とは統計学の理論を使って、データを解析することを指し、統計手法は記述統計と推測統計に分けられます。記述統計は手元にあるデータの特徴や、傾向をとらえるために行う手法です。平均値の計算、グラフの作成などがこれにあたります。推測統計は研究などで得られたデータ(標本)から、その背景にある興味の対象となっている集団(母集団)の特徴を推測するために行う手法です。

推測統計の手法には推定と検定があります。推定は母集団の様子を具体的な数値で推測するものです。信頼区間の推定や、重回帰分析を行って回帰式を求めるなどの手法があります。検定は仮説を利用して推測するものです。何らかの判断を行うために極端な仮説を設定し、標本から得られたデータを調べて仮説が誤っているかどうかを判定します。比較する統計量の種類(平均、比率、分散など)によってさまざまな検定があります。

1.統計の知識

1) 統計分析の手法の選択

統計手法の選択は研究の目的と収集するデータのタイプによって決まります。例として治療薬AとBのどちらの治療効果が大きいのかを判断するとき、目的は治療薬AとBを比較し、「差があるのかを知りたい」となります。

2) データのタイプ

調査・研究の目的に応じてアンケートや実験が計画されますが、その時にどのようなタイプのデータが収集されているのかによってその後の統計分析の手法が決まります。

標本数と対応関係

解析対象となる標本数がいくつになるのかで、解析手法が異なります。扱うデータが2群比較(2条件以上)なのか、3群以上(3条件以上)の多群比較なのかを確認しましょう。

また、データには対応のあるデータと対応のないデータ(独立したデータ)があります。同じ対象者に対して複数の条件下で測定を行い、得られたデータのことを“対応のあるデータ”と言い、異なる集団の対象者どうしから得られたデータのことを“対応のないデータ”と言います。

例として、ある薬の薬の投与前後の変化を調査するときは、同じ対象者を追跡調査しているので「対応のある2群」として扱います。対象者を2つに分けてそれぞれ異なる薬を投与してデータを比較する場合は「対応のない2群」として扱います。

データの種類

データは大別すると2種類、4つの尺度水準に分類されます。

データの種類は質的(カテゴリカル)データと量的(数量)データの2つに分類できます。質的データは、性別、血液型、成績順位などの数値化できないデータで、量的データは、身長、売上金額など数値化可能なデータを指します。また、質的データは名義尺度と順序尺度に分類され、量的データは間隔尺度と比率尺度(比例尺度)に分類されます。

データの分布の判断

間隔・比率尺度であればグラフなどを見て極端な外れ値がないか、どのような分布をとるかの確認をします。代表的なものに正規分布があり、平均値を中心としたつり鐘型の分布となります。

後述するパラメトリック手法の検定の多くでは正規分布が前提とされます。外れ値などにより母集団の分布に正規性が仮定できない場合はノンパラメトリック手法の検定が用いられます。

④ パラメトリック的手法とノンパラメトリック的手法

<パラメトリック手法>

パラメータ(平均と標準偏差)を用いた統計手法であり、母集団が特定の確率分布(多くは正規分布)に従っていることが前提になっている統計的手法の総称です。平均を比較することができるデータに適用します。

<ノンパラメトリック手法>

パラメータによらない統計手法であり、正規分布に従うか否かに関わらず、中央値を比較することに意味を持つデータに適用します。

3) 検定の分析手順

検定は、母集団について分析者が立てた仮説が正しいかどうかを、標本のデータから推測する分析手法です。検定は正確に言うと統計的仮説検定と呼ばれています。仮説検定の手順を表3に示します。

4) 検定の種類と選択

検定方法は様々ありますが、2群の比較をする場合、3群以上の比較をする場合、関連を検討する場合の検定法選択のフローチャートをそれぞれ図1から3に示します。

例として、高血圧患者集団に対して治療薬Aを投与し、投与前後の血圧を比較して効果があるか知りたいとします。まず検定の目的は、薬を投与する前の血圧と後の血圧を比較することになるので「2群の比較(2群の差を知りたい)」となります。そして、同じ対象者に対して、薬を飲む前後という複数の条件下で測定を行っているので「対応のあるデータ」となります。血圧の値は「比率尺度」にあたり、「正規分布」するとされているので、「対応のあるt検定」を選択することになります。

5) 代表的な検定の結果の書き方

検定方法は様々ありますが、ここでは使用頻度の高い代表的な検定について示します。

① 2×2クロス集計表の検定

2×2クロス集計表の検定として「χ2検定」や「フィッシャーの直接確立検定」などがあります。セルの期待値が5以下のものがある場合は、χ2検定を用いると誤差が大きくなるため、その場合はフィッシャーの直接確立検定を使用することになります。フィッシャーの直接確立検定は手計算に時間がかかりますが、統計ソフトで計算するのであれば、セルの値が大きくてもフィッシャーの直接確立検定で行う方が、χ2検定より正確な危険率を表すことができます。

例えば薬剤Aと薬剤Bの副作用の有無に差があるのかを検定するとしましょう。薬剤Aは副作用ありが8人で副作用なしが18人、薬剤Bは副作用ありが22人で副作用なしが7人であった場合、各セルの期待値が5以上ですのでχ2検定を使用することができます。もちろんフィッシャーの直接確立検定も使用することができます。

上記を統計ソフトで計算すると有意差はp<0.01の結果がでました。これを表や図で表す場合の例を下記に示します。

対応のない2群の差の検定

対応のない2群の差の検定として、パラメトリック検定には「対応のないt検定」、ノンパラメトリック検定には「Mann–Whitney U 検定」などがあります。両方とも危険率5%で検定するときは両群ともデータ数が4以上、危険率1%で検定するときは両群ともデータ数が5以上必要です。また、対応のないt検定では、2群の分散が等しいとみなせるときは「Student t検定」、分散が明らかに異なるときは「Welch's t検定」を用います。ちなみに2群がとびとびのデータ(離散変数)であった場合も「Mann–Whitney U 検定」を用います。

パラメトリック検定は平均値を比較して検定するため“平均値±標準偏差“、ノンパラメトリック検定は中央値を比較して検定するため“中央値(四分位範囲)”で示すことになります。図の表し方の例として図6のようになります。

対応のある2群の差の検定

対応のある2群の差の検定として、パラメトリック検定には「対応のあるt検定」、ノンパラメトリック検定には「Wilcoxon符号順位検定」などがあります。対応のあるt検定は対応するデータの差の平均値が0からどの程度偏っているのかを検定する方法です。Wilcoxon符号順位検定は、対応するデータの差を符号ごとに順位を集計して検定する方法です。また、危険率5%で検定するときはデータ数が6以上、危険率1%で検定するときはデータ数が8以上必要です。とびとびのデータ(離散変数)であった場合も「Wilcoxon符号順位検定」を用います。

図の表し方は前述の図6と同様です。

多群を比較する場合の検定

一要因で分類される分類される多群について多群同時に比較する検定として、各群のデータが正規分布していて分散が等しいとみなせる場合は「一元配置分散分析」、各群のデータが正規分布していないか分散が等しいとみなせない場合は「Kruskal-Wallis検定」などの検定方法があります。つまり、Kruskal-Wallis検定は一元配置分散分析のノンパラメトリック版にあたります。なお、分散が等しいかどうかは「Bartlett's検定」を用いて判断することができます。

例えば、図8Aのように利尿薬を3種類のラットに投与した時の尿量の差の検定は一元配置分散分析で分析し、図8Bのように鎮痛薬を投与後の1週間ごとのフェイススケールの差の検定はKruskal-Wallis検定で分析することになります。

「一元配置分散分析」、「Kruskal-Wallis検定」は多群を同時に検定する方法で、全体で有意差があるのかどうかを求めることができますが、どの群とどの群の間に有意差があるのかまでは分かりません。そこで、「一元配置分散分析」または「Kruskal-Wallis検定」で有意差がでた場合は多重比較により、2群ずつの比較を行うことになります。

2群の組み合わせ全てについて比較する場合は、次の検定方法があります。

・Tukey-Kramer

 多群間の分散分析で有意差が認められなくても使用できる検定方法です。各群が等分散で正規分布に従っていると仮定して検定します。

・Bonferroni/Dunn

 多群間の分散分析で有意差が認められなくていても使用できる検定方法です。各群のデータ数が等しく、等分散で正規分布に従っていると仮定して検定します。

・Scheffe

 多群間の分散分析で有意差が認められた時に、各群のデータ数、分散や正規分布であるかどうかに制限を加えずに検定します。


Controlと各群を比較する場合は、次の検定方法があります。

・Dunnet

 Control群と指定した1群と他群を比較する検定方法で、多群間の分散分析で有意差が認められなくても使用できます。各群のデータ数、分散や正規分布であるかどうかに制限を加えずに検定します。

・Bonferroni/Dunn

 前述の内容参照。

相関関係の検定

2変数間の相関の程度(どれくらいの直線関係が見られるか)を表す相関係数を求め、相関関係があるかどうかを検定します。

まずはデータの種類に応じた相関係数を求めます。

・2変量データが連続変数で正規分布の場合:「Pearsonの相関分析」を用います。

・2変量データが連続変数で正規分布からかけ離れたデータ分布の場合:「Pearsonの相関分析」を用いても評価できますが、場合によっては「Spearmanの相関分析」を用いた方が良い場合もあります。

・2変量データが離散変数の場合:「Spearmanの相関分析」を用います。

次に相関係数を検定します。相関係数は-1~1の範囲の値で、その絶対値が1に近いほど直線的であることを示します。また、相関が認められない場合は相関係数が0になります。そこで、求められた相関係数について0から偏っているかどうかを検定することで相関関係が認められるかどうかを検定します。ただし、相関関係の強さを検定するものではないことにご注意ください。また、相関関係ありと因果関係は全く違うものです。間違った判断をしないようにして下さい。

2. 統計ソフト

データを集計する場合、一般的に多く方が使われている表計算ソフトはMicrosoft Excelだと思います。Excelの分析ツールを使用すれば、一元配置分析、二元配置分析、t検定、回帰分析などの簡単なものであれば統計処理をすることができます。また、Excelの分析ツールに無い統計処理をしたい場合はExcel統計などのアドインソフトが必要となります。

しかし、研究を進める上でExcelには“再現性の担保”が難しいという問題点があります。もし、貴施設でSPSSやStataなどの高機能な統計ソフトを導入できるのではれば、そちらを用いるのが良いと思います。

また、高価なソフトの購入が難しいという方は、フリーソフトであるRをお勧めします。Rはプログラミング言語を入力して統計を行うソフトですが、Rの操作を簡単にした統計ソフトとしてEZRもあります。EZRは、多彩な統計解析機能を組み込んだ統計ソフトとして、多くの論文でも使われています。しかも、フリーソフトでありますので費用がかかりません。ぜひ、一度は使ってみてください。その他、紹介した以外にも様々なソフトがあります。ソフトの信頼性や特徴を確認した上でご使用ください。

統計ソフトの例

・Excel(Microsoft Corporation)

 Microsoft officeに標準で入っている。分析ツールを使用すれば簡単な統計は可能。

・Excel統計(株式会社社会情報サービス)

 Excel上のデータをそのまま統計解析でき、Excelに慣れている方であれば直感的に使用できる。価格はSPSSやSASに比べると低価格。

・SPSS(IBM)

 高機能な統計ソフト。価格は高い。プログラムを記載することなく、メニューを操作するだけで、分析やグラフ作成などを行うことが可能。

Stata(StataCorp LLC)

 高機能な統計ソフト。価格は高い。

SAS(SAS Institute Inc.)

 高機能な統計ソフト。価格は高い。

JMP(SAS Institute Inc.)

 高機能な統計ソフト。価格は高い。ダイナミックなデータの可視化ツールが豊富に揃っている。

R(http://cran.r-project.org/index.html)

 CRANのホームページからダウンロードでき、無料で使用できる。様々な統計やグラフが書けるが、プログラミング言語であるため習得するまで時間がかかり扱いにくい。追加機能パッケージであるRコマンダーを組み込みこめば、マウス操作だけで解析を行うことができるようになる。

EZR(https://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/statmed.html)

 自治医科大学附属さいたま医療センター血液科のホームページからダウンロードでき、無料で使用できる。Rコマンダーのカスタマイズ機能を利用して、多彩な統計解析機能を組み込んだ統計ソフト。無料ソフトではあるが、多くの論文で使用されている。

※2022年1月現在の内容です。詳細は各ソフトのホームページをご参照ください。

参考資料

栗原伸一, 入門 統計学 検定から多変量解析・実験計画法まで, オーム社, 2011.

栗原 伸一, 丸山 敦史, 統計学図鑑,オーム社, 2017.

山田実編, メディカルスタッフのためのひと目で選ぶ統計手法, 2018.

対馬栄輝編, 医療統計解析使いこなし実践ガイド 臨床研究で迷わないQ&A, 羊土社, 2020.

長田理, statview 医学 統計マニュアル スタットビュー5.0対応版, 新興交易医書出版部, 1999.