心理学研究の再現性に関する論争

心理学研究の再現性/再現可能性(Reproducibility あるいは Replicability)に関する議論が,また盛り上がりを見せています.このサイトではその動向をwatchしています.え?議論?何?という方は「☆そもそものきっかけ」以降をまずお読み下さい.

★2016/3/3以降の動向(メモ.日付降順)

  • 2016/3/8 Scientific Dataによる Call for submissions: Replication data by Nosek, B. et al. with OSF.

    • Scientific Data is an open-access, peer-reviewed journal for descriptions of scientifically valuable datasets. Our primary article-type, the Data Descriptor, is designed to make your data more discoverable, interpretable and reusable.

    • 2016/3/7 Wasserstain, R. L., & Lazar, N. A. (2016). The ASA's statement on p-values: context, process, and purpose. The American Statistician. doi: 10.1080/00031305.2016.1154108

      • アメリカ統計学会による「統計的有意性を考える際のp値の適切な利用と解釈についての6つの原則」に関する声明.Q「なぜこんなに多くの大学や大学院で p=.05 を教えているの?」→A「それはね,科学コミュニティや科学誌のエディターがまだ使っているからさ」,Q「なぜそんなに多くの人が p=.05 を使うの?」→A「それはね,彼らが大学や大学院でそう教わったからさ」

    1. P-values can indicate how incompatible the data are with a specified statistical model.

    2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.

    3. Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.

    4. Proper inference requires full reporting and transparency.

    5. A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.

    6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.

☆関連情報(日本語で読めるもの)

☆そもそものきっかけ

Open Science Collaboration(心理学研究の再現性検証を目的に自主的に集った研究者集団)による,Psychological Science誌,Journal of Personality and Social Psychology誌,Journal of Experimental Psychology: Learning, Memory, and Cognition誌の3誌で2008年以降に刊行された100本の論文で行われていた実験の追試プロジェクト.1つの実験をたくさんのラボで実施したものを統合して,元の論文の再現性を検証している.追試に用いられた材料やデータ,あるいは以下の論争に関連する情報等は,すべてOpen Science Framework上にあるプロジェクトのサイトからダウンロードすることができる.当該サイトによる,このプロジェクトの要約を以下に示す.後述する2015年のScience誌掲載論文の内容と同等である.

Reproducibility is a defining feature of science, but the extent to which it characterizes current research is unknown. We conducted replications of 100 experimental and correlational studies published in three psychology journals using high-powered designs and original materials when available. Replication effects (Mr = .197, SD = .257) were half the magnitude of original effects (Mr = .403, SD = .188), representing a substantial decline. Ninety-seven percent of original studies had significant results (p < .05). Thirty-six percent of replications had significant results; 47% of original effect sizes were in the 95% confidence interval of the replication effect size; 39% of effects were subjectively rated to have replicated the original result; and, if no bias in original results is assumed, combining original and replication results left 68% with significant effects. Correlational tests suggest that replication success was better predicted by the strength of original evidence than by characteristics of the original and replication teams.

(再現性は科学にとってもっとも重要な特徴だが,それが現代の研究をどの程度特徴づけているかは未知である.われわれは3つの心理学ジャーナルで刊行された100本の実験的な相関研究について,強力なデザインと利用可能なら元の研究で使われた材料を用いて追試をした.再現効果 (Mr = .197, SD = .257)は元の研究 (Mr = .403, SD = .188)の半分ほどで,かなり低下していた.元の研究の97%で5%水準で有意な結果が得られていたが,追試ではその割合は36%だった.元論文の効果量が追試の効果量の95%信頼区間に入っていたのは全体の47%,主観的評価で「元論文の結果が再現された」と評定されたのは39%だった.そして,元の研究にバイアスがないと仮定して,元の研究と追試研究を合わせてみたところ,有意な効果が残ったのは68%だった.相関分析によって,追試の成功を予測しうる要因を検討したところ,元の/追試を実施した研究チームの特徴よりも,元のエビデンスの強力さの方が関連が深かった.)

心理学の研究結果、6割以上が再現不可能 検証調査 AFP BB NEWS(2015/8/28)

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.

One of the central goals in any scientific endeavor is to understand causality. Experiments that seek to demonstrate a cause/effect relation most often manipulate the postulated causal factor. Aarts et al. describe the replication of 100 experiments reported in papers published in 2008 in three high-ranking psychology journals. Assessing whether the replication and the original experiment yielded the same result according to several criteria, they find that about one-third to one-half of the original findings were also observed in the replication study.

日本語による解説記事:「サイナビ!」心理学研究は信頼できるか?――再現可能性をめぐって(4)

心理学研究の信頼性に疑問を呈した論文は「誇張」、米ハーバード大研究者ら AFP BB NEWS(2016/3/4)

Gilbert, D. T., King, G., Pettigrew, S., & Wilson, T. D. (2016). Comment on “Estimating the reproducibility of psychological science.” Science, 351(6277), 1037. doi: 10.1126/science.aad7243

A paper from the Open Science Collaboration (Research Articles, 28 August 2015, aac4716) attempting to replicate 100 published studies suggests that the reproducibility of psychological science is surprisingly low. We show that this article contains three statistical errors and provides no support for such a conclusion. Indeed, the data are consistent with the opposite conclusion, namely, that the reproducibility of psychological science is quite high.

(100本の公刊論文を追試したOSCの論文は,心理科学研究の再現性は驚くべき低さであることを示唆している.しかし,われわれは,この論文に3つの統計的な誤りがあり,こうした結論は支持されないことを示す.むしろデータは正反対の結論―心理科学の再現性はかなり高い―と一貫するものである.)

★再現性検証チームによる上記コメントへの反論

Anderson, C. J. et al. (2016). Response to Comment on “Estimating the reproducibility of psychological science.” Science, 351(6277), 1037. doi: 10.1126/science.aad9163

Gilbert et al. conclude that evidence from the Open Science Collaboration’s Reproducibility Project: Psychology indicates high reproducibility, given the study methodology. Their very optimistic assessment is limited by statistical misconceptions and by causal inferences from selectively interpreted, correlational data. Using the Reproducibility Project: Psychology data, both optimistic and pessimistic conclusions about reproducibility are possible, and neither are yet warranted.

(ギルバート氏らの論文は,OSCによる「心理学研究の再現性プロジェクト」から得られたエビデンスは,研究方法を考慮すれば「高い再現性」を示すものだと結論づけている.このひどく楽観的な査定は,統計に関する思い違いと,相関データを選択的に解釈した因果推論によるものである.「心理学研究の再現性プロジェクト」のデータから考えれば,再現性について楽観的結論と悲観的結論の両方を導き得るし,まだどちらだと決めることもできない.)