$30 off During Our Annual Pro Sale. View Details »

再現性問題 再入門

 再現性問題 再入門

2022年11月24日 ReproducibiliTea Tokyo
*対象論文
Nosek, B. A., Hardwicke, T. E., Moshontz, H., Allard, A., Corker, K. S., Dreber, A., Fidler, F., Hilgard, J., Kline Struhl, M., Nuijten, M. B., Rohrer, J. M., Romero, F., Scheel, A. M., Scherer, L. D., Schönbrodt, F. D., & Vazire, S. (2022). Replicability, Robustness, and Reproducibility in Psychological Science. Annual review of psychology, 73, 719–748. https://doi.org/10.1146/annurev-psych-020821-114157

Daiki Nakamura

November 24, 2022
Tweet

More Decks by Daiki Nakamura

Other Decks in Research

Transcript

  1. 再現性問題 再入門 中村 大輝(広島大学) @ReproducibiliTea Tokyo November 24, 2022

  2. 本日の予定 2 ◼ 前半:再現性問題へのこれまでの取り組み ⚫ 全体の趣旨 ◼ 後半:再現性問題へのこれからの取り組み

  3. 再現性問題との出会い|中村の場合 3 ⚫ 2019年(D1) 『心理学の7つの大罪』 ⚫ 2020年(D2) 心理学評論の再現性特集号 (2016年) 平石先生科研

    RA 「社会心理学の基盤を裾野から 確認する:メタ分析と追試によ る再現性検証」 RepTea Tokyo 参加・発表 教育学分野でもQRPsに関する議論 Makel, M. C., Hodges, J., Cook, B. G., & Plucker, J. A. (2021). Both Questionable and Open Research Practices Are Prevalent in Education Research. Educational Researcher. https://doi.org/10.3102/0013189X211001356 ⚫ 2021年(D3) ⚫ 2022年(研究員) 自身の分野のQRPsの調査 中村大輝, 原田勇希, 久坂哲也, 雲財寛, & 松浦拓也. (2021). 理科教育学における再 現性の危機とその原因. 理科教育学研究, 62(1), 3-22. https://doi.org/10.11639/sjst.sp20016 それでも残る問題への苦悩 平石界, 中村大輝. (2022). 心理学 における再現性危機の 10 年 ―危機 は克服されたのか、克服され得るの か―. 科学哲学, 54(2), 27-50. https://doi.org/10.4216/jpssj.54.2_27 OSFの活用 アカウントを作成し、データ・ コードの公開や、事前登録を始 める。 これまで自分が信じてきた研究の 枠組みが正しかったのかという疑 問、反省、焦り。
  4. 4 Brian A. Nosek Center for Open Science; University of

    Virginia Tom E. Hardwicke University of Amsterdam Hannah Moshontz University of Wisconsin-Madison Aurelien Allard University of California, Davis Katherine S. Corker Grand Valley State University Anna Dreber Stockholm School of Economics; University of Innsbruck Fiona Fidler University of Melbourne Joe Hilgard Illinois State University Melissa Kline Struhl Center for Open Science Michele Nuijten Meta-Research Center; Tilburg University Julia Rohrer Leipzig University Felipe Romero University of Groningen Anne Scheel Eindhoven University of Technology Laura Scherer University of Colorado Felix Schonbrodt Ludwig-Maximilians-Universitat Munchen Simine Vazire University of Melbourne @BrianNosek Nosek, B. A., Hardwicke, T. E., Moshontz, H., Allard, A., Corker, K. S., Dreber, A., Fidler, F., Hilgard, J., Kline Struhl, M., Nuijten, M. B., Rohrer, J. M., Romero, F., Scheel, A. M., Scherer, L. D., Schönbrodt, F. D., & Vazire, S. (2022). Replicability, Robustness, and Reproducibility in Psychological Science. Annual review of psychology, 73, 719–748. https://doi.org/10.1146/annurev-psych-020821-114157 過去10年の 再現性問題
  5. Introduction 5 ⚫ 心理学における2010年代 • “crisis” (Giner-Sorolla, 2019; Hughes, 2018)

    • “revolution” (Spellman, 2015; Vazire, 2018) • “renaissance” (Nelson et al., 2018) ⚫ 過去の改革(Cohen, 1973, 1994; Greenwald, 1975; Meehl, 1978; Rosenthal, 1979; Sterling, 1959) • 統計的有意性(p<0.05)の過度な強調、出版バイアス、不十分な検定力、 理論と分析計画の弱さ、再現性の欠如の問題 • これらの取り組みは、再現性の危機の証拠が示されるまではほとんど影響を持たなかった ⚫ 今回の改革 • 再現性の危機に関する証拠が示されたことで、イノベーションが促進された(Bakker et al.2012b; Open Science Collaboration, 2015; Simmons et al.2011; Wagenmakers et al.2011) • 過去の研究知見を再現できないなど驚くべき失敗もあり、研究者は再現の役割や意味について 議論を重ねた ⇒ 積極的な対立の10年 ➢ このレビューでは、過去10年間の再現性に関する証拠と再現性・頑健性・再生性の理解の蓄積 に焦点を当てる (Replicability, Robustness, and Reproducibility)
  6. What are reproducibility, robustness, and replicability? 6 ◼ 再生性(Reproducibility) 同じデータと同じ分析方法を用いて、

    事前に得られた知見の信頼性を検証する(再解析) ◼ 再現性(Replicability) 過去に得られた知見の信頼性を異なるデータで検証する(追試) • 直接的追試:同じ方法 • 概念的追試:異なる方法 ◼ 頑健性(Robustness) 同じデータ、異なる分析方法を用いて、 過去に得られた知見の信頼性を検証する ⚫ 3つの用語の定義(National Academies of Sciences, 2019)
  7. Reproducibility 7 ⚫ 再生性テストが失敗する理由 1. 手続きの再生の失敗 データ、コード、コードの再現に必要な情報、使用したソフトウェアやツールが入手でき ない、元の分析を繰り返すことができない場合 → 単に検証できないことを示している

    2. 結果の再生の失敗 再解析の結果、当初報告されたものとは異なる結果が得られた場合 → 元の結果が間違っている可能性を示唆 ⚫ 再生性をテストする多くの取り組み (Bakker & Wicherts, 2011; Hardwicke et al., 2018, 2021; Maassen et al., 2020; Nuijten et al., 2016 ) ➢ Artner et al.(2020): 232件の知見のうち、70%しか再生に成功していない ⚫ 再生性を向上させるための取り組み • データとコードの共有(Hardwicke et al., 2018, 2021; Kidwell et al., 2016; Wicherts et al., 2011) ⚫ 前提 同じデータに同じ分析を適用すれば、同じ結果が再現されるはず → 原則として、報告されたすべてのエビデンスは再生可能であるべき
  8. Robustness 8 ⚫ 頑健性が低い研究 • どの変数や共変量を含めるかの決定によって結果が左右されるような脆弱な研究が存在 ◼ Silberzahn et al.(2018)

    • 29の分析チームに同じ問い・データを与えたところ、分析結果にかなりのばらつきがあった • 分析計画に事前に登録していない場合、p-hacking や overfitting に関する懸念を増幅させ る可能性がある(Simonsohn et al., 2020; Steegen et al., 2016) Cf. multiverse analysis, specification curve analysis
  9. Replicability 9 ⚫ 前提 • 科学的知見の信頼性は、裏付けとなる証拠の再現性に依存する • 再現性は科学的な発見の必須条件(Schmidt, 2009) ⚫

    再現性の検証 • 同じ研究を再度行い、同じ結果が得られるかどうかを確認すること • 何をもって「同じ研究」や「同じ結果」とするかを決めるのは容易ではない ⚫ どうやって同じ研究をするのか? • 類似した研究デザインであっても、サンプル、設定、介入法など、無数の違 いがある(Shadish et al.2002) • 追試を理論的なコミットメントとして理解する(Nosek & Errington, 2020; Zwaan et al., 2018) • 元の研究との無数の違いが、同じ知見に関する証拠を得るためには無関係で あると理論的に考えられる場合、その研究は追試だと言える • すべての再現実験は一般化可能性のテストでもある
  10. Replicability 10 ⚫ 同じ結果が得られたかを、どのように判断するか ◼ 二項対立的な評価 • 追試が元の研究と同じ方向に帰無仮説(p<0.05)を棄却するか(Camerer et al.,

    2018; Open Science Collaboration, 2015) • 元の研究または追試の知見の信頼区間or予測区間を計算し、他の推定値が区間内にあるか (Open Science Collaboration, 2015; Patil et al, 2016) • 追試結果が元の研究で検出できたであろう効果量と一致するか(Simonsohn, 2015) ◼ 連続的な尺度による評価 • オリジナルと追試の知見を比較するベイズファクター(Etz & Vandekerckhove, 2016) • オリジナル研究のヌル分布と事後分布のベイズ的な比較(Verhagen & Wagenmakers, 2014) → 結局、二項対立的な判断に変換されてしまう ◼ より成熟した評価方法 • 個々の研究に重点を置くのではなく、メタ分析によって研究を統合することで、効果の大 きさや累積的な証拠に重点を置くようになります(Mathur & VanderWeele, 2020) • 異質性が高い場合、不確実性のある領域として更なる追試、調整変数の検討、理論の補強 が行われていく
  11. The state of replicability of psychological science 11 ⚫ 過去10年間に行われた2種類の著名な再現性研究

    ◼ 系統的な追試(systematic replications) • 選択バイアスを最小化するために、サンプリングフレーム内のできるだけ多くの研究の 再現を行った追試研究 ➢ Soto(2019):性格特性とアウトカムの間の101の関連を追試した結果、90%が同じ方向で統 計的に有意、効果量は元の研究の91%の大きさ ➢ Camerer et al. (2018) :2010年から2015年の間に発表されたNatureとScienceの論文から系 統的に選択した21の社会科学実験を追試した結果、62%が同じ方向で有意、効果量は元の研究の 50%の大きさ ➢ Open Science Collaboration(2015):3つの心理学雑誌の100の知見を追試した結果、36%が 同じ方向で有意、効果量は元の研究の49%の大きさ ◼ 複数地点での追試(multi-site replications) • 高精度の効果量推定と異質性推定を行うために、著名な知見の再現プロトコルを様々な サンプルと設定で行った追試研究 ➢ Many Labs シリーズ(Ebersole, Atherton, et al.,2016;Ebersole et al.,2020;Klein et al.,2014,2018, 2019):56%が同じ方向で有意、効果量は元の研究の53%の大きさ
  12. The state of replicability of psychological science 12 ◆ Fig1.

    3つの系統的な追試、マルチサイト、ベストプラクティス研究の結果 ※ r >0 は、追試の効果量が元の効果量 よりも大きかったことを示す 全体(n=307)として、64%が元の研究と同じ方向で有意、効果量は元の研究の68%の大きさ → ほぼすべての体系的な検討において再現性の課題が観測されている 90%が同じ方向 で統計的に有意 62%が同じ方向 で統計的に有意 36%が同じ方向 で統計的に有意 56%が同じ方向 で統計的に有意 再現研究で用いられたサンプ ルサイズは、オリジナル研究 で用いられたサンプルサイズ の平均15.1倍
  13. What replicates and what doesn’t? 13 ⚫ 再現される研究とされない研究の違いは何か? → 理論的成熟度、元の研究の特徴、追試研究の特徴

    ◼ 理論的成熟度 • 多くの検証によって洗練された理論に基づく予測は、再現性に関する事前確率が高い • 変数間の因果関係の詳細な説明によって、明確な予測、補助仮説や境界条件の特定が可能になる ◼ 元の研究の特徴(元の知見が偽陽性である場合) • 真である確率が低い仮説に基づく研究ほど、偽陽性率が高くなる ➢ 驚くべき結果をもつ研究の追試は再現成功率が低い(r = -.24: Open Science Collaboration, 2015) • 弱い統計的証拠に基づくオリジナルの研究結果は、強い証拠に基づく研究結果よりも再現が難しい ➢ 元の研究のp値が低いほど、再現成功率が高い(r = -.33: Open Science Collaboration, 2015) • 透明性が低い研究は再現成功率が低い ◼ 追試研究の特徴 • 追試においても、サンプルサイズが小さい、コントロールが不十分、検定力不足といった要因が問 題になる • 追試の失敗が追試研究の欠点に起因するという主張(Baumeister, 2016; Baumeister & Vohs, 2016; Gilbert et al., 2016; Schnall, 2014; Schwarz & Strack, 2014; Shih & Pittinsky, 2014)
  14. Predicting replicability 14 ⚫ 再現可能性の予測 手間のかかる再現実験を行う前に、再現可能性を予測できれば便利だよね • アンケート調査(survey):再現が成功する可能性についての個人の推定値を平均 • 構造化された調査(Elicitations):個人判断→グループで共有→再度個人判断

    • 予測市場(Prediction Market):研究が再現されるかどうかお金を賭けてもらう • いずれの方法でも、予測値と観測され た再現成功率には正の相関があった (r's = 0.52 [prediction markets]、 0.48 [survey]、0.75 [elicitations]) • 論文中の統計量や本文から機械学習に よって再現成功率を予測する試みも行 われている(Altmejd et al., 2019; Yang et al., 2020)
  15. What degree of replicability should be expected? 15 • すでに十分に理解されている現象について極めて保守的な研究アプローチを

    採用すれば、再現成功率を100%に近づけることは可能だろう • しかし、そのようなアプローチでは研究の進展はほぼ0になり、知識の境界 は広がらない。 • 健全で理論的に発展性のある研究の営みには、再現されない知見も含まれる • ただし、再現性を高めるためのデザインや方法といった努力は常に必要
  16. Improving replicability 16 ◼ 研究方法の強度を高める 観察回数を増やす、より強力な測定、適切な操作、妥当性検証など ◼ エラーを減らす より厳しい推論基準、事前登録と透明性の確保(p-hacking、HARKing、選択的報告に対する予防)、 頑健性の確認、クロスバリデーション

    ◼ 報告事項 証拠に対応した結論、一般化可能性の制約、データの事前観察やオーバーフィッティングの影 響可能性 ◼ 研究プロセスの透明性 方法、材料、手順、データの共有、意思決定のタイミングや分析におけるデータ依存性、隠れ た知識、利益相反の明示 ◼ 構造的な転換 より厳密な研究手法を報酬・評価システムに組み込む、Registered Reports、敵対的な共同研 究、エラーを発見して公表する人たちの仕事を支援、「出版されること」よりも「正しいこと をすること」に価値を置く文化
  17. Cultural, social, and individual challenges for improving replicability 17 ⚫

    社会的・構造的文脈 • 信頼性を犠牲にしてでも出版数を増やす方が評価されてキャリアアップにつながると いう現状 • 新規性のある研究のために他人の理論を使うことを避けていれば、再現性が検証され ないまま • 少数の十分なパワーのある研究よりも、多くのパワー不足の研究を実施する方が研究 者の利益になっている(Bakker et al., 2012) • 研究者が既存の知見に対して懐疑的かつ批判的な調査を行うことを妨げるような厳し い社会環境 • 社会的・構造的な改革によってより望ましい研究が評価されるようにしていくべき ⚫ 個人の文脈 • 「知的な謙虚さ」を受け入れる心構えを養うことが大切 • 推論バイアスが判断に影響を与える機会の緩和
  18. A changing research culture 18 ⚫ Psychology in 2021 is

    different from psychology in 2011. • 再現性や信頼性、そしてそれらを向上させる方法について、実質的なエビデンスを蓄積 してきた • 草の根レベルでの取り組みにより、規範を変え、トレーニングを行い、構造的な変化を 促進してきた • ジャーナルの編集者、資金提供者、リーダーたちは、インセンティブや要件を変更する ための新しいポリシーを採用してきた ⚫ 研究文化改革の戦略 • 厳密性、透明性、再現性への文化的変化を促進す ることを使命とした組織の戦略的な取り組み →Society for the Improvement of Psychological Science, Center for Open Science • Rogersの拡散モデル:新技術がイノベーターや アーリーアダプターによって最初に使用され、そ の後、主流に受け入れられていく • インフラやツールを提供→ユーザー中心のデザイ ン→コミュニティの活性化→インセンティブのサ ポート→ポリシー変更
  19. Evidence of change 19 ⚫ この10年間で登場したソリューション ◼ 事前登録や共有のツール • Open

    Science Framework(OSF; Soderberg, 2018) • AsPredicted ◼ 草の根コミュニティ • statcheck (Epskamp & Nuijten, 2018) • GRIM(Granularity Related Inconsistent Means; Brown & Heathers, 2017) • Society for Improving Psychological Science • Open Science Communities (Armeni et al., 2020) • National reproducibility networks (Munafò et al., 2020) ◼ 行動の可視性 • Psychological Science Accelerator (Moshontz et al., 2018) • ManyBabies (Byers-Heinlein et al, 2020) • オープンプラクティス・バッジ(Kidwell et al., 2016) ◼ 出版社、資金提供者、機関のポリシー変更 • Registered Reports(Chambers, 2019; Scheel et al., 2020) • TOP Guidelines(Nosek et al., 2015)
  20. Evidence of change 20 ⚫ 個人の変化の証拠 • 2019年に69の心理学科の全教員(N=1,987)を分析したところ、35%がOSFアカウントを 持っており、社会(57%)、量的(48%)、認知(42%)、臨床(19%)、教育・健康 (17%)

    • 2011年にはデータやコードを共有したのは約20%、事前登録を行ったのは約8%であったが、 2017年にはこれらの数字が51%と44%に上昇
  21. Evidence of change 21 ⚫ ジャーナルの変化の証拠 • TOP(Transparency and Openness

    Promotion)ガイド ライン:透明性と再現性に関連する10のポリ シー基準をまとめたもので,それぞれ3つのレベ ルに分けている(Nosek et al., 2015) • 10 の基準について,大部分のジャーナルが TOP に準拠したポリシーを採用していない • データソースの引用(36%)と報告ガイドライン の使用(36%)が多く,研究の事前登録(12%) と分析計画(13%)は少ない • 心理学分野最大の出版社であるAPA journalsは, 2021年末までにすべてのコアジャーナルを8つ の基準で少なくともTOPレベル1に移行させる意 向を示している(Center for Open Science, 2020) 変化を阻む構造的、文化的、社会的、個人的な障壁に 対処するためのさらなる作業が必要である
  22. What’s next? A metascience research and culture change agenda for

    accelerating psychological science 22 ⚫ 次の10年に向けた課題 ◼ 再現性に関する10年間の研究は、次の10年間のメタサイエンス研究の材料となる 重要な問題を提起した(Hardwicke et al.2020; Zwaan et al.2018a) • 研究の成熟度が異なる段階での最適な再現成功率とは? • どうすれば進歩を最大化し、無駄を最小化できるのか(Lewandowsky & Oberauer, 2020; Shiffrin et al., 2018) • 累積的な科学を構築する上で、再現性はどのような役割を果たしているのか • 再現性と{測定、因果推論、理論、一般化可能性、応用可能性}の関係性に関 する議論が必要 • 再現性を向上させるための介入は有効なのか? → 更なる検証が必要 • 研究文化改革の取り組みの中で、何が成功/失敗しているのか Replicability and credibility challenges have been recognized for decades with little to no evidence of change. Now, things are changing. There is much more to do, but the hardest part is getting started. That part is done. (訳) 再現性と信頼性の問題は、何十年もの間、ほとん ど変化の兆しがないまま認識されてきました。しかし、 今、状況は変わりつつあります。やるべきことはまだた くさんありますが、最も困難なのは始めることです。そ の部分は終わったのです。
  23. What happens after replication? 23 顔面フィードバック仮説 控えめな修正効果 自我消耗(ego depletion)仮説 「マルチラボ共同大規模追試で

    あっても,科学の自己修正への 寄与は限定的」