Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ReproducibiliTea material on Nosek et al. (2021)

ReproducibiliTea material on Nosek et al. (2021)

ReproducibiliTea Tokyo
2021.7.29.

Daiki Nakamura

July 29, 2021
Tweet

More Decks by Daiki Nakamura

Other Decks in Education

Transcript

  1. Replicability, Robustness, and Reproducibility in Psychological Science Presentation by Daiki

    Nakamura @ReproducibiliTea Tokyo ☕ July 28, 2021 Nosek, B. A., Hardwicke, T. E., Moshontz, H., Allard, A., Corker, K. S., Dreber, A., … Vazire, S. (2021, February 9). Replicability, Robustness, and Reproducibility in Psychological Science. In press at the Annual Review of Psychology. https://doi.org/10.31234/osf.io/ksfvq https://osf.io/7np92/
  2. 2 About Authors Brian A. Nosek Center for Open Science;

    University of Virginia Tom E. Hardwicke University of Amsterdam Hannah Moshontz University of Wisconsin-Madison Aurelien Allard University of California, Davis Katherine S. Corker Grand Valley State University Anna Dreber Stockholm School of Economics; University of Innsbruck Fiona Fidler University of Melbourne Joe Hilgard Illinois State University Melissa Kline Struhl Center for Open Science Michele Nuijten Meta-Research Center; Tilburg University Julia Rohrer Leipzig University Felipe Romero University of Groningen Anne Scheel Eindhoven University of Technology Laura Scherer University of Colorado Felix Schonbrodt Ludwig-Maximilians-Universitat Munchen Simine Vazire University of Melbourne @BrianNosek
  3. As a decade of active confrontation 3 ⚫ 心理学における2010年代 •

    “crisis” (Giner-Sorolla, 2019; Hughes, 2018) • “revolution” (Spellman, 2015; Vazire, 2018) • “renaissance” (Nelson et al., 2018) ⚫ 過去の改革(Cohen, 1973, 1994; Greenwald, 1975; Meehl, 1978; Rosenthal, 1979; Sterling, 1959) • 統計的有意性(p<0.05)の過度な強調、出版バイアス、不十分な検定力、 理論と分析計画の弱さ、再現性の欠如の問題 • これらの取り組みは、再現性の危機の証拠が示されるまではほとんど影響を持たなかった ⚫ 今回の改革 • 再現性に関する証拠が示されたことで、イノベーションが促進された(Bakker et al.2012b; Open Science Collaboration, 2015; Simmons et al.2011; Wagenmakers et al.2011) • 過去の研究知見を再現できないなど驚くべき失敗もあり、研究者は再現の役割や意味について 議論を重ねた ➢ このレビューでは、過去10年間の再現性に関する証拠と再現性・頑健性・再生性の理解の蓄積 に焦点を当てる (Replicability, Robustness, and Reproducibility)
  4. What are reproducibility, robustness, and replicability? 4 ◼ 再生性(Reproducibility) 同じデータと同じ分析方法を用いて、

    事前に得られた知見の信頼性を検証する(再解析) ◼ 再現性(Replicability) 過去に得られた知見の信頼性を異なるデータで検証する(追試) 直接的追試:同じ方法 概念的追試:異なる方法 ◼ 頑健性(Robustness) 同じデータ、異なる分析方法を用いて、 過去に得られた知見の信頼性を検証する ⚫ 3つの用語の定義(National Academies of Sciences, 2019
  5. 再生可能性(Reproducibility) 5 ⚫ 再生性テストが失敗する理由 1. 手続きの再生の失敗 データ、コード、コードを再現するための分析に関する情報、必要なソフトウェアやツー ルが入手できない、元の分析を繰り返すことができない場合 →単に検証できないことを示している 2.

    結果の再生の失敗 再解析の結果、当初報告されたものとは異なる結果が得られた場合 →元の結果が間違っている可能性を示唆 ⚫ 再生性をテストする多くの取り組み (Bakker & Wicherts, 2011; Hardwicke et al., 2018, 2021; Maassen et al., 2020; Nuijten et al., 2016 ) ➢ Artner et al.(2020): 232件の知見のうち、70%しか再生に成功していない ⚫ 再生性を向上させるための取り組み • データとコードを共有(Hardwicke et al., 2018, 2021; Kidwell et al., 2016; Wicherts et al., 2011) ⚫ 前提 同じデータに同じ分析を適用すれば、同じ結果が再現されるはず →原則として、報告されたすべてのエビデンスは再生可能であるべき
  6. Robustness 6 ⚫ 頑健性が低い研究 • どの変数や共変量を含めるかの決定によって結果が左右されるような脆弱な研究が存在 ◼ Silberzahn et al.(2018)

    • 29の分析チームに同じ問い・データを与えたところ、分析結果にかなりのばらつきが あった • 分析計画に事前に登録していない場合、p-hackingやoverfittingに関する懸念を増 幅させる可能性がある(Simonsohn et al., 2020; Steegen et al., 2016) Cf. multiverse analysis
  7. Replicability 7 ⚫ 前提 • 科学的知見の信頼性は、裏付けとなる証拠の再現性にも左右される。 • 再現性は科学的な発見の必須条件(Schmidt, 2009) ⚫

    再現性の検証 • 同じ研究を再度行い、同じ結果が得られるかどうかを確認すること • 何をもって「同じ研究」や「同じ結果」とするかを決めるのは容易ではない ⚫ どうやって同じ研究をするのか? • 類似した研究デザインであっても、サンプル、設定、介入法など、無数の違 いがある(Shadish et al.2002) • 追試を理論的なコミットメントとして理解する(Nosek & Errington, 2020; Zwaan et al., 2018) • 元の研究との無数の違いが、同じ知見に関する証拠を得るためには無関係で あると理論的に考えられる場合、その研究は追試だと言える • この枠組みを適用するならば、直接的/概念的な再現性の区別は不要 (Machery, 2020; Nosek & Errington, 2020)
  8. Replicability 8 ⚫ 同じ結果が得られたかを、どのように判断するか ◼ 二項対立的な評価(問題あり) • 追試が元の研究と同じ方向に帰無仮説(p<0.05)を棄却するか(Camerer et al.2018;

    Open Science Collaboration, 2015) • 元の研究または追試の知見の信頼区間or予測区間を計算し、 他の推定値が区間内にあるか(Open Science Collaboration, 2015; Patil et al, 2016) • 追試結果が元の研究で検出できたであろう効果量と一致するか(Simonsohn, 2015) • 知見が類似しているか(Open Science Collaboration, 2015) ◼ 連続的な尺度による評価 • オリジナルと追試の知見を比較するベイズファクター(Etz & Vandekerckhove, 2016) • オリジナル研究のヌル分布と事後分布のベイズ的な比較(Verhagen & Wagenmakers, 2014) →結局、二項対立的な判断に変換されてしまう ◼ より成熟した評価方法 • 個々の研究に重点を置くのではなく、メタ分析によって研究を統合することで、効果の大 きさや累積的な証拠に重点を置くようになります(Mathur & VanderWeele, 2020) • 異質性が高い場合、不確実性のある領域として更なる追試が行われていく ➢ 証拠の追加→統合→理解の補強・再構成 のサイクルを繰り返す営み
  9. The state of replicability of psychological science 9 ⚫ 過去10年間に行われた2種類の著名な再現性研究

    ◼ 系統的な追試(systematic replications) • 選択バイアスを最小化するために,サンプリングフレーム内のできる だけ多くの研究の再現を行った再現研究 ➢ Soto(2019):性格特性とアウトカムの間の101の関連を追試した結果、 90%が同じ方向で統計的に有意、効果量は元の研究の91%の大きさ ➢ Camerer and colleagues (2018) :2010年から2015年の間に発表された NatureとScienceの論文から系統的に選択した21の社会科学実験を追試した 結果、62%が同じ方向で有意、効果量は元の研究の50%の大きさ ➢ Open Science Collaboration(2015):3つの心理学雑誌の100の知見を追 試した結果、36%が同じ方向で有意、効果量は元の研究の49%の大きさ ◼ 複数地点での追試(multi-site replications) • 高精度の効果量推定と異質性推定を行うために,著名な知見の再現プ ロトコルを様々なサンプルと設定で行った再現研究 ➢ Many Labs シリーズ(Ebersole, Atherton, et al.,2016;Ebersole et al.,2020; Klein et al.,2014,2018,2019):56%が同じ方向で有意、効果量は元の研 究の53%の大きさ
  10. The state of replicability of psychological science 10 ◆ Fig1.

    3つの系統的な追試の結果 ※ r >0 は、追試の効果量が元の効果量よりも大きかったことを示す 64%が元の研究と同じ方向で有意、効果量は元の研究の68%の大きさ →ほぼすべての体系的な検討において再現性の課題が観測されている
  11. What replicates and what doesn’t? 11 ⚫ 再現される研究とされない研究の違いは何か? →理論的成熟度、元の研究の特徴、追試研究の特徴 ◼

    理論的成熟度 • 検証によって洗練された理論に基づく予測は再現性に関する事前確率が高い • 変数間の因果関係の詳細な説明 →明確な予測、補助仮説や境界条件の特定 ◼ 元の研究の特徴 • 効果発見の事前確率が低い仮説に基づく研究ほど、偽陽性率が高くなる ➢ 驚くべき結果をもつ研究の追試は再現成功率が低い(r = -.24: Open Science Collaboration, 2015) • 弱い統計的証拠に基づくオリジナルの研究結果は、強い証拠に基づく研究結果よりも再現 が難しい ➢ 元の研究のp値が低いほど、再現成功率が高い(r = -.33: Open Science Collaboration, 2015) • 透明性が低い研究は再現成功率が低い ◼ 追試研究の特徴 • 追試においても、サンプルサイズが小さい、コントロールが不十分、検定力不足といった 要因が問題になる • 複製の失敗が複製研究の欠点に起因するという主張(Baumeister, 2016; Baumeister & Vohs, 2016; Gilbert et al., 2016; Schnall, 2014; Schwarz & Strack, 2014; Shih & Pittinsky, 2014)
  12. Predicting replicability 12 ⚫ 再現可能性の予測 手間のかかる再現実験を行う前に、再現可能性を予測できれば便利だよね • アンケート調査(survey):再現が成功する可能性について個人の推定値を平均化 • 構造化された調査(Elicitations):個人判断→グループで共有→再度個人判断

    • 予測市場(Prediction Market):研究が再現されるかどうかお金を賭けてもらう • いずれの方法でも、予測値と観測され た再現成功率には正の相関があった (r's = 0.52 [prediction markets]、 0.48 [survey]、0.75 [elicitations]) • 論文中の統計量や本文から機械学習に よって再現成功率を予測する試みも行 われている(Altmejd et al., 2019; Yang et al., 2020)
  13. What degree of replicability should be expected? 13 • すでに十分に理解されている現象について極めて保守的な研究アプローチを

    採用すれば、再現成功率を100%に近づけることは可能だろう • しかし、そのようなアプローチでは研究の進展はほぼ0になり、知識の境界 は広がらない。 • 健全で理論的に発展性のある研究の営みには、再現されない知見も含まれる • ただし、再現性を高めるためのデザインや方法といった努力は常に必要
  14. Improving replicability 14 ◼ 手法の強度を高める 観察回数を増やす、適切な操作、妥当性検証 ◼ エラーを減らす より厳しい推論基準、事前登録と透明性の確保(p-hacking、HARKing、選択的報 告に対する予防)、頑健性の確認、クロスバリデーション

    ◼ 報告事項 証拠に対応した結論、一般化可能性の制約、データの事前観察やオーバー フィッティングの影響可能性 ◼ 研究プロセスの透明性 方法、材料、手順、データの共有、意思決定のタイミングや分析におけるデー タ依存性、隠れた知識、利益相反の明示 ◼ 構造的な転換 より厳密な研究手法を報酬・評価システムに組み込む、Registered Reports、 敵対的な共同研究、エラーを発見して公表する人たちの仕事を支援、「出版さ れること」よりも「正しいことをすること」に価値を置く文化
  15. Cultural, social, and individual challenges for improving replicability 15 ⚫

    社会的・構造的文脈 • 信頼性を犠牲にしてでも出版数を増やす方が評価されてキャリアアップにつながると いう現状 • 新規性のある研究のために他人の理論を使うことを避けていれば、再現性が検証され ないまま • 少数の十分なパワーのある研究よりも、多くのパワー不足の研究を実施する方が研究 者の利益になっている(Bakker et al., 2012) • 研究者が既存の知見に対して懐疑的かつ批判的な調査を行うことを妨げるような厳し い社会環境 • 社会的・構造的な改革によってより望ましい研究が評価されるようにしていくべき ⚫ 個人の文脈 • 「知的な謙虚さ」を受け入れる心構えを養うことが大切 • 推論バイアスが判断に影響を与える機会の緩和
  16. A changing research culture 16 ⚫ Psychology in 2021 is

    different from psychology in 2011. • 再現性や信頼性、そしてそれらを向上させる方法について、実質的なエビデンスを蓄積 してきた • 草の根レベルでの取り組みにより、規範を変え、トレーニングを行い、構造的な変化を 促進してきた • ジャーナルの編集者、資金提供者、リーダーたちは、インセンティブや要件を変更する ための新しいポリシーを採用してきた ⚫ 研究文化改革の戦略 • 厳密性、透明性、再現性への文化的変化を促進す ることを使命とした組織の戦略的な取り組み →Society for the Improvement of Psychological Science, Center for Open Science • Rogersの拡散モデル:新技術がイノベーターや アーリーアダプターによって最初に使用され、そ の後、主流に受け入れられていく • インフラやツールを提供→ユーザー中心のデザイ ン→コミュニティの活性化→インセンティブのサ ポート→ポリシー変更
  17. Evidence of change 17 ⚫ この10年間で登場したソリューション ◼ 事前登録や共有のツール • Open

    Science Framework(OSF; Soderberg, 2018) • AsPredicted ◼ 草の根コミュニティ • statcheck (Epskamp & Nuijten, 2018) • GRIM(Granularity Related Inconsistent Means; Brown & Heathers, 2017) • Society for Improving Psychological Science • Open Science Communities (Armeni et al., 2020) • National reproducibility networks (Munafò et al., 2020) ◼ 行動の可視性 • Psychological Science Accelerator (Moshontz et al., 2018) • ManyBabies (Byers-Heinlein et al, 2020) • オープンプラクティス・バッジ(Kidwell et al., 2016) ◼ 出版社、資金提供者、機関のポリシー変更 • Registered Reports(Chambers, 2019; Scheel et al., 2020) • TOP Guidelines(Nosek et al., 2015)
  18. Evidence of change 18 ⚫ 個人の変化の証拠 • 2019年に69の心理学科の全教員(N = 1,987)を分析したところ、35%がOSFアカウントを

    持っており、社会(57%)、量的(48%)、認知(42%)、臨床(19%)、教育・健康 (17%) • 2011年にはデータやコードを共有したのは約20%、事前登録を行ったのは約8%であったが、 2017年にはこれらの数字が51%と44%に上昇
  19. Evidence of change 19 ⚫ ジャーナルの変化の証拠 • TOP(Transparency and Openness

    Promotion)ガイド ライン:透明性と再現性に関連する10のポリ シー基準をまとめたもので,それぞれ3つのレベ ルに分けている(Nosek et al., 2015) • 10 の基準について,大部分のジャーナルが TOP に準拠したポリシーを採用していない • データソースの引用(36%)と報告ガイドライン の使用(36%)が多く,研究の事前登録(12%) と分析計画(13%)は少ない • 心理学分野最大の出版社であるAPA journalsは, 2021年末までにすべてのコアジャーナルを8つ の基準で少なくともTOPレベル1に移行させる意 向を示している(Center for Open Science, 2020) 変化を阻む構造的、文化的、社会的、個人的な障壁に 対処するためのさらなる作業が必要である
  20. What’s next? A metascience research and culture change agenda for

    accelerating psychological science 20 ⚫ 次の10年に向けた課題 • 再現性に関する10年間の研究は、次の10年間のメタサイエンス研究の材料となる 重要な問題を提起した(Hardwicke et al.2020; Zwaan et al.2018a) • 研究の成熟度が異なる段階での最適な再現成功率とは? • どうすれば進歩を最大化し、無駄を最小化できるのか(Lewandowsky & Oberauer, 2020; Shiffrin et al., 2018) • 累積的な科学を構築する上で、再現性はどのような役割を果たしているのか • 再現性と、測定、因果推論、理論、一般化可能性、応用可能性の関係性に関す る議論が必要 • 再現性を向上させるための介入は有効なのか? →更なる検証が必要 • 研究文化改革の取り組みの中で、何が成功/失敗しているのか Replicability and credibility challenges have been recognized for decades with little to no evidence of change. Now, things are changing. There is much more to do, but the hardest part is getting started. That part is done.