Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Replication crisis in psychology, and recent progress in resolving the “social dilemma”

Ken
September 15, 2018

Replication crisis in psychology, and recent progress in resolving the “social dilemma”

Ken

September 15, 2018
Tweet

More Decks by Ken

Other Decks in Research

Transcript

  1. Open Science Collaboration (2015, Science) 3  心理学のトップジャーナル3誌に2008年以降刊行され た100の研究を,世界各国の270人の研究者が追試 

    Psychological Science,Journal of Personality and Social Psychology,Journal of Experimental Psychology: Learning, Memory, and Cognition 元論文 追試 元論文 追試 p値 (p value) 効果量(effect size) 有意の割合 97%→36% 半減 doi: 10.1126/science.aac4716
  2. 経済学では? 5  “It is like a grade of B+

    for psychology versus A– for economics.” 経済学 心理学 Camerer et al. (2016). Evaluating replicability of laboratory experiments in economics. Science, 351, 1433-1436. doi: 10.1126/science.aaf0918
  3. 構造的な問題の一つとして, 統計的検定のあり方に再考が迫られた 6 ATLAS Collaboration (2012) Observation of a new

    particle in the search for the Standard Model Higgs boson with the ATLAS detector at the LHC Physics Letter B, 716, 1-29. http://dx.doi.org/10.1016/j.physletb.2012.08.020
  4. Bem (2011, J Pers Soc Psy)  どちらかのカーテンの背後には画像があり,どちらかには 何もない。画像がある方を当ててほしい 

    手続きを変えて実験を9個行い,うち8個で「有意な」結 果を得ているが,たとえば実験1は:  N=100, 1人あたり36試行  (性的な画像12試行, ネガティブな画像12試行, 中立画像12試行)  結果,性的な画像の時だけチャンスレベルを超える 53.1%の正答率 ( t(99)=2.51, p=.01, d=.25) 8
  5. Wagenmakers & Lee (2013, Cambridge U Press)  Bem (2011,

    JPSP)の論文は「統計的に有意になる までデータ収集を繰り返した」可能性がある 9 Bem (2011, JPSP)の実験1~9における効果量とサンプルサイズとの関係 サンプルサイズ 効果量 両者の相関係数 (の事後分布) (Lee & Wagenmakers, 2013 井関訳, 2017 ベイズ統計で実践モデリング 北大路書房) (南風原, 2002)
  6. Simmonsら(2011, Pscych Sci)の実験 11  ペンシルバニア大学の2034名の学生に,“When I’m sixty- four”または”Kalimba”または”Hot Potato”を聴かせた。参加

    者10名が集まるごとに統計解析を実行した。事前にデータ 収集をどのタイミングで終えるのかについては決めていな かった。さらに,無関係な別の課題として,本人の生年月 日に加えて,何歳ぐらいだと自分で感じているか,食事が 楽しいと感じる程度,100の平方根,”コンピュータは複雑 な機械だ”と思う程度,父親の年齢,母親の年齢,早期割 引を使うかどうか,政治的志向,カナダ人クォーターバッ クのうち誰が賞をとると考えているか,昔のことを”古き よき日々”だと感じる程度,そして性別を尋ねた。参加者 のばらつきを統制するために,父親の年齢を使用した。….  結果,“When I’m sixty-four”群はKalimba”群よりも年齢が 有意に若かった。この曲を聴くと若返る??? Simmons, Nelson, & Simonsohn (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366. doi: 10.1177/0956797611417632 樋口匡貴・藤島喜嗣(2018).アスタリスク~真実の石を求め(すぎ)て ヒューマンインタフェース学会誌,20, 12–16. https://osf.io/zua7d
  7. Simmonsら(2011, Pscych Sci)の実験 12  ペンシルバニア大学の2034名の学生に,“When I’m sixty- four”または”Kalimba”または”Hot Potato”を聴かせた。参加

    者10名が集まるごとに統計解析を実行した。事前にデータ 収集をどのタイミングで終えるのかについては決めていな かった。さらに,無関係な別の課題として,本人の生年月 日に加えて,何歳ぐらいだと自分で感じているか,食事が 楽しいと感じる程度,100の平方根,”コンピュータは複雑 な機械だ”と思う程度,父親の年齢,母親の年齢,早期割 引を使うかどうか,政治的志向,カナダ人クォーターバッ クのうち誰が賞をとると考えているか,昔のことを”古き よき日々”だと感じる程度,そして性別を尋ねた。参加者 のばらつきを統制するために,父親の年齢を使用した。….  結果,“When I’m sixty-four”群はKalimba”群よりも年齢が 有意に若かった。この曲を聴くと若返る??? Simmons, Nelson, & Simonsohn (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366. doi: 10.1177/0956797611417632 樋口匡貴・藤島喜嗣(2018)アスタリスク~真実の石を求め(すぎ)て ヒューマンインタフェース学会誌,20, 12–16. https://osf.io/zua7d
  8. p-hacking  心理学の研究論文における(従来において)一般的な 報告の基準を満たしつつ,p値を小さくすることを意 図する操作  結果を見ながら参加者を少しずつ足して検定を繰 り返し,有意になったところでとめる  多くの説明変数・共変量を用いて分析を行い,有

    意になったものだけを報告する  行った条件や測定した変数の一部だけを報告する  p値を切り捨てて報告する などなど  従来の研究慣習において,論文中に書かれない研究者 の自由度(researchers’ degrees of freedom)が大きいこ とによる 13
  9. Masicampo & Lalande (2012, Quart J Exp Psych)  Journal

    of Experimental Psychology: General, Journal of Personality and Social Psychology,Psychological Science の3 誌で2007年から2008 年の間に報告された p値を集計 14
  10. Legget et al. (2013, Quart J Exp Psych) 15 

    2誌における1965年と2005年の比較
  11. p値についてのアメリカ統計学会声明 (2016)  p値は何でないか?  0 が正しい確率ではない  データが偶然得られた確率ではない 

    科学的もしくは実社会の決定は,統計的有意性の みに基づいて行われるべきではない  有意になったもののみだけでなく,すべての結果 を報告する透明性が必要  p値や有意性は,効果の大きさや結果の重要性を表 すわけではない  p値だけでは,モデルや仮説についてのエビデンス のよい指標とはならない 19 岡田謙介 (2017) ASA声明とこれからの統計学の使われ方. 社会と調査,19, 88-93. 日本計量生物学会による翻訳 http://www.biometrics.gr.jp/news/all/ASA.pdf
  12. QRPs (Questionable Research Practices)  有意になるまでサンプルサイズを増加させる  測定・分析した変数のうち一部だけを報告する  結果を見てから作った仮説を,あたかもデータ収集前

    からあったかのように報告する(HARKing; Hypothesizing After the Results are Known) といった,現代の観点からは問題のある研究・報告にお ける実践のこと  第1種の誤りの確率を増加させてしまう  Bem (1987)などに見られるように,以前は問題な いと認識されていたり,むしろ推奨されてさえい たりした(池田・平石, 2016) 20 (John, Loewenstein, & Prele, 2012) John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23, 524–532. doi: 10.1177/0956797611430953 池田功毅・平石界 (2016). 心理学における再現可能性危機:問題の構造と解決策. 心理学評論, 59, 3-14.
  13. QRPs (Questionable Research Practices) 21 (John, Loewenstein, & Prele, 2012)

    John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23, 524–532. doi: 10.1177/0956797611430953 池田功毅・平石界 (2016). 心理学における再現可能性危機:問題の構造と解決策. 心理学評論, 59, 3-14.
  14. 心的回転 (Shepard & Metzler, 1971, Science)を例に 22 仮説検定・p値だけが問題ではない Okada, K.

    & Hoshino, T., (2017). Researchers’ choice of the number and range of levels in experiments affects the resultant variance-accounted-for effect size. Psychonomic Bulletin & Review, 24, 607-616. https://doi.org/10.3758/s13423-016-1128-0 (Okada & Hoshino, 2017)
  15.  図形の回転角度(要因,独立変数)が,反応時間(従 属変数)にあたえる影響を調べる  要因の効果の大きさを分散 説明率の効果量2で評価する  実験用プログラムでは0度 と60度が回転角度の既定値 (水準の範囲)となっている

     回転角度と反応時間は線形  水準数を増やす場合には範 囲内で水準の等間隔性を保つ 問1 期待される効果量2を大きくするためには,研究者 は実験の水準数を増やすべきか? 問2 水準の範囲も操作できる(上限を60度から変更でき る)ときならどうか? 23 要因の分散 2 誤差分散 2 効果量2 = 2 2 + 2 Okada, K. & Hoshino, T., (2017). Researchers’ choice of the number and range of levels in experiments affects the resultant variance-accounted-for effect size. Psychonomic Bulletin & Review, 24, 607-616. https://doi.org/10.3758/s13423-016-1128-0
  16.  実験水準数の操作だけで,分散説明率の効果量の期待値 を何倍にもできる;つまり,「効果量ハッキング」もで きてしまう。  1つの基準だけに大きく依存してしまうことの問題 効果量ハッキング(effect-size hacking) 24 実験の水準数

    効果量 の期待値 Okada, K. & Hoshino, T., (2017). Researchers’ choice of the number and range of levels in experiments affects the resultant variance-accounted-for effect size. Psychonomic Bulletin & Review, 24, 607-616. https://doi.org/10.3758/s13423-016-1128-0
  17. 再現性の問題は社会的ジレンマ  再現性の問題は,「しくみの問題」という側面がある  “Publish or Perish”の世界で,とくに若手研究者に とっては,従来の研究慣習上,不正とは言えない 程度の操作(p-hackingやHARKing)で「新規な」 論文が出版できれば評価につながる

     逆に,追試研究は新規性に乏しいために評価され ず,論文としても出版されにくかった  社会的ジレンマ:研究者個々人が「合理的な」行動を とると,研究コミュニティ全体にとって望ましくない 結果になる(再現できない結果が増え,研究界への信 頼が揺らぐ)  ジレンマ解消のためには新しい「しくみ」が必要 25 Everett & Earp (2015). A tragedy of the (academic) commons: interpreting the replication crisis in psychology as a social dilemma for early-career researchers. Frontiers in Psychology, 6:1152. doi: 10.3389/fpsyg.2015.01152 (Everett & Earp, 2015)
  18. 新しい研究のしくみ  オープンデータ・オープンマテリアル:生データや研 究素材(調査票,実験刺激等)の公開を評価・出版する  研究の透明性を上げ,QPRsの可能性を減らす  事前登録された研究を評価・出版する  再現研究を評価・出版する

     有意性検定・p値への過度な依存をやめる  Basic and Applied Social Psychology誌:検定・p値 の報告を禁止(2015)  ベイズ統計学の再評価  オープンサイエンスを実践する研究は,出版以外にも, たとえば被引用数の増加という形で著者にもメリット がある 26
  19. ベイズ的t検定 (Rouder et al., 2009) 27 データ = {−1.7, 1.6,

    0.3, −0.5, 0.3, 0.2, −0.2, −0.9, 0.8, 0.5} 図: 岡田謙介(2018)ベイズファクターによる心理学的仮説・モデルの評価 心理学評論,61, 101-115. http://team1mile.com/sjpr61-1/okada.pdf Rouder et al. (2009) Bayesian t tests for accepting and rejecting the null hypothesis. Psychonomic Bulletin & Review, 16, 225-237. https://doi.org/10.3758/PBR.16.2.225 27
  20.  事前の検定力分析・標本サイズ決定方式・効果量と 95%信頼区間の報告などを推奨  補正のない多重検定の禁止  結果を見てデータ収集を停止すること,収集した項 目・データのうち一部だけ報告することの禁止  方法・結果についての字数制限の撤廃

     データ公開,マテリアル公開,教示等の正確な報告  帰無仮説検定以外の統計分析の受け入れ  事前登録,追試の推奨 などなど 主要学会・論文誌の対応 28 (池田・平石, 2016) 池田功毅・平石界 (2016). 心理学における再現可能性危機:問題の構造と解決策. 心理学評論, 59, 3-14.
  21. 研究の事前登録(pre-registration)  仮説  方法  デザイン(独立変数・従属変数・共変量)  サンプル・除外基準 

    分析計画  用いる変数  統計分析法 31 van't Veer & Giner-Sorolla (2016). Pre-registration in social psychology—A discussion and suggested template. Journal of Experimental Social Psychology, 67, 2-12. https://doi.org/10.1016/j.jesp.2016.03.004 https://osf.io/t6m9v/
  22. 和文誌の動き  心理学の和文誌では厳しいページ数制限があることが 多く,再現可能性を高めるために詳細な記述を求める 動きとは矛盾する  査読が必要以上に厳しくなってしまう一因ではないか ↔ 方法・結果のセクションは文字数にカウントしな い(英文誌に多くみられる)

     紙での出版を基準とする限り費用負担との問題が生じ てしまうが,オンライン公開を活用すればOpen Science Framework やJ-STAGE電子付録(追加費用な し)が利用できる  「著者Webページで公開」の例もあるが,URL変更 の可能性や透明性(変更履歴が残る)の観点から 外部Webサイトが望ましい 38
  23. 和文誌の動き  『基礎心理学研究』誌  J-STAGE上の機能を利用して,2016年より,電子付録 (supplementary material)の掲載可に (村上, 2017) 

    『実験社会心理学研究』誌  2017年より「研究に用いた調査票,動画,音声,高解 像度の写真,ローデータなど,本文と図表に含めるの は困難な資料や,審査の際に有用な資料を,付録とし て添付することができる」(三浦, 2018)  『パーソナリティ研究』  再現性問題に関するエディトリアル準備中,追試研 究・事前登録研究の掲載を検討中(渡邊, 2018)  『心理学研究』 電子付録coming soon…? 39 村上郁也(2017). 学会誌『基礎心理学研究』改善に向けての取り組み. 基礎心理学研究, 36, 1-2. https://doi.org/10.14947/psychono.36.9 三浦麻子(2018). 心理学におけるオープンサイエンス 心理学評論, 61, 3-12. http://team1mile.com/sjpr61-1/miura.pdf 渡邊芳之(2018). 和文学会誌は再現性問題にどのように立ち向かうか. 2018年度第1回基礎心理学フォーラム https://researchmap.jp/?action=cv_download_main&upload_id=162978
  24. 「再現性」の構成要素  再生性(reproducibility):他の研究者が,同じデー タで同じ分析をして同じ結果を出せること  再現性(replicability):他の研究者が,同じ研究方法 による研究を行って同じ結果を出せること  頑健性(robustness):異なる条件・サンプルで同種 の研究をして同じ結論に辿りつけること

     一般化可能性(generalizability):大きく異なる設 定・文脈下で同じ結論に辿りつけること 40 Vandekerckhove et al. (2018). Robust tests of theory with randomly sampled experiments. MathPsych 2018 https://osf.io/azh38/ Baribault et al. (2018). Metastudies for robust tests of theory. Proceedings of the National Academy of Sciences, in press. https://doi.org/10.1073/pnas.1708285114 Plesser (2018). Reproducibility vs. Replicability: A Brief History of a Confused Terminology. Frontiers in Neuroinformatics. 11:76. doi: 10.3389/fninf.2017.00076
  25. まとめ  心理学は再現性の危機を経験した  QPRsが蔓延していた背景には,研究の実施と評価に おける「しくみ」の問題があった  心理学研究への信頼を取り戻すには,コミュニティ としての対応が必要 

    研究の再現性を高める「新しいしくみ」が広がっている  オープンサイエンス  研究の事前登録  再現研究の評価  論文出版基準の改め  R Markdownによる再現可能な分析・報告 45