Replication crisis in psychology, and recent progress in resolving the “social dilemma”

心理学における再現性の問題と「社会的ジレンマ」の解決へ向けて東京大学教育学研究科岡田謙介 ([email protected]) 1 日本教育心理学会第60回総会（慶應義塾大学）準備委員会企画チュートリアルセミナー Sep
15, 2018

 心理学研究の再現性が必ずしも高くないことが問題に再現性の危機 replication crisis 2 画像出典：http://projects.iq.harvard.edu/psychology-replications

Open Science Collaboration (2015, Science) 3  心理学のトップジャーナル3誌に2008年以降刊行された100の研究を，世界各国の270人の研究者が追試 
Psychological Science，Journal of Personality and Social Psychology，Journal of Experimental Psychology: Learning, Memory, and Cognition 元論文追試元論文追試 p値 (p value) 効果量(effect size) 有意の割合 97%→36% 半減 doi: 10.1126/science.aac4716

 https://osf.io/ezcuj/wiki/home/ 4 https://osf.io/ezcuj/wiki/home/ Open Science Collaboration (2015, Science) doi:
10.1126/science.aac4716

経済学では？ 5  “It is like a grade of B+
for psychology versus A– for economics.” 経済学心理学 Camerer et al. (2016). Evaluating replicability of laboratory experiments in economics. Science, 351, 1433-1436. doi: 10.1126/science.aaf0918

構造的な問題の一つとして，統計的検定のあり方に再考が迫られた 6 ATLAS Collaboration (2012) Observation of a new
particle in the search for the Standard Model Higgs boson with the ATLAS detector at the LHC Physics Letter B, 716, 1-29. http://dx.doi.org/10.1016/j.physletb.2012.08.020

大きな話題になった研究 7 psiとは，既知の物理学的もしくは生物学的メカニズムでは説明できない，特異な情報やエネルギーの伝達過程を指す。

Bem (2011, J Pers Soc Psy)  どちらかのカーテンの背後には画像があり，どちらかには何もない。画像がある方を当ててほしい 
手続きを変えて実験を9個行い，うち8個で「有意な」結果を得ているが，たとえば実験1は：  N=100, 1人あたり36試行  (性的な画像12試行, ネガティブな画像12試行, 中立画像12試行)  結果，性的な画像の時だけチャンスレベルを超える 53.1%の正答率 ( t(99)=2.51, p=.01, d=.25) 8

Wagenmakers & Lee (2013, Cambridge U Press)  Bem (2011,
JPSP)の論文は「統計的に有意になるまでデータ収集を繰り返した」可能性がある 9 Bem (2011, JPSP)の実験1～9における効果量とサンプルサイズとの関係サンプルサイズ効果量両者の相関係数 (の事後分布) (Lee & Wagenmakers, 2013 井関訳, 2017 ベイズ統計で実践モデリング北大路書房) （南風原, 2002）

再現失敗の報告が相次ぐ 10

Simmonsら(2011, Pscych Sci)の実験 11  ペンシルバニア大学の2034名の学生に，“When I’m sixty- four”または”Kalimba”または”Hot Potato”を聴かせた。参加
者10名が集まるごとに統計解析を実行した。事前にデータ収集をどのタイミングで終えるのかについては決めていなかった。さらに，無関係な別の課題として，本人の生年月日に加えて，何歳ぐらいだと自分で感じているか，食事が楽しいと感じる程度，100の平方根，”コンピュータは複雑な機械だ”と思う程度，父親の年齢，母親の年齢，早期割引を使うかどうか，政治的志向，カナダ人クォーターバックのうち誰が賞をとると考えているか，昔のことを”古きよき日々”だと感じる程度，そして性別を尋ねた。参加者のばらつきを統制するために，父親の年齢を使用した。….  結果，“When I’m sixty-four”群はKalimba”群よりも年齢が有意に若かった。この曲を聴くと若返る？？？ Simmons, Nelson, & Simonsohn (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366. doi: 10.1177/0956797611417632 樋口匡貴・藤島喜嗣（2018）.アスタリスク～真実の石を求め（すぎ）てヒューマンインタフェース学会誌，20, 12–16． https://osf.io/zua7d

Simmonsら(2011, Pscych Sci)の実験 12  ペンシルバニア大学の2034名の学生に，“When I’m sixty- four”または”Kalimba”または”Hot Potato”を聴かせた。参加
者10名が集まるごとに統計解析を実行した。事前にデータ収集をどのタイミングで終えるのかについては決めていなかった。さらに，無関係な別の課題として，本人の生年月日に加えて，何歳ぐらいだと自分で感じているか，食事が楽しいと感じる程度，100の平方根，”コンピュータは複雑な機械だ”と思う程度，父親の年齢，母親の年齢，早期割引を使うかどうか，政治的志向，カナダ人クォーターバックのうち誰が賞をとると考えているか，昔のことを”古きよき日々”だと感じる程度，そして性別を尋ねた。参加者のばらつきを統制するために，父親の年齢を使用した。….  結果，“When I’m sixty-four”群はKalimba”群よりも年齢が有意に若かった。この曲を聴くと若返る？？？ Simmons, Nelson, & Simonsohn (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366. doi: 10.1177/0956797611417632 樋口匡貴・藤島喜嗣（2018）アスタリスク～真実の石を求め（すぎ）てヒューマンインタフェース学会誌，20, 12–16． https://osf.io/zua7d

p-hacking  心理学の研究論文における（従来において）一般的な報告の基準を満たしつつ，p値を小さくすることを意図する操作  結果を見ながら参加者を少しずつ足して検定を繰り返し，有意になったところでとめる  多くの説明変数・共変量を用いて分析を行い，有
意になったものだけを報告する  行った条件や測定した変数の一部だけを報告する  p値を切り捨てて報告するなどなど  従来の研究慣習において，論文中に書かれない研究者の自由度(researchers’ degrees of freedom)が大きいことによる 13

Masicampo & Lalande (2012, Quart J Exp Psych)  Journal
of Experimental Psychology: General, Journal of Personality and Social Psychology，Psychological Science の3 誌で2007年から2008 年の間に報告された p値を集計 14

Legget et al. (2013, Quart J Exp Psych) 15 
2誌における1965年と2005年の比較

古くて新しい問題 1986年教育心理学年報 16 https://doi.org/10.5926/arepj1962.25.0_25

p値についてのアメリカ統計学会声明 (2016)  「 17 177年のASAの歴史の中で，統計学の基盤的論点について学会が明示的な推奨提示を行ったのは初めて

p値についてのアメリカ統計学会声明 (2016)  p値は何であるか？  0 のもとで，検定統計量が今回データから得られた観測データ以上に極端な，つまり0 と整合的でない方向のものになる確率
 0 からの逸脱の程度を示す 18 岡田謙介 (2017) ASA声明とこれからの統計学の使われ方. 社会と調査，19, 88-93.

p値についてのアメリカ統計学会声明 (2016)  p値は何でないか？  0 が正しい確率ではない  データが偶然得られた確率ではない 
科学的もしくは実社会の決定は，統計的有意性のみに基づいて行われるべきではない  有意になったもののみだけでなく，すべての結果を報告する透明性が必要  p値や有意性は，効果の大きさや結果の重要性を表すわけではない  p値だけでは，モデルや仮説についてのエビデンスのよい指標とはならない 19 岡田謙介 (2017) ASA声明とこれからの統計学の使われ方. 社会と調査，19, 88-93. 日本計量生物学会による翻訳 http://www.biometrics.gr.jp/news/all/ASA.pdf

QRPs (Questionable Research Practices)  有意になるまでサンプルサイズを増加させる  測定・分析した変数のうち一部だけを報告する  結果を見てから作った仮説を，あたかもデータ収集前
からあったかのように報告する（HARKing; Hypothesizing After the Results are Known）といった，現代の観点からは問題のある研究・報告における実践のこと  第１種の誤りの確率を増加させてしまう  Bem (1987)などに見られるように，以前は問題ないと認識されていたり，むしろ推奨されてさえいたりした（池田・平石, 2016） 20 (John, Loewenstein, & Prele, 2012) John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23, 524–532. doi: 10.1177/0956797611430953 池田功毅・平石界 (2016). 心理学における再現可能性危機：問題の構造と解決策. 心理学評論, 59, 3-14.

QRPs (Questionable Research Practices) 21 (John, Loewenstein, & Prele, 2012)
John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23, 524–532. doi: 10.1177/0956797611430953 池田功毅・平石界 (2016). 心理学における再現可能性危機：問題の構造と解決策. 心理学評論, 59, 3-14.

心的回転 (Shepard & Metzler, 1971, Science）を例に 22 仮説検定・p値だけが問題ではない Okada, K.
& Hoshino, T., (2017). Researchers’ choice of the number and range of levels in experiments affects the resultant variance-accounted-for effect size. Psychonomic Bulletin & Review, 24, 607-616. https://doi.org/10.3758/s13423-016-1128-0 (Okada & Hoshino, 2017)

 図形の回転角度（要因，独立変数）が，反応時間（従属変数）にあたえる影響を調べる  要因の効果の大きさを分散説明率の効果量2で評価する  実験用プログラムでは0度と60度が回転角度の既定値（水準の範囲）となっている
 回転角度と反応時間は線形  水準数を増やす場合には範囲内で水準の等間隔性を保つ問1 期待される効果量2を大きくするためには，研究者は実験の水準数を増やすべきか？問2 水準の範囲も操作できる（上限を60度から変更できる）ときならどうか？ 23 要因の分散 2 誤差分散 2 効果量2 = 2 2 + 2 Okada, K. & Hoshino, T., (2017). Researchers’ choice of the number and range of levels in experiments affects the resultant variance-accounted-for effect size. Psychonomic Bulletin & Review, 24, 607-616. https://doi.org/10.3758/s13423-016-1128-0

 実験水準数の操作だけで，分散説明率の効果量の期待値を何倍にもできる；つまり，「効果量ハッキング」もできてしまう。  1つの基準だけに大きく依存してしまうことの問題効果量ハッキング(effect-size hacking) 24 実験の水準数
効果量の期待値 Okada, K. & Hoshino, T., (2017). Researchers’ choice of the number and range of levels in experiments affects the resultant variance-accounted-for effect size. Psychonomic Bulletin & Review, 24, 607-616. https://doi.org/10.3758/s13423-016-1128-0

再現性の問題は社会的ジレンマ  再現性の問題は，「しくみの問題」という側面がある  “Publish or Perish”の世界で，とくに若手研究者にとっては，従来の研究慣習上，不正とは言えない程度の操作（p-hackingやHARKing）で「新規な」論文が出版できれば評価につながる
 逆に，追試研究は新規性に乏しいために評価されず，論文としても出版されにくかった  社会的ジレンマ：研究者個々人が「合理的な」行動をとると，研究コミュニティ全体にとって望ましくない結果になる（再現できない結果が増え，研究界への信頼が揺らぐ）  ジレンマ解消のためには新しい「しくみ」が必要 25 Everett & Earp (2015). A tragedy of the (academic) commons: interpreting the replication crisis in psychology as a social dilemma for early-career researchers. Frontiers in Psychology, 6:1152. doi: 10.3389/fpsyg.2015.01152 (Everett & Earp, 2015)

新しい研究のしくみ  オープンデータ・オープンマテリアル：生データや研究素材(調査票，実験刺激等)の公開を評価・出版する  研究の透明性を上げ，QPRsの可能性を減らす  事前登録された研究を評価・出版する  再現研究を評価・出版する
 有意性検定・p値への過度な依存をやめる  Basic and Applied Social Psychology誌：検定・p値の報告を禁止(2015)  ベイズ統計学の再評価  オープンサイエンスを実践する研究は，出版以外にも，たとえば被引用数の増加という形で著者にもメリットがある 26

ベイズ的t検定 (Rouder et al., 2009) 27 データ = {−1.7, 1.6,
0.3, −0.5, 0.3, 0.2, −0.2, −0.9, 0.8, 0.5} 図: 岡田謙介(2018)ベイズファクターによる心理学的仮説・モデルの評価心理学評論，61, 101-115. http://team1mile.com/sjpr61-1/okada.pdf Rouder et al. (2009) Bayesian t tests for accepting and rejecting the null hypothesis. Psychonomic Bulletin & Review, 16, 225-237. https://doi.org/10.3758/PBR.16.2.225 27

 事前の検定力分析・標本サイズ決定方式・効果量と 95%信頼区間の報告などを推奨  補正のない多重検定の禁止  結果を見てデータ収集を停止すること，収集した項目・データのうち一部だけ報告することの禁止  方法・結果についての字数制限の撤廃
 データ公開，マテリアル公開，教示等の正確な報告  帰無仮説検定以外の統計分析の受け入れ  事前登録，追試の推奨などなど主要学会・論文誌の対応 28 (池田・平石, 2016) 池田功毅・平石界 (2016). 心理学における再現可能性危機：問題の構造と解決策. 心理学評論, 59, 3-14.

 プロジェクト Open Science Framework Initiative for Open Science 29
https://osf.io/ https://opennessinitiative.org/

30 三浦麻子(2018)心理学におけるオープンサイエンス心理学評論, 61, 3-12. http://team1mile.com/sjpr61-1/miura.pdf

研究の事前登録(pre-registration)  仮説  方法  デザイン（独立変数・従属変数・共変量）  サンプル・除外基準 
分析計画  用いる変数  統計分析法 31 van't Veer & Giner-Sorolla (2016). Pre-registration in social psychology—A discussion and suggested template. Journal of Experimental Social Psychology, 67, 2-12. https://doi.org/10.1016/j.jesp.2016.03.004 https://osf.io/t6m9v/

毎日いくつもの新しい事前登録が行われている 32 岡田謙介 (2017) ASA声明とこれからの統計学の使われ方. 社会と調査，19, 88-93. https://osf.io/activity/#newPublicRegistrations

例：Open Science Collaboration (2015, Science)の追試データ・プロトコル 33 https://osf.io/ezcuj/

事前登録による再現研究用の論文カテゴリ 34 三浦麻子(2015) 心理学研究の「常識」が変わる ? ─ 心理学界における再現可能性問題への取り組み心理学ワールド, 68, 9-12.
https://psych.or.jp/wp-content/uploads/old/68-9-12.pdf

事前登録による再現研究用の論文カテゴリ 35 https://doi.org/10.1177/2515245918781032 https://doi.org/10.1177/2515245918777487

36 https://rcos.nii.ac.jp/service/rdm/

再現研究・データ公開の推奨 37

和文誌の動き  心理学の和文誌では厳しいページ数制限があることが多く，再現可能性を高めるために詳細な記述を求める動きとは矛盾する  査読が必要以上に厳しくなってしまう一因ではないか ↔ 方法・結果のセクションは文字数にカウントしない（英文誌に多くみられる）
 紙での出版を基準とする限り費用負担との問題が生じてしまうが，オンライン公開を活用すればOpen Science Framework やJ-STAGE電子付録（追加費用なし）が利用できる  「著者Webページで公開」の例もあるが，URL変更の可能性や透明性（変更履歴が残る）の観点から外部Webサイトが望ましい 38

和文誌の動き  『基礎心理学研究』誌  J-STAGE上の機能を利用して，2016年より，電子付録（supplementary material）の掲載可に (村上, 2017) 
『実験社会心理学研究』誌  2017年より「研究に用いた調査票，動画，音声，高解像度の写真，ローデータなど，本文と図表に含めるのは困難な資料や，審査の際に有用な資料を，付録として添付することができる」(三浦, 2018)  『パーソナリティ研究』  再現性問題に関するエディトリアル準備中，追試研究・事前登録研究の掲載を検討中（渡邊, 2018）  『心理学研究』電子付録coming soon…？ 39 村上郁也(2017). 学会誌『基礎心理学研究』改善に向けての取り組み. 基礎心理学研究, 36, 1-2. https://doi.org/10.14947/psychono.36.9 三浦麻子(2018). 心理学におけるオープンサイエンス心理学評論, 61, 3-12. http://team1mile.com/sjpr61-1/miura.pdf 渡邊芳之(2018). 和文学会誌は再現性問題にどのように立ち向かうか. 2018年度第1回基礎心理学フォーラム https://researchmap.jp/?action=cv_download_main&upload_id=162978

「再現性」の構成要素  再生性（reproducibility）：他の研究者が，同じデータで同じ分析をして同じ結果を出せること  再現性（replicability）：他の研究者が，同じ研究方法による研究を行って同じ結果を出せること  頑健性（robustness）：異なる条件・サンプルで同種の研究をして同じ結論に辿りつけること
 一般化可能性（generalizability）：大きく異なる設定・文脈下で同じ結論に辿りつけること 40 Vandekerckhove et al. (2018). Robust tests of theory with randomly sampled experiments. MathPsych 2018 https://osf.io/azh38/ Baribault et al. (2018). Metastudies for robust tests of theory. Proceedings of the National Academy of Sciences, in press. https://doi.org/10.1073/pnas.1708285114 Plesser (2018). Reproducibility vs. Replicability: A Brief History of a Confused Terminology. Frontiers in Neuroinformatics. 11:76. doi: 10.3389/fninf.2017.00076

『再現可能性のすゝめ』(高橋, 2018) 41  本書ではRStudioとRマークダウンについての解説を通して，再現性と信頼性を高め効率を上げるような「データ解析とレポート作成というプロセス」について解説している。データ解析に携わるすべての人に，再現可能性の意義を学び，RStudioとRマークダウンによる再現可能なデータ解析とレポート作成を日々の習
慣としてほしい。

再現可能なデータ分析とレポート(論文)作成  従来の研究の流れ  新しい研究の流れ  心理学教育への取り入れを：研究の再現性を高めるための取り組みは，「現場」の学生・大学院生が実践できてこそ意義が大きい
42 図：高橋康介(2018) 『再現可能性のすゝめ』共立出版図1.1,1.6

R Markdownの実例（コードの一部） 43 http://blogs.nature.com/scientificdata/2016/03/08/call-for-submissions-replication-data/

R Markdownの実例（実行結果） 44 http://blogs.nature.com/scientificdata/2016/03/08/call-for-submissions-replication-data/

まとめ  心理学は再現性の危機を経験した  QPRsが蔓延していた背景には，研究の実施と評価における「しくみ」の問題があった  心理学研究への信頼を取り戻すには，コミュニティとしての対応が必要 
研究の再現性を高める「新しいしくみ」が広がっている  オープンサイエンス  研究の事前登録  再現研究の評価  論文出版基準の改め  R Markdownによる再現可能な分析・報告 45

心理学評論再現性特集号(2016) 46  「これらの問題に対する関心は今に始まったことではないが，ここ数年，研究者の側もこれらに対して自覚的になってきたというのも事実だ。そこで，再現可能性，統計の問題，QRPsから研究不正まで，という相互に密接に関連しあうこれらの問題に対する現状の認識と展望について，忌憚のない議論を進めるべく本特集号を企画した。」（友永・三浦・針生,
2016, 巻頭言） https://www.jstage.jst.go.jp/browse/sjpr/59/1/_contents/-char/ja 統計学的観点をとくに扱っているのは池田・平石(2016) 大久保(2016) 三中(2016)

47 http://team1mile.com/sjpr61-1/  「本特集号の目的は，統計革命とでも名付けうるような，心理学のデータ解析における新しい潮流について，この特集号を読めばその概略がある程度は把握できるような見取り図を提示することである。その 3 本の柱は，ベイズ統計モデリング，モデル評価，そしてオープンサイエンスである。」
（三浦・岡田・清水, 2018, 巻頭言）

48 https://www.slideshare.net/daikihojo/osfpsyarxiv https://www.slideshare.net/ YoshihikoKunisato/ss-77835559 https://www.slideshare.net/ okumurayasuyuki/ss-38903399 https://www.slideshare.net/ kohske/rrstudior-markdown

49 https://www.slideshare.net/ kokiikeda/ss-100062357 https://github.com/asarin1003/mypresen tations/blob/master/20180915EC2018.pdf https://www.slideshare.net/KojiKosugi/ 20180602kosugi https://researchmap.jp/?action= cv_download_main&upload_id=162978

Replication crisis in psychology, and recent pr...

Replication crisis in psychology, and recent progress in resolving the “social dilemma”

More Decks by Ken

Other Decks in Research

Featured

Transcript