Slide 1

Slide 1 text

再現性問題における統計学的 論点と, その解決に向けて 東京大学 教育学研究科 岡田 謙介 ([email protected]) 1 日本発達心理学会・他学会等共催シンポジウム 「今そこにある危機:再現可能性問題をめぐる現状と展望」 Mar 19, 2019 ○○○○○

Slide 2

Slide 2 text

p値についてのアメリカ統計学会声明 (2016)  「 2 再現性の問題が大きな契機: “The statistical community has been deeply concerned about issues of reproducibility and replicability of scientific conclusions” 177年の学会の歴史の中でも初の出来事

Slide 3

Slide 3 text

p値についてのアメリカ統計学会声明 (2016)  帰無仮説0 のもとで検定統計量が今回データから 得られた観測データ以上に極端な,つまり0 と整 合的でない方向のものになる確率; 0 からの逸脱 の程度を表す  0 が正しい確率ではない  データが偶然得られた確率ではない  科学的もしくは実社会の決定は,統計的有意性の みに基づいて行われるべきではない  有意になったもののみだけでなく,すべての結果 を報告する透明性が必要  p値や有意性は,効果の大きさや結果の重要性を表 すわけではない  p値だけでは,モデルや仮説についてのエビデンス のよい指標とはならない 3 岡田謙介 (2017). ASA声明とこれからの統計学の使われ方. 社会と調査,19, 88-93. 日本計量生物学会による翻訳 http://www.biometrics.gr.jp/news/all/ASA.pdf 何で ある か 何で ない か

Slide 4

Slide 4 text

帰無仮説検定の枠組み 4 真実 H0 H1 意思決定 H0 正しい意思決定 (確率1 − = .95) 第2種の誤り (確率) H1 第1種の誤り (確率 = .05) 正しい意思決定 (確率1 − ;検定力)  検定の前提が満たされていれば(例:H0 ,H1 やサ ンプルサイズがデータをとる前に定まっている) 第1種の誤りの確率はに抑えられる  しかし...

Slide 5

Slide 5 text

 前提の軽視,「p<.05」が過度に重視 「結果を見てのN増し」に代表されるQRPsが蔓延  測定する変数が多数 → 「有意になったものだけ報告」が行われやすい  測定誤差が大きく,効果量が小さい 本来よりも大きな効果や逆の効果が報告されやすい 検定の使われ方に由来する問題 5 第1種の誤りの確率が名目値より大幅に上昇 偽陽性(false-positive; 本来ない効果を 「見出して」しまう) の多発 再現性の危機

Slide 6

Slide 6 text

とその解決策  前提の軽視,「p<.05」が過度に重視 「結果を見てのN増し」に代表されるQRPsが蔓延  測定する変数が多数 → 「有意になったものだけ報告」が行われやすい ☆オルタナティヴな視点の導入 (効果量,ベイズ,モデリング...) ☆測定の改善(被験者内計画,...) ☆ オープンサイエンス  測定誤差が大きく,効果量が小さい 本来よりも大きな効果や逆の効果が報告されやすい ☆ 新たな視点の導入 (効果量,ベイズ,モデリング...) ☆ 測定の改善(被験者内計画,...) ☆ オープンサイエンス 検定の使われ方に由来する問題 6 ☆ 階層ベイズモデリング

Slide 7

Slide 7 text

 前提の軽視,「p<.05」が過度に重視 「結果を見てのN増し」に代表されるQRPsが蔓延  測定する変数が多数 → 「有意になったものだけ報告」が行われやすい ☆オルタナティヴな視点の導入 (効果量,ベイズ,モデリング...) ☆測定の改善(被験者内計画,...) ☆ オープンサイエンス  測定誤差が大きく,効果量が小さい 本来よりも大きな効果や逆の効果が報告されやすい 検定の使われ方に由来する問題 7 ●○○○○

Slide 8

Slide 8 text

8 被引用数3,357 (Mar 18, 2019)

Slide 9

Slide 9 text

Simmons et al. (2011, Psych Sci) の実験 9  ペンシルバニア大学の2034名の学生に,“When I’m sixty- four”または”Kalimba”または”Hot Potato”を聴かせた。参加 者10名が集まるごとに統計解析を実行した。事前にデータ 収集をどのタイミングで終えるのかについては決めていな かった。さらに,無関係な別の課題として,本人の生年月 日に加えて,何歳ぐらいだと自分で感じているか,食事が 楽しいと感じる程度,100の平方根,”コンピュータは複雑 な機械だ”と思う程度,父親の年齢,母親の年齢,早期割 引を使うかどうか,政治的志向,カナダ人クォーターバッ クのうち誰が賞をとると考えているか,昔のことを”古き よき日々”だと感じる程度,そして性別を尋ねた。参加者 のばらつきを統制するために,父親の年齢を使用した。….  結果,“When I’m sixty-four”群はKalimba”群よりも年齢が 有意に若かった。この曲を聴くと若返る??? Simmons, Nelson, & Simonsohn (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366. doi: 10.1177/0956797611417632 樋口匡貴・藤島喜嗣(2018). アスタリスク~真実の石を求め(すぎ)て ヒューマンインタフェース学会誌,20, 12–16. https://osf.io/zua7d

Slide 10

Slide 10 text

Simmons et al. (2011, Psych Sci) の実験 10  ペンシルバニア大学の2034名の学生に,“When I’m sixty- four”または”Kalimba”または”Hot Potato”を聴かせた。参加 者10名が集まるごとに統計解析を実行した。事前にデータ 収集をどのタイミングで終えるのかについては決めていな かった。さらに,無関係な別の課題として,本人の生年月 日に加えて,何歳ぐらいだと自分で感じているか,食事が 楽しいと感じる程度,100の平方根,”コンピュータは複雑 な機械だ”と思う程度,父親の年齢,母親の年齢,早期割 引を使うかどうか,政治的志向,カナダ人クォーターバッ クのうち誰が賞をとると考えているか,昔のことを”古き よき日々”だと感じる程度,そして性別を尋ねた。参加者 のばらつきを統制するために,父親の年齢を使用した。….  結果,“When I’m sixty-four”群はKalimba”群よりも年齢が 有意に若かった。この曲を聴くと若返る??? Simmons, Nelson, & Simonsohn (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366. doi: 10.1177/0956797611417632 樋口匡貴・藤島喜嗣(2018). アスタリスク~真実の石を求め(すぎ)て ヒューマンインタフェース学会誌,20, 12–16. https://osf.io/zua7d

Slide 11

Slide 11 text

問題のある研究慣習 (QRPs: questionable research practices)  有意になるまでサンプルサイズを増加させる  測定・分析した変数のうち一部だけを報告する  結果を見てから作った仮説を,あたかもデータ収集前 からあったかのように報告する(HARKing: hypothesizing after the results are known) といった,現代の観点からは問題のある研究・報告にお ける実践のこと  第1種の誤りの確率を(大幅に)増加させる  Bem (1987)などに見られるように,以前は問題な いと認識されていたり,むしろ推奨されてさえい たりした(池田・平石, 2016) 11 (John, Loewenstein, & Prele, 2012) John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23, 524–532. doi: 10.1177/0956797611430953 池田功毅・平石界 (2016). 心理学における再現可能性危機:問題の構造と解決策. 心理学評論, 59, 3-14.

Slide 12

Slide 12 text

論文中で報告されたp値の分布 12  「ぎりぎり有意」となるp値が妙に多い Leggett, N. C. et al. (2013). The life of p: "Just significant" results are on the rise. Quarterly Journal of Experimental Psychology, 66, 2303-2309. 2誌における1965年と2005年の比較

Slide 13

Slide 13 text

 前提の軽視,「p<.05」が過度に重視 「結果を見てのN増し」に代表されるQRPsが蔓延  測定する変数が多数 → 「有意になったものだけ報告」が行われやすい ☆オルタナティヴな視点の導入 (効果量,ベイズ,モデリング...) ☆測定の改善(被験者内計画,...) ☆ オープンサイエンス  測定誤差が大きく,効果量が小さい 本来よりも大きな効果や逆の効果が報告されやすい 検定の使われ方に由来する問題 13 ●●○○○

Slide 14

Slide 14 text

(母集団での)相関係数の希薄化(attenuation)  = +  = + のとき,  𝑥𝑥 ≤  測定誤差により, 観測される効果は真の 効果より小さくなる 14 𝑥𝑥 Var() Var + Var()  しかし,これはN=∞の(母集団における)ときの話  サンプルサイズも考慮に入れると? Spearman, C. (1904). The proof and measurement of association between two things. American Journal of Psychology, 1, 72-101. 南風原朝和・平井洋子・杉澤武俊 (2009). 心理統計学ワークブック:理解の確認と深化のために. 有斐閣. 心理では,真の効果は観測される効果より大きい?? 真値 測定誤差 観測値

Slide 15

Slide 15 text

2種類の誤差 15  測定誤差(measurement error)  測定道具や測定能力の不完全さに由来する誤差  標本誤差(sampling error)  母集団の全体ではなく,その一部からのみ観測 データを収集することに由来する誤差  N=∞のときは標本誤差は0であり,測定誤差のみ  Nが小さくなるにしたがって,標本誤差の相対的影響 は大きくなる

Slide 16

Slide 16 text

標本における相関係数 16 Loken, E. & Gelman, A. (2017). Measurement error and the replication crisis. Science, 355, 584-585.  Nが小さいときは,標本誤差の影響がより大きく 相関係数の希薄化が生じていても真値を過大推定して しまうケースがしばしば生じる (N=50) (N=3,000) 相関係数(真値) 相関係数(推定値) 真値を過大推定した割合 サンプルサイズ

Slide 17

Slide 17 text

「統計的有意性フィルター」  さらに「有意になった結果が報告される」場合,論文 誌上で報告される効果量の推定値は,真の効果量が小 さい場合に,より真値を大幅に過大推定してしまう  検定での有意性だけによって出版成否が決まってしま うことの不利益は,(発達)心理学研究でとくに大きい 17 Gelman, A. (2018). The failure of null hypothesis significance testing when studying incremental changes, and what to do about it. Personality and Social Psychology Bulletin, 44, 16-23.

Slide 18

Slide 18 text

とその解決策  前提の軽視,「p<.05」が過度に重視 「結果を見てのN増し」に代表されるQRPsが蔓延  測定する変数が多数 → 「有意になったものだけ報告」が行われやすい ☆オルタナティヴな視点の導入 (効果量,ベイズ,モデリング...) ☆測定の改善(被験者内計画,...) ☆ オープンサイエンス  測定誤差が大きく,効果量が小さい 本来よりも大きな効果や逆の効果が報告されやすい ☆ オルタナティヴな視点の導入 (効果量,ベイズ,モデリング...) ☆ 測定の改善(被験者内計画,...) ☆ オープンサイエンス 検定の使われ方に由来する問題 18 ☆ 階層ベイズモデリング ●●●○○

Slide 19

Slide 19 text

よい測定を目指すこと 19  推定量の標準誤差∝ 1  誤差を1/2にするには,4倍のサンプルサイズが必要  測定誤差を小さくできる研究デザインを組むこと は,とくにサンプルサイズを大きくすることが困 難な分野(発達心理学?)では重要  ともあれ,測定誤差・標本誤差は生じてしまう。 それを前提に研究者は何ができるか?

Slide 20

Slide 20 text

20 階層ベイズ(マルチレベル,混合効果)モデリング 久保拓弥 (2012). データ解析のための統計モデリング入門 岩波書店

Slide 21

Slide 21 text

階層ベイズ(マルチレベル,混合効果)モデリング 21 Katahira, K. (2016). How hierarchical models improve point estimates of model parameters at the individual level. Journal of Mathematical Psychology, 73, 37-58. 集団 レベル 個人 レベル 1 2 3 4 (個人レベルの 標本平均の分布)

Slide 22

Slide 22 text

なぜ階層ベイズモデリングが有効なのか? 22  個人差・集団差と構造を分離してモデリング,推定を 行うことができる  「変動を受容し,不確実性を受入れ,その上で できることをせよ」(Gelman, 2018)  心理的変数(潜在変数)を導入し,心理学理論を反映 した構造をモデルに取り入れることができる → 心理学の理論化,深化に役立つ  確率的プログラミング言語(Stan, JAGS)を用いて, 汎用的にデータへの当てはめができる  事後予測チェック,ベイズファクターなどを用いてモ デルの妥当性を評価できる Lee, M.D. (2011). How cognitive modeling can benefit from hierarchical Bayesian models. Journal of Mathematical Psychology, 55, 1-7. Gelman, A. (2018). The failure of null hypothesis significance testing when studying incremental changes, and what to do about it. Personality and Social Psychology Bulletin, 44, 16-23.

Slide 23

Slide 23 text

「モデリング」という考え方 23  自然言語によるモデル(弱い理論)  わかったような気になれるが,反証しにくい  複数のモデルが乱立しがちであり比較しにくい  統計モデリングにおける量的なモデル(強い理論)  量的な説明や予測を行うため,反証やモデル比較を可 能にし,モデルの改善=理論の改善につながっていく 役に立つ モデル 複雑な 現実 捨象・理論化 数量化 関係の明確化 Eysenck, H. J. (1985). The place of theory in a world of facts. In K. B. Madsen & L. Mos (Eds.), Annals of Theoretical Psychology, Vol 3 (pp. 17–72). New York: Plenum Press. 竹澤正哲 (2018). 心理学におけるモデリングの必要性 心理学評論, 61, 42-54.

Slide 24

Slide 24 text

階層ベイズQ-学習モデル 24 Katahira, K. (2016). How hierarchical models improve point estimates of model parameters at the individual level. Journal of Mathematical Psychology, 73, 37-58. ●●●●○

Slide 25

Slide 25 text

階層ベイズSIMPLEモデル 25 Shiffrina, R.M., Lee, M.D., Kim, W., & Wagenmakers, E-J. (2008). A survey of model evaluation approaches with a tutorial on hierarchical Bayesian methods. Cognitive Science, 32, 1248-1284. Lee, M.D. & Wagenmakers, E-J. (2013) 井関龍太訳 (2017) ベイズ統計で実践モデリング 北大路書房 ○:データ,グレー:予測

Slide 26

Slide 26 text

項目反応モデル Okada, K., Vandekerckhove, J., & Lee, M.D. (2018). Modeling when people quit: Bayesian censored geometric models with hierarchical and latent-mixture extensions. Behavior Research Methods, 50, 406-415. 豊田秀樹 (2018, 編著).たのしいベイズモデリング: 事例で拓く研究のフロンティア 北大路書房 10章 4 14 0 1 回答した 項目数 提示された 項目数 回答した ページ数 4頁の指示に 従う人か k頁読んだ人の回答確率 頁数の効果の切片と傾き 4頁の指示に 従う人である確率 無限に頁数があれ ば何頁まで答えたか 次の頁に進まず やめる確率 □:離散変数 ○:連続変数 色つき:観測 色なし:非観測 回答項目数の階層ベイズ打ち切り幾何分布モデル (グラフィカルモデル表現) 26 (読んだ頁数 のしたがう) 打ち切り幾何分布 本質的なパラメータが 個人に依らず共通

Slide 27

Slide 27 text

階層ベイズ隠匿情報検査モデル Shibuya, Y., Okada, K., Ogawa, T., Matsuda, I., & Tsuneoka, M. (2018) Hierarchical Bayesian models for the autonomic-based concealed information test. Biological Psychology, 132, 81-90. 盗まれうる対象物 生理指標値(心拍数,皮膚コンダク タンス反応,脈波容積,呼吸数) 実験条件(模擬窃 盗群,統制群) 繰り返し(5回/物) 実験参加者 P=167 人 効果量d=1~3で 窃盗群を弁別できる 27

Slide 28

Slide 28 text

(心理学分野での)ベイズ統計の近年の受容 28 心の普遍的な法則性を解明・ 理解したい(数理心理学) 帰無仮説検定の 本来の意味を超えた濫用誤用 階層・潜在変数モデリングの ツールとしてのベイズ (認知モデル・計算論モデル) オルタナティヴな分析, 評価の枠組みとしてのベイズ (ベイズファクター) ベイズ統計的アプローチの受容・応用が進んでいる マルコフ連鎖モンテ カルロ(MCMC)法 JAGS・Stan等 のソフトウェア 清水裕士(2018). 心理学におけるベイズ統計モデリング. 心理学評論, 61, 22-41. 再現可能性 問題 心理学における 統計改革 学んでみる・やってみると ベイズ統計の考え方は自然で合理的だ

Slide 29

Slide 29 text

ベイズファクター 29  データによって与えられた、あるモデル(仮説)0 に比して1 を支持する程度(オッズ)の変化  帰無仮説も支持できる,新しいデータが得られるごと に逐次的更新ができる,オッカムの剃刀を内在する などのよい性質を持つ  「…ベイズファクターという単純な概念は裁判の基礎 である。それはまた病気の診断や、科学的な考え方の 基礎でもある。ベイズファクターを大学に入る前に教 えるべきだ!」(Good, 1995) 10 = � 1 0 � 1 0 Good, I. J. (1995). When batterer turns murderer. Nature, 375, 541. 岡田謙介(2018) ベイズファクターによる心理学的仮説・モデルの評価 心理学評論, 61, 101-115.

Slide 30

Slide 30 text

オープンサイエンス  インターネット以前の時代には不可能だったが,現代 ではデータやプログラムの公開は容易  研究コミュニティにとってのメリットは大きい  被引用数増など研究者側のメリットも 30 https://osf.io/xp7m2/ 三浦麻子 (2018). 心理学におけるオープンサイエンス:「統計革命」のインフラストラクチャー. 心理学評論, 61, 3–12.

Slide 31

Slide 31 text

とその解決策  前提の軽視,「p<.05」が過度に重視 「結果を見てのN増し」に代表されるQRPsが蔓延  測定する変数が多数 → 「有意になったものだけ報告」が行われやすい ☆オルタナティヴな視点の導入 (効果量,ベイズ,モデリング...) ☆測定の改善(被験者内計画,...) ☆ オープンサイエンス  測定誤差が大きく,効果量が小さい → 本来よりも大きな効果や逆の効果が報告されやすい ☆ 新たな視点の導入 (効果量,ベイズ,モデリング...) ☆ 測定の改善(被験者内計画,...) ☆ オープンサイエンス 再現性問題における統計的論点 31 ☆ 階層ベイズモデリング ●●●●●