Upgrade to Pro — share decks privately, control downloads, hide ads and more …

jsdp2019_0319b.pdf

Ken
March 19, 2019

 jsdp2019_0319b.pdf

日本発達心理学会・他学会等共催シンポジウム
「今そこにある危機:再現可能性問題をめぐる現状と展望」
話題提供スライド

Ken

March 19, 2019
Tweet

More Decks by Ken

Other Decks in Research

Transcript

  1. p値についてのアメリカ統計学会声明 (2016)  「 2 再現性の問題が大きな契機: “The statistical community has

    been deeply concerned about issues of reproducibility and replicability of scientific conclusions” 177年の学会の歴史の中でも初の出来事
  2. p値についてのアメリカ統計学会声明 (2016)  帰無仮説0 のもとで検定統計量が今回データから 得られた観測データ以上に極端な,つまり0 と整 合的でない方向のものになる確率; 0 からの逸脱

    の程度を表す  0 が正しい確率ではない  データが偶然得られた確率ではない  科学的もしくは実社会の決定は,統計的有意性の みに基づいて行われるべきではない  有意になったもののみだけでなく,すべての結果 を報告する透明性が必要  p値や有意性は,効果の大きさや結果の重要性を表 すわけではない  p値だけでは,モデルや仮説についてのエビデンス のよい指標とはならない 3 岡田謙介 (2017). ASA声明とこれからの統計学の使われ方. 社会と調査,19, 88-93. 日本計量生物学会による翻訳 http://www.biometrics.gr.jp/news/all/ASA.pdf 何で ある か 何で ない か
  3. 帰無仮説検定の枠組み 4 真実 H0 H1 意思決定 H0 正しい意思決定 (確率1 −

    = .95) 第2種の誤り (確率) H1 第1種の誤り (確率 = .05) 正しい意思決定 (確率1 − ;検定力)  検定の前提が満たされていれば(例:H0 ,H1 やサ ンプルサイズがデータをとる前に定まっている) 第1種の誤りの確率はに抑えられる  しかし...
  4. とその解決策  前提の軽視,「p<.05」が過度に重視 「結果を見てのN増し」に代表されるQRPsが蔓延  測定する変数が多数 → 「有意になったものだけ報告」が行われやすい ☆オルタナティヴな視点の導入 (効果量,ベイズ,モデリング...)

    ☆測定の改善(被験者内計画,...) ☆ オープンサイエンス  測定誤差が大きく,効果量が小さい 本来よりも大きな効果や逆の効果が報告されやすい ☆ 新たな視点の導入 (効果量,ベイズ,モデリング...) ☆ 測定の改善(被験者内計画,...) ☆ オープンサイエンス 検定の使われ方に由来する問題 6 ☆ 階層ベイズモデリング
  5. Simmons et al. (2011, Psych Sci) の実験 9  ペンシルバニア大学の2034名の学生に,“When

    I’m sixty- four”または”Kalimba”または”Hot Potato”を聴かせた。参加 者10名が集まるごとに統計解析を実行した。事前にデータ 収集をどのタイミングで終えるのかについては決めていな かった。さらに,無関係な別の課題として,本人の生年月 日に加えて,何歳ぐらいだと自分で感じているか,食事が 楽しいと感じる程度,100の平方根,”コンピュータは複雑 な機械だ”と思う程度,父親の年齢,母親の年齢,早期割 引を使うかどうか,政治的志向,カナダ人クォーターバッ クのうち誰が賞をとると考えているか,昔のことを”古き よき日々”だと感じる程度,そして性別を尋ねた。参加者 のばらつきを統制するために,父親の年齢を使用した。….  結果,“When I’m sixty-four”群はKalimba”群よりも年齢が 有意に若かった。この曲を聴くと若返る??? Simmons, Nelson, & Simonsohn (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366. doi: 10.1177/0956797611417632 樋口匡貴・藤島喜嗣(2018). アスタリスク~真実の石を求め(すぎ)て ヒューマンインタフェース学会誌,20, 12–16. https://osf.io/zua7d
  6. Simmons et al. (2011, Psych Sci) の実験 10  ペンシルバニア大学の2034名の学生に,“When

    I’m sixty- four”または”Kalimba”または”Hot Potato”を聴かせた。参加 者10名が集まるごとに統計解析を実行した。事前にデータ 収集をどのタイミングで終えるのかについては決めていな かった。さらに,無関係な別の課題として,本人の生年月 日に加えて,何歳ぐらいだと自分で感じているか,食事が 楽しいと感じる程度,100の平方根,”コンピュータは複雑 な機械だ”と思う程度,父親の年齢,母親の年齢,早期割 引を使うかどうか,政治的志向,カナダ人クォーターバッ クのうち誰が賞をとると考えているか,昔のことを”古き よき日々”だと感じる程度,そして性別を尋ねた。参加者 のばらつきを統制するために,父親の年齢を使用した。….  結果,“When I’m sixty-four”群はKalimba”群よりも年齢が 有意に若かった。この曲を聴くと若返る??? Simmons, Nelson, & Simonsohn (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366. doi: 10.1177/0956797611417632 樋口匡貴・藤島喜嗣(2018). アスタリスク~真実の石を求め(すぎ)て ヒューマンインタフェース学会誌,20, 12–16. https://osf.io/zua7d
  7. 問題のある研究慣習 (QRPs: questionable research practices)  有意になるまでサンプルサイズを増加させる  測定・分析した変数のうち一部だけを報告する 

    結果を見てから作った仮説を,あたかもデータ収集前 からあったかのように報告する(HARKing: hypothesizing after the results are known) といった,現代の観点からは問題のある研究・報告にお ける実践のこと  第1種の誤りの確率を(大幅に)増加させる  Bem (1987)などに見られるように,以前は問題な いと認識されていたり,むしろ推奨されてさえい たりした(池田・平石, 2016) 11 (John, Loewenstein, & Prele, 2012) John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23, 524–532. doi: 10.1177/0956797611430953 池田功毅・平石界 (2016). 心理学における再現可能性危機:問題の構造と解決策. 心理学評論, 59, 3-14.
  8. 論文中で報告されたp値の分布 12  「ぎりぎり有意」となるp値が妙に多い Leggett, N. C. et al. (2013).

    The life of p: "Just significant" results are on the rise. Quarterly Journal of Experimental Psychology, 66, 2303-2309. 2誌における1965年と2005年の比較
  9. (母集団での)相関係数の希薄化(attenuation)  = +  = + のとき,  𝑥𝑥

    ≤  測定誤差により, 観測される効果は真の 効果より小さくなる 14 𝑥𝑥 Var() Var + Var()  しかし,これはN=∞の(母集団における)ときの話  サンプルサイズも考慮に入れると? Spearman, C. (1904). The proof and measurement of association between two things. American Journal of Psychology, 1, 72-101. 南風原朝和・平井洋子・杉澤武俊 (2009). 心理統計学ワークブック:理解の確認と深化のために. 有斐閣. 心理では,真の効果は観測される効果より大きい?? 真値 測定誤差 観測値
  10. 2種類の誤差 15  測定誤差(measurement error)  測定道具や測定能力の不完全さに由来する誤差  標本誤差(sampling error)

     母集団の全体ではなく,その一部からのみ観測 データを収集することに由来する誤差  N=∞のときは標本誤差は0であり,測定誤差のみ  Nが小さくなるにしたがって,標本誤差の相対的影響 は大きくなる
  11. 標本における相関係数 16 Loken, E. & Gelman, A. (2017). Measurement error

    and the replication crisis. Science, 355, 584-585.  Nが小さいときは,標本誤差の影響がより大きく 相関係数の希薄化が生じていても真値を過大推定して しまうケースがしばしば生じる (N=50) (N=3,000) 相関係数(真値) 相関係数(推定値) 真値を過大推定した割合 サンプルサイズ
  12. とその解決策  前提の軽視,「p<.05」が過度に重視 「結果を見てのN増し」に代表されるQRPsが蔓延  測定する変数が多数 → 「有意になったものだけ報告」が行われやすい ☆オルタナティヴな視点の導入 (効果量,ベイズ,モデリング...)

    ☆測定の改善(被験者内計画,...) ☆ オープンサイエンス  測定誤差が大きく,効果量が小さい 本来よりも大きな効果や逆の効果が報告されやすい ☆ オルタナティヴな視点の導入 (効果量,ベイズ,モデリング...) ☆ 測定の改善(被験者内計画,...) ☆ オープンサイエンス 検定の使われ方に由来する問題 18 ☆ 階層ベイズモデリング •••◦◦
  13. 階層ベイズ(マルチレベル,混合効果)モデリング 21 Katahira, K. (2016). How hierarchical models improve point

    estimates of model parameters at the individual level. Journal of Mathematical Psychology, 73, 37-58. 集団 レベル 個人 レベル 1 2 3 4 (個人レベルの 標本平均の分布)
  14. なぜ階層ベイズモデリングが有効なのか? 22  個人差・集団差と構造を分離してモデリング,推定を 行うことができる  「変動を受容し,不確実性を受入れ,その上で できることをせよ」(Gelman, 2018) 

    心理的変数(潜在変数)を導入し,心理学理論を反映 した構造をモデルに取り入れることができる → 心理学の理論化,深化に役立つ  確率的プログラミング言語(Stan, JAGS)を用いて, 汎用的にデータへの当てはめができる  事後予測チェック,ベイズファクターなどを用いてモ デルの妥当性を評価できる Lee, M.D. (2011). How cognitive modeling can benefit from hierarchical Bayesian models. Journal of Mathematical Psychology, 55, 1-7. Gelman, A. (2018). The failure of null hypothesis significance testing when studying incremental changes, and what to do about it. Personality and Social Psychology Bulletin, 44, 16-23.
  15. 「モデリング」という考え方 23  自然言語によるモデル(弱い理論)  わかったような気になれるが,反証しにくい  複数のモデルが乱立しがちであり比較しにくい  統計モデリングにおける量的なモデル(強い理論)

     量的な説明や予測を行うため,反証やモデル比較を可 能にし,モデルの改善=理論の改善につながっていく 役に立つ モデル 複雑な 現実 捨象・理論化 数量化 関係の明確化 Eysenck, H. J. (1985). The place of theory in a world of facts. In K. B. Madsen & L. Mos (Eds.), Annals of Theoretical Psychology, Vol 3 (pp. 17–72). New York: Plenum Press. 竹澤正哲 (2018). 心理学におけるモデリングの必要性 心理学評論, 61, 42-54.
  16. 階層ベイズQ-学習モデル 24 Katahira, K. (2016). How hierarchical models improve point

    estimates of model parameters at the individual level. Journal of Mathematical Psychology, 73, 37-58. ••••◦
  17. 階層ベイズSIMPLEモデル 25 Shiffrina, R.M., Lee, M.D., Kim, W., & Wagenmakers,

    E-J. (2008). A survey of model evaluation approaches with a tutorial on hierarchical Bayesian methods. Cognitive Science, 32, 1248-1284. Lee, M.D. & Wagenmakers, E-J. (2013) 井関龍太訳 (2017) ベイズ統計で実践モデリング 北大路書房 ◦:データ,グレー:予測
  18. 項目反応モデル Okada, K., Vandekerckhove, J., & Lee, M.D. (2018). Modeling

    when people quit: Bayesian censored geometric models with hierarchical and latent-mixture extensions. Behavior Research Methods, 50, 406-415. 豊田秀樹 (2018, 編著).たのしいベイズモデリング: 事例で拓く研究のフロンティア 北大路書房 10章 4 14 0 1 回答した 項目数 提示された 項目数 回答した ページ数 4頁の指示に 従う人か k頁読んだ人の回答確率 頁数の効果の切片と傾き 4頁の指示に 従う人である確率 無限に頁数があれ ば何頁まで答えたか 次の頁に進まず やめる確率 □:離散変数 ◦:連続変数 色つき:観測 色なし:非観測 回答項目数の階層ベイズ打ち切り幾何分布モデル (グラフィカルモデル表現) 26 (読んだ頁数 のしたがう) 打ち切り幾何分布 本質的なパラメータが 個人に依らず共通
  19. 階層ベイズ隠匿情報検査モデル Shibuya, Y., Okada, K., Ogawa, T., Matsuda, I., &

    Tsuneoka, M. (2018) Hierarchical Bayesian models for the autonomic-based concealed information test. Biological Psychology, 132, 81-90. 盗まれうる対象物 生理指標値(心拍数,皮膚コンダク タンス反応,脈波容積,呼吸数) 実験条件(模擬窃 盗群,統制群) 繰り返し(5回/物) 実験参加者 P=167 人 効果量d=1~3で 窃盗群を弁別できる 27
  20. (心理学分野での)ベイズ統計の近年の受容 28 心の普遍的な法則性を解明・ 理解したい(数理心理学) 帰無仮説検定の 本来の意味を超えた濫用誤用 階層・潜在変数モデリングの ツールとしてのベイズ (認知モデル・計算論モデル) オルタナティヴな分析,

    評価の枠組みとしてのベイズ (ベイズファクター) ベイズ統計的アプローチの受容・応用が進んでいる マルコフ連鎖モンテ カルロ(MCMC)法 JAGS・Stan等 のソフトウェア 清水裕士(2018). 心理学におけるベイズ統計モデリング. 心理学評論, 61, 22-41. 再現可能性 問題 心理学における 統計改革 学んでみる・やってみると ベイズ統計の考え方は自然で合理的だ
  21. ベイズファクター 29  データによって与えられた、あるモデル(仮説)0 に比して1 を支持する程度(オッズ)の変化  帰無仮説も支持できる,新しいデータが得られるごと に逐次的更新ができる,オッカムの剃刀を内在する などのよい性質を持つ

     「…ベイズファクターという単純な概念は裁判の基礎 である。それはまた病気の診断や、科学的な考え方の 基礎でもある。ベイズファクターを大学に入る前に教 えるべきだ!」(Good, 1995) 10 = � 1 0 � 1 0 Good, I. J. (1995). When batterer turns murderer. Nature, 375, 541. 岡田謙介(2018) ベイズファクターによる心理学的仮説・モデルの評価 心理学評論, 61, 101-115.
  22. とその解決策  前提の軽視,「p<.05」が過度に重視 「結果を見てのN増し」に代表されるQRPsが蔓延  測定する変数が多数 → 「有意になったものだけ報告」が行われやすい ☆オルタナティヴな視点の導入 (効果量,ベイズ,モデリング...)

    ☆測定の改善(被験者内計画,...) ☆ オープンサイエンス  測定誤差が大きく,効果量が小さい → 本来よりも大きな効果や逆の効果が報告されやすい ☆ 新たな視点の導入 (効果量,ベイズ,モデリング...) ☆ 測定の改善(被験者内計画,...) ☆ オープンサイエンス 再現性問題における統計的論点 31 ☆ 階層ベイズモデリング •••••