Slide 1

Slide 1 text

サロンLHS(2023.1.27) 再現性の科学: 脳科学は実世界で役に立つか 神谷之康(京都大学 情報学研究科) [email protected] http://kamitani-lab.ist.i.kyoto-u.ac.jp ykamit Last updated: 2023.1.27 1

Slide 2

Slide 2 text

脳科学の信頼性 脳科学は、「心を理解する」、「精神疾患の解明・治療」など、誰もその重要 性は否定できないお題目を掲げ、研究予算などの面で優遇されてきた。その期 待に応えてきただろうかか。 派手にプレスリリースされる研究は、中身は怪しいものが多い。「まだ新しい 学問だから」「in its infancy」と自己欺瞞を続けてきた結果、成熟した学問にな りきれていない。 脳科学とは 学術的には「神経科学」 分子、システム、病態、数理など多様な分野・アプローチ 一般に「脳科学」でイメージされるのは認知神経科学(非侵襲的手法で脳 機能を研究。心理学の一部と重なる) 2

Slide 3

Slide 3 text

今日のテーマ 心理学では著名な研究を含め、過去の多くの実験結果に再現性がないがないこ とが明らかとなり、現在改革が進んでいる。神経科学も、追試がしにくくて問題 が可視化されていないだけかもしれない。 一方で、比較的堅固な神経科学の研究成果が分野外で知られておらず、社会科学 や人文学を含む他分野で、脳と心に関する古い理解のままアップデートされて いないことがある 脳科学の方法論とその課題 信頼性を高めるための方法 新しい脳の見方 実世界での活用の可能性 (cf., ラッセル・ポルドラック『習慣と脳の科学』) 3

Slide 4

Slide 4 text

『習慣と脳の科学』 Russel Poldrack の Hard to Break: Why Our Brains Make Habits Stickの 邦訳。神谷が監訳 なぜ悪い習慣を断ち切ることが難し いのか、どのようにすれば断ち切る ことができるのか 神経科学と心理学の歴史を繙ききな がら、学習、意思決定、自制心等に ついての最新の知見を紹介。行動変 容のための方策を議論 「ポスト再現性の危機」の科学書 データリテラシー 個々の研究の信頼性 2023/2/10配本予定 https://www.msz.co.jp/book/detail /09588/ 4

Slide 5

Slide 5 text

Russel Poldrack http://poldrack.github.io/ スタンフォード大学の心理学者。脳画像を使っ た認知科学神経科学 研究では、とくに、行動抑制にかかわる「ハイ パー直接路」(後述)をヒトで解明したことで 有名 再現性・透明性の高い研究実践を目指すオープ ンサイエンス運動のリーダーとしての顔も 5

Slide 6

Slide 6 text

イアコボーニ騒動 2007年11月にニューヨーク・タイムズに掲載され たコラムをめぐる騒動(Link) 筆者は「ミラーニューロン」の研究で知られ るマルコ・イアコボーニ 当時の米大統領選の主要候補者の写真やビデ オを被験者に見せて脳スキャン 「前帯状皮質の活性化はヒラリー・クリント ンに対する複雑な感情を示し、一方、扁桃体 の活性化は共和党の候補者ミット・ロムニー に対する有権者の不安を示している」などと政 治評論 ポルドラックは批判のオープンレターを執筆。3日 後にニューヨーク・タイムズに掲載 認知神経科学におけるオープンサイエンス運動 のきっかけの一つ 6

Slide 7

Slide 7 text

何が問題か 「不安 → 扁桃体の活動」&「扁桃体の活動」ゆえに「不安」?? 後件肯定の誤謬(?) 「強い匂い → 扁桃体の活動」もある ポルドラックはこれを誤った「逆推論(reverse inference)」と断じた なぜ逆か 標準的な脳画像研究(脳機能マッピング)では、実験者が操作する刺激や 課題(独立変数)の結果として脳がどのように反応するか(従属変数)を 調べる この実験デザインによる知見(「不安 → 扁桃体の活動」)をもとに、逆向 きの推論をしている、という批判 しかし、(現在でも多くの人が誤解しているが)脳活動から心理状態を推定す ること自体が誤っているわけではない(→ブレイン・デコーディング) 7

Slide 8

Slide 8 text

脳機能マッピングの標準的方法 脳画像の各画素値を実験条件のダミー変数で説明する線形回帰モデル : 脳画像の各画素(ボクセル)の強度の時系列(試行列) : 実験条件(刺激/課題のオン・オフ等)および共変量の時系列(デ ザイン行列) : 各要因の係数 計測データから、回帰係数 を推定 脳全体の画素(>1万)について上記の回帰解析 各被験者の を元にグループ解析も。ランダム効果としての被験者 (のコントラスト)がゼロかの検定。多重比較補正して有意なボクセル・ クラスターを同定(「光る」脳部位) Satistical parametric map (SPM)とも呼ばれる。Karl Fristonらが確立 構造画像や安静時脳活動の特徴と被験者属性(疾患・健常など)の関係を 同様の手法で調べることも。BWAS(brain-wide association study) 8

Slide 9

Slide 9 text

脳マッピングの問題点 擬似的因果推論 形式的には統計的因果推論。実験操作・要因の効果を共変量をコントロー ルしながら調べる。回帰係数の不偏推定 しかし、たとえば「右手を動かす」という実験条件で脳活動が変化したと き、「右手を動かすことが原因で脳活動が変化した」と結論する? 「脳活動 → 手の運動」の因果の方が自然 「不安」と「扁桃体の活動」の間の因果の向きは決められるか? 心理学や社会科学の方法論を脳データ解析に当てはめたもので、脳のメカ ニズムや情報表現を調べることには向いていない イアコボーニのケースを逆推論とみなすこと自体が、特定の方法論に囚わ れたミスリーディングなラベルづけでは? 9

Slide 10

Slide 10 text

統計検定・P値への過度の依存 再現性の危機の中心的問題 疑わしい研究慣行(Questionable Research Practices, QRPs) Pハッキング HARKing (Hypothesizing After the Results are Known) チェリーピッキング 検定の内在的問題 基準率に依存 わずかな効果量でもサンプルサイズが大きければ有意になる ランダムサンプリングの仮定(ランダム効果、一般化可能性) 10

Slide 11

Slide 11 text

効果量の解釈が困難 脳画像・脳活動における「意味のある効果量」はよくわからない 信号値や脳の厚さが1%が変化することの意味は? 実世界での意義 臨床試験における「治療必要数(NNT)」のようなものはあるか 精神疾患・発達障害のバイオマーカーとして期待されているが使 えるものはほとんど存在しない 脳活動から課題・刺激変数に変換すれば理解しやすい(→ブレイン・デコ ーディング) 11

Slide 12

Slide 12 text

「平均脳」にもとづく推論 脳イメージングでは、多数の被験者のグループ解析が一般的 グループ平均の脳マップはどの個人の脳マップとも似ていないことが多い 心理や行動(state, not trait)について、個体を超えたグループの「母平 均」に意味はある? 脳活動や行動は一義的には個体に属するもの グループの知見を個体に汎化するには「エルゴード性」が必要。だ が…↓ Fisher, A. J. et al. Lack of group-to-individual generalizability is a threat to human subjects research. Proceedings of the National Academy of Sciences 115, E6106–E6115 (2018). http://doi.org/10.1073/pnas.1711978115 個体ごとにextensive に計測するアプローチを重視すべき(→Small is beautiful) Naselaris, T., Allen, E. & Kay, K. Extensive sampling for complete models of individual brains. Current Opinion in Behavioral Sciences 40, 45–51 (2021). https://doi.org/10.1016/j.cobeha.2020.12.008 12

Slide 13

Slide 13 text

再現性の危機 古くから繰り返し議論されてきたが2010年代になって心理学を中心に問題が表 面化し、改革が進められてきた。書籍や解説論文も多数発表されている 書籍 Chambers, C. The Seven Deadly Sins of Psychology: A Manifesto for Reforming the Culture of Scientific Practice. (Princeton University Press, 2019). 【邦訳】クリス・チェインバーズ. 心理学の7つの大罪――真の科学で あるために私たちがすべきこと. (みすず書房, 2019). Ritchie, S. Science Fictions: How Fraud, Bias, Negligence, and Hype Undermine the Search for Truth. (Metropolitan Books, 2020) なかむらかずや. 書評|壊れた科学に泣かないで|"Science Fictions" by Stuart Ritchie. カタパルトスープレックス (1603323000). https://www.catapultsuplex.com/entry/science-fictions 13

Slide 14

Slide 14 text

日本語解説論文・プレゼンテーション 池田功毅 & 平石 界. 心理学における再現可能性危機:問題の構造と解決策. Japanese Psychological Review (2016). https://www.jstage.jst.go.jp/article/sjpr/59/1/59_3/_pdf/-char/ja 平石 界 & 中村 大輝. 心理学における再現性危機の10年. 科学哲学 54, 27–50 (2022). https://doi.org/10.4216/jpssj.54.2_27 元木康介, 米満文哉, & 有賀敦紀. 消費者行動研究における再現性問題と研究 実践. 消費者行動研究 (2021). https://www.jstage.jst.go.jp/article/acs/27/1_2/27_202103.002/_article/- char/ja/ Yuki Yamada. 再現性問題は若手研究者の突破口. (2020). https://www.slideshare.net/momentumyy/ss-238482877 14

Slide 15

Slide 15 text

再現性とは 同じデータ 異なるデータ 同じ分析法 Reproducibility (再生性) Replicability(再現性) 異なる分析法 Robustness(頑健性) [Generalizability (一般化可能性)] 同じ実験デザインで新たにデータを取得し(直接追試; 概念的追試)、 同じ方法で分析したとき、同じ結果になるか(同じ方向で有意か) 分野によるが、心理学では上のような用語の整理が定着。「一般化可能 性」はややレイアが異なる(異なる実験操作や母集団も想定) 個人的にはReproducibility と Replicability が語感的に逆のような気もする 「再現性の危機」で問題となるのは主にReplicabilityだが、表現として は"Reproducibility"が使われることが多い 15

Slide 16

Slide 16 text

Reproducibility (再生性、再実行可能性) 同じデータを同じ分析法で解析したとき同じ結果が得られるか 論文のデータやコードが公開されているか 公開されたコード・データで同じ結果を再生できるか 青木俊太郎. オープンサイエンスのすすめ. 日本認知心理学会セミナー (2019). https://speakerdeck.com/s_aoki/open-science-at-kamitani- lab-2019 Robustness(頑健性) 同じデータを異なる分析法(前処理の方法、統計モデルのパラメータな ど、恣意的に決められる要素を変更)で解析したとき、(ほぼ)同じ結果 が得られるか 自由度の高い分析法を用いているのに、報告の際、都合のいい結果をチェ リーピッキングしていないか(→ QRPs) 可能な分析法を網羅的に試す。頑健性テスト(robustness test)、マルチ バース分析(multiverse analysis)、仕様カーブ分析(specification curve Analysis)など 16

Slide 17

Slide 17 text

Generalizability(一般化可能性) 一般化可能性の危機 Yarkoni, T. The generalizability crisis. Behavioral and Brain Sciences (2020). https://doi.org/10.1017/S0140525X20001685 未測定の変数に起因。被験者の属性(種、国籍・文化など)や実験条件 (刺激の種類、など)を超えて、知見が一般化可能か 他の3つは同一の実験・母集団を前提にするので、やや異なるレイアの概念 Yarkoni(神経科学ではNeurosynthの作者として有名)は、研究者の自己 欺瞞に失望して、この論文を出した後アカデミアを去った 17

Slide 18

Slide 18 text

心理学における再現性の検証 Open Science Collaboration. Estimating the reproducibility of psychological science. Science (2015). https://doi.org/10.1126/science.aac 4716 心理学の主要ジャーナル3誌 (Psychological Science, Journal of Personality and Social Psychology, Journal of Experimental Psychology: Learning, Memory, and Cognition)に2008年に掲載された 97報の研究を追試 36%でのみで、オリジナルと同じ方 向で統計的に有意 効果量は、オリジナルの約半分 18

Slide 19

Slide 19 text

同じような行動実験でも、経済学の行動実験の再現率は61%、実験哲学(哲 学者による行動・心理実験)は78% Camerer, C. F. et al. Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nat Hum Behav 2, 637–644 (2018). Cova, F. et al. Estimating the Reproducibility of Experimental Philosophy. Rev Phil. Psych. (2021). 1000回以上引用されている著名な論文の再現性がない(社会的プライミン グ、ステレオタイプ脅威、パワーポーズ、自我消耗、顔面フィードバック 仮説、「目」の効果、などなど)。条件によっては効果があるが、効果量 はとても小さい 再現性のない研究ほど引用される。ジャーナルの「ランク」が高いほど信 頼性が低い Serra-Garcia, M. & Gneezy, U. Nonreplicable publications are cited more than replicable ones. Science Advances (2021). Brembs, B. Prestigious Science Journals Struggle to Reach Even Average Reliability. Frontiers in Human Neuroscience (2018). 19

Slide 20

Slide 20 text

神経科学研究の再現性 過去の研究の再現性を検証する目立った動きはない 動物実験(とくにサル)では、実験系を厳密に再現することが難しい 「モデル動物」・プロトコル標準化でよいのか? 異質性・多様性も重要 Voelkl, B. et al. Reproducibility of animal research in light of biological variation. Nat Rev Neurosci (2020). ニューロンやサンプルの恣意的な選択 「サルは2頭でいいんですか」(→一般化可能性) 効果量・検出力の分析から、ポジテイブな結果の半数以上は偽陽性と推測 される(認知神経科学) Szucs, D. & Ioannidis, J. P. A. Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature. PLOS Biology (2017). 20

Slide 21

Slide 21 text

VBM研究(脳構造と行動[trait]の相関)の低い再現性 Boekel, W. et al. A purely confirmatory replication study of structural brain-behavior correlations. Cortex (2015).https://doi.org/10.1016/j.cortex.2014.11.019 Kharabian Masouleh, S. et al. Empirical examination of the replicability of associations between brain structure and psychological variables. eLife (2019).  https://doi.org/10.7554/eLife.43464 安静時脳活動・機能結合(resting state brain activity, functional connectivity)「バイオマーカー」の低い再現性 Noble, S. et al. Influences on the Test–Retest Reliability of Functional Connectivity MRI and its Relationship with Behavioral Utility. Cerebral Cortex (2017). https://doi.org/10.1093/cercor/bhx230 He, Y. et al. Nonreplication of functional connectivity differences in autism spectrum disorder across multiple sites and denoising strategies. Human Brain Mapping (2020).  https://doi.org/10.1002/hbm.24879 21

Slide 22

Slide 22 text

神経科学研究の一般化可能性 標準的な行動課題(恐怖条件づけ、遅延見本合わせ課題、ストップシグナ ル課題、など)で得られた知見は、自然な条件下の行動に汎化できるか (生態学的妥当性) 「コントロールされた実験」の再現しやすさとのトレードオフ Nastase, S. A., Goldstein, A. & Hasson, U. Keep it real: rethinking the primacy of experimental control in cognitive neuroscience. NeuroImage (2020). https://doi.org/10.1016/j.neuroimage.2020.117254 Sonkusare, S., Breakspear, M. & Guo, C. Naturalistic Stimuli in Neuroscience: Critically Acclaimed. Trends in Cognitive Sciences 0, (2019). https://doi.org/10.1016/j.tics.2019.05.004 in vitroからin vivoへ、線虫、ハエ、マウスからヒトへ汎化できるか 22

Slide 23

Slide 23 text

技術的・倫理的に追試が困難 たとえば、1990年代のサルの電気生理研究は今後再現されるのか 一般性のある知識や法則として受け継ぐべきか、歴史的叙述として記 録すべきか 精神疾患治療に役立ってきたか 半世紀以上の研究、何千ものRCT、何百万もの投資資金を経ても、精 神障害に対する心理療法や薬物療法の効果の大きさは限定的であり、 現在行われている治療研究は頭打ち」 Leichsenring, F. et al. The efficacy of psychotherapies and pharmacotherapies for mental disorders in adults: an umbrella review and meta-analytic evaluation of recent meta-analyses. World Psychiatry (2022). https://doi.org/10.1002/wps.20941 23

Slide 24

Slide 24 text

再現できないことが当たり前になっていないか よくある研究者の言い訳(自己欺瞞?)の傾向と対策 「時代や文化が違えば再現できなくて当たり前」←だったら、一般的な法 則のように論文で主張したり、授業で教えたり、一般書でエビデンスとし て紹介したりすべきでない。実際米国では、高い授業料を払って嘘を教え られている、と大学・アカデミアに対する不信の声がある 「研究アプローチの多様性が重要」←その通り。でも「多様性」という美 名の下、再現性のない実験研究分野も保護されるべき? 「科学は常に修正されていくものだから、再現性が低いのは科学の通常の 姿」←科学理論の話と混同? 再現性の欠如は、エビデンスが当てになら ないということ。理論なら「計算間違い」のレベル(?) 「研究の良し悪しは、どれだけ議論を喚起したかで決まるのであって、正 しいかどうかは重要でない」←内輪の論理。それで納税者は納得する? 24

Slide 25

Slide 25 text

Questionable Research Practices (QRPs) あからさまな研究不正(ねつ造、改ざん、盗用、等)ではないが、研究者 の価値観に違反する研究行動で、研究成果の信頼性に害を及ぼす研究実践 QRPsという言葉は、John, Loewenstein, Prelec(2012)で広まった 調査の結果、回答者の半数以上のQRPs行っており、そのような行 為が問題だとは認識していなかった 代表的なQRPsであるPハッキングと任意停止(optional stopping)が、オラ ンダで初めて、研究の誠実性に関する行動規範に違反と認定される Lakens, D. The 20% Statistician: P-hacking and optional stopping have been judged violations of scientific integrity. The 20% Statistician (2020). ネカト(捏造、改ざん、盗作)と同等の研究不正とされる日も近いか 25

Slide 26

Slide 26 text

代表的QRPs p-hacking 人為的な方法で、標準的な有意性の基準(通常α=0.05)を満たす結果を得 る可能性を高める行為。例えば、複数の分析を行い、p<.05のものだけを報 告する、 HARKing 'Hypothesizing After the Results are Known'(HARKing)。研究の結果に 基づいて得られた仮説をあたかも事前の仮説であったかのように報告する 行為 FORRT. A community-sourced glossary of open scholarship terms. Nat Hum Behav 1–7 (2022). Preprint 名付けることの重要性。p-hackingやHARKingというキャッチーな名前によって 一気に問題が可視化された で、結局何が問題かというと‥ 26

Slide 27

Slide 27 text

Researcher degree of freedom (研究者自由度) 論文には報告されないデータ収集と分析の自由度があり、偽陽性率を最大5%と する名目にもかかわらず、実質的に、どのような研究でも「統計的に有意」な 結果を発表できてしまう Simmons, J. P., Nelson, L. D. & Simonsohn, U. False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychol Sci 22, 1359–1366 (2011). https://doi.org/10.1177/0956797611417632 特に脳イメージング研究では、解析段階の自由度が高い 最近の241件のfMRI研究において、方法論の報告と方法論の選択をレビュ ー。研究の数とほぼ同数のユニークな分析パイプラインが存在 Carp, J. The secret lives of experiments: Methods reporting in the fMRI literature. NeuroImage 63, 289–300 (2012). https://doi.org/10.1016/j.neuroimage.2012.07.004 27

Slide 28

Slide 28 text

研究者自由度が偽陽性率にどのような影響を与えるか Simmons et al., (2011), Table 1 a)従属変数の選択、b)サンプルサイズの選択、c)コントロール変数(共 変量)の使用、d)実験条件のサブセットの報告、という4つの一般的な自 由度とその組み合わせの影響を評価 ランダムなデータ(効果は存在しない)を生成し、少なくとも1つが有意水 準以下となる割合を表示 すべて組み合わせると、p<0.05の有意水準(名目5%の偽陽性率)で、60%を 超える偽陽性が生じる 28

Slide 29

Slide 29 text

Optional stopping (N増し)の効果 Simmons et al., (2011), Fig 1 で有意になるまでN増ししたときの偽陽性率を計算 横軸:一回に追加する観測数 nの初期値:10か20 有意性が得られるか、n=50で停止 n=10から始め1足すごとに検定すると、22.1%の偽陽性率(名目5%) 29

Slide 30

Slide 30 text

ただし、 のときだけN増しすれば偽陽性はさほど高くな らない。N増しは再現性の低さの主要因ではないかも(?) Murayama, K. et al. Research Practices That Can Prevent an Inflation of False-Positive Rates. Pers Soc Psychol Rev 18, 107–118 (2014). https://doi.org/10.1177/1088868313496330 ここでは、n=50で停止しているが、ずっと続ければいつかほぼ確実に有意 になる(偽陽性率100%!) 母平均の差や相関がピッタリ0ということは普通ない どんな小さな差や関係(効果量)でもNを増やせば確実に有意になる: 相関係数0.1でも、N=400でp<.05 どのような効果量に意味があるかを考慮し、事前にNを決めておくべき (→ 最小関心効果量 [minimum effect size of interest]、検出力分析、 サンプルサイズ設計) 逐次解析(sequential analysis)やベイズファクターなど、事前にNを決め ない方法もあるが、これらの方法は、サンプルサイズ以外の点でより緻密 な事前設定や仮定の選択が必要 研究者自由度を縛らない限り問題は解決しない 30

Slide 31

Slide 31 text

【ケーススタディ】 31

Slide 32

Slide 32 text

Why Most Published Research Findings Are False Ioannidis, J. P. A. Why Most Published Research Findings Are False. PLoS Med (2005). https://doi.org/10.1371/journal.pmed.0020124 再現性が広く議論される以前に、統計検定のロジック、サンプルサイズの小 ささ、実験デザインの自由度、インセンティブ・競争、などがもたらす研 究の再現性の低さについて、シンプルなモデルを用いて議論した論考 統計検定(P値)は、finding(ここでは「統計的に有意な」研究成果)の正し さを保証するものではない むしろ、多くの分野では、主張されているfindingは、単にバイアスを表現 したものである(Null field, 虚無分野) 32

Slide 33

Slide 33 text

モデルの設定 (Ioannidis, 2005) : 分野で調査している関係(仮説)の数 : 事前オッズ。真の関連と偽の関連の数の比。基準率: 研究成果(findings): 統計的に有意な関係(仮説)。※実際には有意で ない結果も重要だが : 第一種過誤(偽陽性)率。実際には関係がないのに関係が「ある」 (統計的に有意)と主張してしまう確率。統計検定の有意水準 : 第二種過誤(偽陰性)率。実際には関係があるのに「ない」と主張し てしまう確率 : 検出力(Power) : Positive predictive value(陽性的中率)。主張された研究成果 (統計的に有意な関係)が真の関係である確率 33

Slide 34

Slide 34 text

(Ioannidis, 2005) 34

Slide 35

Slide 35 text

感染症検査でおなじみのロジック 感染症検査 統計検定 検査で陽性 統計的に有意 PPV: 検査で陽性のときに実際に 感染している割合 PPV: 統計的に有意なとき真の関係であ る割合 有病率が低ければPPVは小さい、 すなわち、検査で陽性でも感染の 確率は小さい 事前オッズ が小さければPPVは低い、 すなわち、統計的に有意な結果でも真で ある確率は低い 「有意水準 で検定した結果は95%正しい」 検定だけでは結果の正しさは保証されない(統計モデルの仮定が正しく、 QRPsによるバイアスがないとしても) 35

Slide 36

Slide 36 text

例 (事前の真と偽の比が1:1) (事前の真と偽の比が1:10) (検出力を0.8→0.5 にしたら) 事前オッズ( )と検出力( )が小さいと、有意でも真である確率は0.5 以下になりうる(神経科学研究の検出力の中央値は0.2程度という説も ) 36

Slide 37

Slide 37 text

サンプルサイズが小さい(検出力が低い)のに有意になった とき、「低い 検出力でも見つけられる強い結果だ」と勘違いする人がいるが間違い。サ ンプルサイズが小さいと有意な結果が真である割合は低い インパクトが高い研究(意外性の高い、前例がない、等)ほど が小さい ので有意な結果も信用できない。より固いエビデンスが必要 「途方も無い主張には、途方も無い証拠が求められる」(カール・セ ーガン) 「素人発想、玄人実行」(金出武雄)の後半がとくに重要 37

Slide 38

Slide 38 text

追試 回実験(検査)してすべて有意(陽性)だとすると のとき( 、 、 ) のとき のとき 追試できれば、その関係(仮説)が真である確率(PPV)はぐっと上がる 異なる実験手法で同じリサーチクエスチョンに対するconverging evidence を得ることにも当てはまる。Triangulation(三角測量) Munafò, M. R. & Davey Smith, G. Robust research needs many lines of evidence. Nature 553, 399–401 (2018). 38

Slide 39

Slide 39 text

統計的に有意だが偽である可能性が高い研究 1. サンプルサイズが小さい(検出力 が小さい) 2. 効果量が小さい(検出力 が小さい) 3. 検証された関係の数が多く、事前に選択されていない。「確証的」ではな く「仮説生成的」である(事前オッズ が小さい) 4. 意外性のある研究(事前オッズ が小さい) 「途方も無い主張には、途方も無い証拠が求められる」(カール・セ ーガン) 「素人発想、玄人実行」(金出武雄)の後半がとくに重要 5. デザイン、アウトカム、分析方法の柔軟性が高い(バイアスが大きい、 ) 6. 金銭的その他の利益によるバイアスが大きい(バイアスが大きい、 ) 7. 分野がホットである(独立した研究が多い、 ) 39

Slide 40

Slide 40 text

どうすれば改善できるか・何を学ぶべきか 1. 独立データを用いた検証・三角測量 追試、メタアナリシス、オープンデータ・オープンサイエンス 機械学習による予測・汎化 クロスバリデーション 二度漬け禁止 2. 検出力( )を上げる P値だけでなく効果量を意識 検出力分析等によるサンプルサイズ設計 40

Slide 41

Slide 41 text

3. バイアス( )を下げる 分野・研究室の研究慣行の見直し(疑わしい研究慣行(Questionable research practices、QRPs) 事前登録による研究者自由度の抑制 多重比較補正 混合モデル等によるデータ構造の適切な表現 因果推論による交絡・バイアスへの対処、実験デザイン 4. 事前オッズ( )の検討 分野のシステマティック・レビュー、メタアナリシス、Introductionの 重要性 探索的研究と確証的研究の区別 ベイズ推論によるモデルの不確実性の表現 41

Slide 42

Slide 42 text

統計学 vs. 機械学習 Bzdok, D., Altman, N. & Krzywinski, M. Points of Significance: Statistics versus machine learning. Nature Methods 15, 233–234 (2018). 推論(Inference):データ生成過程をモデル化し、パラメータ推定、仮説 検定。通常1標本(1データセット)で完結 予測(Prediction):未観測のデータや将来の挙動を予測(out-of-sample prediction)。独立データで評価 統計学は推論を重視、機械学習や予測を重視 : 統計学 → (不偏推定) 機械学習 → (汎化誤差) 42

Slide 43

Slide 43 text

説明から予測へ 私が機械学習を推す理由 統計学はデータ生成メカニズムを説明するというが、一般的な統計モデルは神 経科学の実験データの生成プロセスの説明になっていない。そのようなモデル のパラメータを精緻に推定し、検定をすることにどれだけ意味があるのか。一 方現状では、実験データを説明できるような生物・物理学的プロセス・機構モ デルは限られている モデルのパラメータを解釈することよりも、データにどれだけ汎化可能な情報 があるかを調べるのが現実的なアプローチではないか Kamitani, Y. & Tong, F. Decoding the visual and subjective contents of the human brain. Nat Neurosci 8, 679–685 (2005). https://doi.org/10.1038/nn1444 43

Slide 44

Slide 44 text

説明より予測を選ぶ Yarkoni, T. & Westfall, J. Choosing Prediction Over Explanation in Psychology: Lessons From Machine Learning. Perspectives on Psychological Science 12, 1100–1122 (2017). 心理学は、行動の原因を説明することにフォーカス。従来の統計モデルは 心理学的メカニズムの複雑な理論を提供するものの、将来の行動を予測す る能力がほとんどない 「適合度」や回帰係数の大きさや方向は、予測を保証しない 未観測データ(モデル適合に使われなかった「サンプル外」データ) に対するモデルの予測で評価すべき バイアス-バリアンス・トレードオフ、オーバーフィッティング、交差検証 (cross valuidation)、正則化などの機械学習の考え方が有用 機械学習分野の原理と技術が、心理学をより予測的な科学にする 短期的に予測に注力することは、長期的に行動の原因を説明する能力を向 上させることができる(かも) 44

Slide 45

Slide 45 text

バイアス・バリアンス分解 真の関数が で、 が学習データでフィットしたモデルとする と、モデル予測の平均二乗誤差(MSE; 学習データと の変動に対する期待値) は、バイアスとバリアンス(分散)に分解される 45

Slide 46

Slide 46 text

バイアス–バリアンス・トレードオフ 単純なモデルは、データへの適合度は低く、平均的にバイアスが大きい が、予測値のばらつきは小さい(分散が小さい) モデルが複雑なほど(パラメータが多いほど)、データへの適合度は高 く、平均的にバイアスは小さくいが、予測値の分散が大きくなる 例)多項式回帰: 。左が1次、右が5次の多項式フィット。デー タを生成する真のモデルは2次 Anqi Wu. Neuromatch, 2020 46

Slide 47

Slide 47 text

(James et al., 2021) モデルの複雑性(柔軟性、flexibility)を調整することで、バイアスとバリアン スのバランスを取り、予測誤差(MSE)を小さくすることができる バイアスを許容しつつ(不偏性を犠牲にする)、汎化誤差を小さくする 正則化、縮小推定、カーネル法、ベイズ 真のモデルが誤差最小になるとは限らない:正しいモデル vs 良いモデル 深層学習はパラメータ数は多いがなぜか汎化する 二重降下現象(double descent) 47

Slide 48

Slide 48 text

オーバーフィッティング モデルの複雑性を上げすぎると(使える変数/特徴量がたくさんある時など)、 特定の学習データへの適合度は良くなるが、それはノイズにもフィットするこ とも意味し、独立のデータ(ノイズは共有されない)に汎化しないことがあ る。避けるには 正則化(regularization):モデルの柔軟性に制約 情報量規準(AIC, BIC等)によるモデル選択 クロスバリデーションによるモデル選択・汎化性能評価 データをモデルのフィット用(訓練データ)と評価用(テストデー タ)に分けて、解析結果が母集団や独立なデータに汎化するかを確認 48

Slide 49

Slide 49 text

分類(classification)問題(パターン認識) VC次元(Vapnik–Chervonenkis dimension) 2次元平面の線は3つの点をどのようなクラスにも分離できる(VC次 元は3) 次元特徴量の線形判別器のVC次元は 。データ数 な ら任意に分類可 https://en.wikipedia.org/wiki/Vapnik–Chervonenkis_dimension 49

Slide 50

Slide 50 text

データの特徴量(入力変数)の次元を増やせば、学習データにあるどんなパタ ーンでも分類できるようにフィットできる(「精度100%」がトリビアルに実 現)。しかし、独立のテストデータで分類できるとは限らない(オーバーフィ ッティング)  ↓ データを見ながら共変量を加えていけば、有意差が出る条件は見つけられる が、再現性があるとは限らない。手元のデータのノイズにフィットしただけか も 研究者自由度の問題は、一標本(学習データ)だけを使ったフィットと推論に よるオーバーフィッティングの問題、とみることもできる ノイズへのフィットを報告しているだけの論文は実際に多そう(「ノイズで作 った団子の品評会」) 50

Slide 51

Slide 51 text

二度漬けの恐怖 二度漬け(Double dipping): モデル・変数の選択やモデルのフィットに用いられ たのと同じデータを使ってモデルを評価することで、歪んだ記述統計や無効な 統計的推測など、バイアスが生じること "Double dipping"「二度漬け」は下の論文で有名になった Kriegeskorte, N. et al. Circular analysis in systems neuroscience: the dangers of double dipping. Nature Neuroscience 12, 535–540 (2009). 串カツの「二度漬け禁止」のように、海外でも一度かじったチップを ソースに再び漬けることを指す Seinfeld: Double Dipped データ操作による論理的帰結にも関わらず、データそのものが持つ情報と 勘違いする ランダムデータに置き換えても同じような結果が出る 二度漬による偽陽性は、当然、再現性が高い。追試して解決する問題 でない 51

Slide 52

Slide 52 text

機械学習では特に要注意 訓練データをそのまま使ってモデルをテストすれば、当然「予測精 度」は高くなる 意外と気づかないのは、データ全部を使って特徴選択(遺伝子やボク セルの選択)した後、データを訓練セットとテストセットに分けるこ とで生じる「情報漏えい」 前処理も含めてテストデータと訓練データと分けて扱う事が必要 大羽成征. 遺伝子発現データに基づく予測と推定:言いたいこと と言えること. 統計数理 405–423 (2006). https://www.ism.ac.jp/editsec/toukei/pdf/54-2-405.pdf Oba, S. 言いたいことと言えること talk at ATR 神谷研セミナー (2008). https://www.slideshare.net/ShigeyukiOba/talk- at-atr-200812 時系列データでは、時間的に隣接するデータを訓練・テストセットに 分けると、時系列の相関により情報漏えいが起こって、spuriousに高い 予測精度がでる 52

Slide 53

Slide 53 text

重回帰分析のモデル選択も要注意 AICやBICなどでモデル選択した後、同じデータで選択されたモデルの 検定を行うとバイアスが生じる。別データを使わず対処する方法も研 究されている 竹内一郎. データ駆動型科学のための選択的推論(2019). https://www.ieice.org/~sita/forum/article/2019/201903231310. pdf Voodoo correlation: 統計的に有意だった変数(脳画像の画素など)を選択 し、同じデータを使って課題との相関係数を計算すると、データのS/Nから 考えてありえない高い相関になる Vul, E. et al. Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition. Perspect Psychol Sci 4, 274–290 (2009). http://dx.doi.org/10.1111/j.1745-6924.2009.01125.x https://escholarship.org/content/qt92v2k0hm/qt92v2k0hm.pdf 二度漬けは偽陽性への最速のショートカット 53

Slide 54

Slide 54 text

予測モデルの仮定 一般的な統計的推論の場合では、多くの仮定が満たされている必要がある 線形回帰の場合、線形性や誤差の分散・分布、観測の独立性など 予測モデルではこれらの標準的な仮定は不要 バイアスと分散のトレードオフに注目し、分散を減少させながらバイ アスを積極的に活かす戦略 予測変数と応答変数の間に線形関係の仮定は不要。線形と非線形を問 わず、モデルの予測性能を比較して、1つを選択することができる 正しいモデル vs. 良いモデル しかし、観測が独立であるという仮定は残る。一つのクラスタに属す る相関する観測値が、訓練セットとテストセットをまたがないように するなどの対応が必要 de Rooij, M. & Weeda, W. Cross-Validation: A Method Every Psychologist Should Know. Advances in Methods and Practices in Psychological Science 3, 248–263 (2020). 54

Slide 55

Slide 55 text

予測モデルによるデータ解析の実情 2005年に私が機械学習による脳データ解析を世に出したのが一つのきっか けとなって、予測モデルを使った研究が認知神経科学や心理学で広く普及 当初は、方法論的な健全性を求める研究者が参入して、野心的かつ方法論 的に手堅い研究が大部分を占めていた 健全性:モデルにウソがない。学習・テストデータを分ける しかししばらく経つと、P値信奉者が参入、予測精度がチャンスレベルより わずかに高く「有意」になる結果を出しては論文にするようになり、分野 が再び偽陽性の海に覆われてしまった 予測モデルは、予測精度や誤差で評価するのが基本 しかし予測モデルの出力を被験者の反応のようにして検定される 2値分類で正答率53%でもhighly significant と主張 予測アプローチであっても、QRPsによるP値のハックは可能 二度漬けも横行。二度漬けしていない論文のほうが珍しい 可能な限りクロスバリデーションだけでなく、日、場所、人、刺激な どが異なる独立データで汎化をテストし、外的妥当性を確認すべき 55

Slide 56

Slide 56 text

【ケーススタディ】 56

Slide 57

Slide 57 text

因果 相関関係は因果関係を含意しない 相関:「Xが大きいとYが大きい」。Xを知ることでYがわかるかという 情報の問題 因果:「Xを大きくするとYも大きくなる」。介入・操作によって結果 が変わるか 「因果関係は相関関係を含意する」は正しいか カーネマンらの新著『ノイズ』にそのような記述があり、議論となる https://twitter.com/ykamit/status/1396788604177842182? s=20&t=N6boEgh9JT8MocWzgnaBWw 反例:車で坂道を上がるとき、速度が一定になるようにアクセルを踏 むと、アクセルを踏む強さと車の速度は相関しないが、両者の間には 因果関係がある 必ずしもトリッキーな例ではない。生命や脳のホメオスタシス 57

Slide 58

Slide 58 text

神経科学における因果 神経科学(生物学)では、因果でメカニズムやプロセスを想定しがち。統 計的因果推論について話が噛み合わないことがある 脳機能マッピングは形式的には統計的因果推論 しかし、例えば「右手を動かす」という課題が脳活動を変化させたか らといって、「右手を動かすことが原因で脳活動が変化した」と結論 するのはヘン 「脳活動→手の運動」の因果関係の方が自然 統計的因果推論としては「各試行に手を動かす条件をランダムに 割り付ける介入が原因となって、脳活動の差が生じた」←神経科 学者はそういうことにあまりに興味ない 遺伝子操作やオプトジェネティクスなど「究極の介入」 が可能。しかし、 コントロールが十分かは怪しい 一方で、コントロールされた実験を絶対視することの弊害もある 生態学的妥当性、自発脳活動の重要性 Diener, E., Northcott, R., Zyphur, M. J. & West, S. G. Beyond Experiments. Perspect Psychol Sci 17456916211037670 (2022). 58

Slide 59

Slide 59 text

「逆推論」、その後 「扁桃体の活動(脳活動)→不安(心理状態)」は逆推論、とポルドラッ クが批判 一方で、ポルドラックは「Kamitaniのデコーディングは妥当な逆推論」と 積極的に紹介してくれた 神谷「??」 私のアプローチは、脳と心の関係を「コードするものとコードされる もの」としてとらえ、情報としての変換可能性に注目する 特定の因果の向きを想定するわけではない 「逆」とみなすこと自体が、特定の研究デザインに囚われたミスリー ディングなラベルづけ イアコボーニの問題は、推論の向きというよりは、脳を見れば心的現象の 背後にある、より本質的な要因がわかると考えがちな本質主義的な発想で はないか 59

Slide 60

Slide 60 text

「人間の脳には『3つの動物』が住 んでいる」 ? 日本学術会議 おもしろ情報館 https://www.scj.go.jp/omoshiro/kioku3/inde x.html 地球上に生命が生まれて三十数億年。そ の間に、生き物の脳もゆっくりと進化 し、今の形になっていきました。人間の 脳には、その進化のなごりが受け継がれ ています。 人間の脳は、「3つの部分」から成り立っ ています。 60

Slide 61

Slide 61 text

ポール・マクリーンの「三位一体脳 (Triune brain)」 ヒトの脳が,原始爬虫類の脳,古い哺乳類の脳,新しい哺乳類の脳という三つ の基本的構造を保って進化したという説 原始爬虫類の脳:前脳(大脳)の底部にある神経核構造、基底核 古い哺乳類の脳:原始爬虫類の脳の周囲を取り囲む領域(中隔、海馬体、 視床下部、扁桃体、帯状回)。情動的な行動を調節しているとした。「辺 縁系」という言葉は,古い哺乳類の脳のことを指してマクリーンが導入 新しい哺乳類の脳:ヒトで顕著に発達している新皮質。問題解決や記憶・ 学習に関与 61

Slide 62

Slide 62 text

しかし、 鳥類でそれまで基底核と考えられていた領域にも,哺乳類の新皮質に相当 する領域が多く含まれていることがわかり、2004年に多く部位が名称変更 魚類や両生類,爬虫類の大脳に相当する領域がある。哺乳類が新しく獲得 した構造ではない いわゆる「辺縁系」が情動に特化した部位ではない 篠塚一貴, 清水 透. 比較神経科学からみた進化にまつわる誤解と解説. 心 理学ワールド 17–20 (2016). Boraud, T., Leblois, A. & Rougier, N. P. A natural history of skills. Progress in Neurobiology 171, 114–124 (2018). 皮質基底核ループ などが、「人間らしい」精緻な運動や実行機能、習慣行動な どに関与しており、3つの部位に切り分けることではヒトの行動・心理を理解で きない 62

Slide 63

Slide 63 text

脳は(3つではなく)一つ リサ・フェルドマン・バレット. バレット博士の脳科学教室 7 1/2章. (2021). 三位一体脳説は現代の神話 〈理性〉対〈本能と情動〉という図式はプラトン以来、西欧文化において 人間の行動の説明として用いられてきた ダーウィン『人間の由来』 人間は理性的思考が手なずけている内なる太古の野獣を宿す 本能と情動の抑制できれば合理的で責任ある行動? 合理性とは? 情動の影響を受けないことだと一般に考えられているが、危険が差し 迫っているときに恐れを感じるのは合理的 身体予算管理、生存、繁殖 合理性は、脳のもっとも重要な仕事である身体予算管理、すなわ ち水分、塩分、グルコースなどの、われわれが毎日利用してい る、体に不可欠の資源の管理という観点からうまく定義できる。 この観点からすると、合理性とは資源の消費や蓄積を通じて、直 近の環境のもとで繁栄することを意味する。 63

Slide 64

Slide 64 text

二重過程理論の見直し Evans, J. St. B. T. & Stanovich, K. E. Dual-Process Theories of Higher Cognition: Advancing the Debate. Perspect Psychol Sci 8, 223–241 (2013). https://doi.org/10.1177/1745691612460685 二重過程理論者の著者らもシステム1、2の使用を中止。タイプ1、2処理と いう古い用語に戻した。「システム」は脳内の一連の処理・入出力を連想 させる タイプ1は、必ずしも進化的に古いとされる領域にあるとは限らない 意識的な思考が必ずしも行動を制御しているとは限らない タイプ1の過程が常に認知バイアスの原因となり、タイプ2の過程が常に正 しい反応の原因となる、というのは誤り 64

Slide 65

Slide 65 text

ポルドラック『習慣と脳の科学』 習慣とは 脳や心のはたらきを議論する際、不確実な環境の中で適切に意思決定して 行動しなければならない状況が想定されることが多い。しかし、世界は 「それほど変化しない」 のも事実 世界の安定した側面に対して自動的に対処し、長期的な目標を常に意識的 に考えたり、目下の欲求に左右されたりせずに、適切な行動ができるよう にすることが習慣の機能 「目下の欲求」と「長期的な目標」の間 65

Slide 66

Slide 66 text

皮質–基底核(線条体)ループ 大脳基底核と大脳皮質の間のループ構造 大脳皮質からの大脳基底核の線条体への入力は直接路と間接路に別れ て処理され、ドーパミンのの影響を受けながら、大脳皮質に戻る 線条体の各部位は大脳皮質の異なる部位とつながる 学習にともなって、前頭前野を含む「認知」皮質線条体ループか ら、運動野を含む「運動」皮質線条体ループへと活動がらせん状 に移行 意識的な目標指向行動から無意識的な習慣への移行と対応 大脳皮質と大脳基底核が、理性と本能に対応するわけではない。一方が他 方を支配しているわけでも、両者が「闘争」しているわけでもない ハイパー直接路 大脳皮質(前頭葉)から大脳基底核へのハイパー直接路が行動の抑制に関 わるが、長期的な目標を達成するための自制心とはほぼ無関係らしい 自制心とは、衝動を抑えるの能力ではなく、衝動を抑える必要がある状況 を回避する能力かもしれない。 66

Slide 67

Slide 67 text

行動変容は可能か 目標指向行動と習慣は、現代のAIでも使われる強化学習の2つのタイプ(モ デルベース型とモデルフリー型)と対比 「それほど変化しない世界」にうまく対応するための習慣システムは、変 化や刺激に満ちた現代社会において依存症などの弊害を生み出している 健康問題や地球温暖化問題に対処するための行動変容へのニーズ 現状、有効な方法はほとんどない 各研究を信頼性とともに議論 「ポスト再現性の危機」のナラティブ 脳科学は行動変容のための新しい方法は生み出せるか 侵襲性の高い方法は効果がありそうだが、安全性や倫理的な課題 ストップシグナル課題のようなマウスでもできる課題が人間の自 制心のモデルになるのか 67

Slide 68

Slide 68 text

おわりに 1. データ取得法・分析法は事前に決めよう 予備実験・解析は柔軟でよいが、統計的推論のための実験・データ解 析では自らの自由度を縛る 2. 独立データで汎化・再現性を調べよう 1データセットで確証的研究は困難 せめてクロスバリデーションしよう 3. 統計手法/モデルに思考を乗っ取られないようにしよう "All models are wrong, but some are useful" (George Box) 研究対象についてあなたの方がよく知っているはず 違和感をもとに、より良い手法を探索しよう 4. 脳を見たら心的現象の本質がわかるはずという発想はやめよう 少なくとも現状は、ほとんどわからない 本質がわからなくても予測や制御はできる(場合がある) 現実世界での予測や制御のテストをパスできるように基礎研究を頑健 にしよう 68