再現性の科学：脳科学は実世界で役に立つか

Slide 1

Slide 1 text

サロンLHS（2023.1.27）再現性の科学：脳科学は実世界で役に立つか神谷之康（京都大学情報学研究科） [email protected] http://kamitani-lab.ist.i.kyoto-u.ac.jp ykamit Last updated: 2023.1.27 1

Slide 2

Slide 2 text

脳科学の信頼性脳科学は、「心を理解する」、「精神疾患の解明・治療」など、誰もその重要性は否定できないお題目を掲げ、研究予算などの面で優遇されてきた。その期待に応えてきただろうかか。派手にプレスリリースされる研究は、中身は怪しいものが多い。「まだ新しい学問だから」「in its infancy」と自己欺瞞を続けてきた結果、成熟した学問になりきれていない。脳科学とは学術的には「神経科学」分子、システム、病態、数理など多様な分野・アプローチ一般に「脳科学」でイメージされるのは認知神経科学（非侵襲的手法で脳機能を研究。心理学の一部と重なる） 2

Slide 3

Slide 3 text

今日のテーマ心理学では著名な研究を含め、過去の多くの実験結果に再現性がないがないことが明らかとなり、現在改革が進んでいる。神経科学も、追試がしにくくて問題が可視化されていないだけかもしれない。一方で、比較的堅固な神経科学の研究成果が分野外で知られておらず、社会科学や人文学を含む他分野で、脳と心に関する古い理解のままアップデートされていないことがある脳科学の方法論とその課題信頼性を高めるための方法新しい脳の見方実世界での活用の可能性（cf., ラッセル・ポルドラック『習慣と脳の科学』) 3

Slide 4

Slide 4 text

『習慣と脳の科学』 Russel Poldrack の Hard to Break: Why Our Brains Make Habits Stickの邦訳。神谷が監訳なぜ悪い習慣を断ち切ることが難しいのか、どのようにすれば断ち切ることができるのか神経科学と心理学の歴史を繙ききながら、学習、意思決定、自制心等についての最新の知見を紹介。行動変容のための方策を議論「ポスト再現性の危機」の科学書データリテラシー個々の研究の信頼性 2023/2/10配本予定 https://www.msz.co.jp/book/detail /09588/ 4

Slide 5

Slide 5 text

Russel Poldrack http://poldrack.github.io/ スタンフォード大学の心理学者。脳画像を使った認知科学神経科学研究では、とくに、行動抑制にかかわる「ハイパー直接路」（後述）をヒトで解明したことで有名再現性・透明性の高い研究実践を目指すオープンサイエンス運動のリーダーとしての顔も 5

Slide 6

Slide 6 text

イアコボーニ騒動 2007年11月にニューヨーク・タイムズに掲載されたコラムをめぐる騒動（Link）筆者は「ミラーニューロン」の研究で知られるマルコ・イアコボーニ当時の米大統領選の主要候補者の写真やビデオを被験者に見せて脳スキャン「前帯状皮質の活性化はヒラリー・クリントンに対する複雑な感情を示し、一方、扁桃体の活性化は共和党の候補者ミット・ロムニーに対する有権者の不安を示している」などと政治評論ポルドラックは批判のオープンレターを執筆。3日後にニューヨーク・タイムズに掲載認知神経科学におけるオープンサイエンス運動のきっかけの一つ 6

Slide 7

Slide 7 text

何が問題か「不安 → 扁桃体の活動」＆「扁桃体の活動」ゆえに「不安」？？後件肯定の誤謬（？）「強い匂い → 扁桃体の活動」もあるポルドラックはこれを誤った「逆推論（reverse inference）」と断じたなぜ逆か標準的な脳画像研究（脳機能マッピング）では、実験者が操作する刺激や課題（独立変数）の結果として脳がどのように反応するか（従属変数）を調べるこの実験デザインによる知見（「不安 → 扁桃体の活動」）をもとに、逆向きの推論をしている、という批判しかし、（現在でも多くの人が誤解しているが）脳活動から心理状態を推定すること自体が誤っているわけではない（→ブレイン・デコーディング） 7

Slide 8

Slide 8 text

脳機能マッピングの標準的方法脳画像の各画素値を実験条件のダミー変数で説明する線形回帰モデル : 脳画像の各画素（ボクセル）の強度の時系列（試行列） : 実験条件（刺激/課題のオン・オフ等）および共変量の時系列（デザイン行列） : 各要因の係数計測データから、回帰係数を推定脳全体の画素（>1万）について上記の回帰解析各被験者のを元にグループ解析も。ランダム効果としての被験者（のコントラスト）がゼロかの検定。多重比較補正して有意なボクセル・クラスターを同定（「光る」脳部位） Satistical parametric map (SPM)とも呼ばれる。Karl Fristonらが確立構造画像や安静時脳活動の特徴と被験者属性（疾患・健常など）の関係を同様の手法で調べることも。BWAS(brain-wide association study) 8

Slide 9

Slide 9 text

脳マッピングの問題点擬似的因果推論形式的には統計的因果推論。実験操作・要因の効果を共変量をコントロールしながら調べる。回帰係数の不偏推定しかし、たとえば「右手を動かす」という実験条件で脳活動が変化したとき、「右手を動かすことが原因で脳活動が変化した」と結論する？「脳活動 → 手の運動」の因果の方が自然「不安」と「扁桃体の活動」の間の因果の向きは決められるか？心理学や社会科学の方法論を脳データ解析に当てはめたもので、脳のメカニズムや情報表現を調べることには向いていないイアコボーニのケースを逆推論とみなすこと自体が、特定の方法論に囚われたミスリーディングなラベルづけでは？ 9

Slide 10

Slide 10 text

統計検定・P値への過度の依存再現性の危機の中心的問題疑わしい研究慣行（Questionable Research Practices, QRPs） Pハッキング HARKing (Hypothesizing After the Results are Known) チェリーピッキング検定の内在的問題基準率に依存わずかな効果量でもサンプルサイズが大きければ有意になるランダムサンプリングの仮定（ランダム効果、一般化可能性） 10

Slide 11

Slide 11 text

効果量の解釈が困難脳画像・脳活動における「意味のある効果量」はよくわからない信号値や脳の厚さが1％が変化することの意味は？実世界での意義臨床試験における「治療必要数（NNT）」のようなものはあるか精神疾患・発達障害のバイオマーカーとして期待されているが使えるものはほとんど存在しない脳活動から課題・刺激変数に変換すれば理解しやすい（→ブレイン・デコーディング） 11

Slide 12

Slide 12 text

「平均脳」にもとづく推論脳イメージングでは、多数の被験者のグループ解析が一般的グループ平均の脳マップはどの個人の脳マップとも似ていないことが多い心理や行動（state, not trait）について、個体を超えたグループの「母平均」に意味はある？脳活動や行動は一義的には個体に属するものグループの知見を個体に汎化するには「エルゴード性」が必要。だが…↓ Fisher, A. J. et al. Lack of group-to-individual generalizability is a threat to human subjects research. Proceedings of the National Academy of Sciences 115, E6106–E6115 (2018). http://doi.org/10.1073/pnas.1711978115 個体ごとにextensive に計測するアプローチを重視すべき（→Small is beautiful） Naselaris, T., Allen, E. & Kay, K. Extensive sampling for complete models of individual brains. Current Opinion in Behavioral Sciences 40, 45–51 (2021). https://doi.org/10.1016/j.cobeha.2020.12.008 12

Slide 13

Slide 13 text

再現性の危機古くから繰り返し議論されてきたが2010年代になって心理学を中心に問題が表面化し、改革が進められてきた。書籍や解説論文も多数発表されている書籍 Chambers, C. The Seven Deadly Sins of Psychology: A Manifesto for Reforming the Culture of Scientific Practice. (Princeton University Press, 2019). 【邦訳】クリス・チェインバーズ. 心理学の7つの大罪――真の科学であるために私たちがすべきこと. (みすず書房, 2019). Ritchie, S. Science Fictions: How Fraud, Bias, Negligence, and Hype Undermine the Search for Truth. (Metropolitan Books, 2020) なかむらかずや. 書評｜壊れた科学に泣かないで｜"Science Fictions" by Stuart Ritchie. カタパルトスープレックス (1603323000). https://www.catapultsuplex.com/entry/science-fictions 13

Slide 14

Slide 14 text

日本語解説論文・プレゼンテーション池田功毅 & 平石界. 心理学における再現可能性危機:問題の構造と解決策. Japanese Psychological Review (2016). https://www.jstage.jst.go.jp/article/sjpr/59/1/59_3/_pdf/-char/ja 平石界 & 中村大輝. 心理学における再現性危機の10年. 科学哲学 54, 27–50 (2022).　https://doi.org/10.4216/jpssj.54.2_27 元木康介, 米満文哉, & 有賀敦紀. 消費者行動研究における再現性問題と研究実践. 消費者行動研究 (2021). https://www.jstage.jst.go.jp/article/acs/27/1_2/27_202103.002/_article/- char/ja/ Yuki Yamada. 再現性問題は若手研究者の突破口. (2020). https://www.slideshare.net/momentumyy/ss-238482877 14

Slide 15

Slide 15 text

再現性とは同じデータ異なるデータ同じ分析法 Reproducibility (再生性) Replicability（再現性）異なる分析法 Robustness（頑健性） [Generalizability （一般化可能性）] 同じ実験デザインで新たにデータを取得し（直接追試；概念的追試）、同じ方法で分析したとき、同じ結果になるか（同じ方向で有意か）分野によるが、心理学では上のような用語の整理が定着。「一般化可能性」はややレイアが異なる（異なる実験操作や母集団も想定）個人的にはReproducibility と Replicability が語感的に逆のような気もする「再現性の危機」で問題となるのは主にReplicabilityだが、表現としては"Reproducibility"が使われることが多い 15

Slide 16

Slide 16 text

Reproducibility (再生性、再実行可能性) 同じデータを同じ分析法で解析したとき同じ結果が得られるか論文のデータやコードが公開されているか公開されたコード・データで同じ結果を再生できるか青木俊太郎. オープンサイエンスのすすめ. 日本認知心理学会セミナー (2019). https://speakerdeck.com/s_aoki/open-science-at-kamitani- lab-2019 Robustness（頑健性）同じデータを異なる分析法（前処理の方法、統計モデルのパラメータなど、恣意的に決められる要素を変更）で解析したとき、（ほぼ）同じ結果が得られるか自由度の高い分析法を用いているのに、報告の際、都合のいい結果をチェリーピッキングしていないか（→ QRPs）可能な分析法を網羅的に試す。頑健性テスト（robustness test）、マルチバース分析（multiverse analysis）、仕様カーブ分析（specification curve Analysis）など 16

Slide 17

Slide 17 text

Generalizability（一般化可能性）一般化可能性の危機 Yarkoni, T. The generalizability crisis. Behavioral and Brain Sciences (2020). https://doi.org/10.1017/S0140525X20001685 未測定の変数に起因。被験者の属性（種、国籍・文化など）や実験条件（刺激の種類、など）を超えて、知見が一般化可能か他の3つは同一の実験・母集団を前提にするので、やや異なるレイアの概念 Yarkoni（神経科学ではNeurosynthの作者として有名）は、研究者の自己欺瞞に失望して、この論文を出した後アカデミアを去った 17

Slide 18

Slide 18 text

心理学における再現性の検証 Open Science Collaboration. Estimating the reproducibility of psychological science. Science (2015). https://doi.org/10.1126/science.aac 4716 心理学の主要ジャーナル3誌（Psychological Science, Journal of Personality and Social Psychology, Journal of Experimental Psychology: Learning, Memory, and Cognition）に2008年に掲載された 97報の研究を追試 36％でのみで、オリジナルと同じ方向で統計的に有意効果量は、オリジナルの約半分 18

Slide 19

Slide 19 text

同じような行動実験でも、経済学の行動実験の再現率は61％、実験哲学(哲学者による行動・心理実験)は78% Camerer, C. F. et al. Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nat Hum Behav 2, 637–644 (2018). Cova, F. et al. Estimating the Reproducibility of Experimental Philosophy. Rev Phil. Psych. (2021). 1000回以上引用されている著名な論文の再現性がない（社会的プライミング、ステレオタイプ脅威、パワーポーズ、自我消耗、顔面フィードバック仮説、「目」の効果、などなど）。条件によっては効果があるが、効果量はとても小さい再現性のない研究ほど引用される。ジャーナルの「ランク」が高いほど信頼性が低い Serra-Garcia, M. & Gneezy, U. Nonreplicable publications are cited more than replicable ones. Science Advances (2021). Brembs, B. Prestigious Science Journals Struggle to Reach Even Average Reliability. Frontiers in Human Neuroscience (2018). 19

Slide 20

Slide 20 text

神経科学研究の再現性過去の研究の再現性を検証する目立った動きはない動物実験（とくにサル）では、実験系を厳密に再現することが難しい「モデル動物」・プロトコル標準化でよいのか？　異質性・多様性も重要 Voelkl, B. et al. Reproducibility of animal research in light of biological variation. Nat Rev Neurosci (2020). ニューロンやサンプルの恣意的な選択「サルは２頭でいいんですか」（→一般化可能性）効果量・検出力の分析から、ポジテイブな結果の半数以上は偽陽性と推測される（認知神経科学） Szucs, D. & Ioannidis, J. P. A. Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature. PLOS Biology (2017). 20

Slide 21

Slide 21 text

VBM研究（脳構造と行動[trait]の相関）の低い再現性 Boekel, W. et al. A purely confirmatory replication study of structural brain-behavior correlations. Cortex (2015).https://doi.org/10.1016/j.cortex.2014.11.019 Kharabian Masouleh, S.　et al. Empirical examination of the replicability of associations between brain structure and psychological variables. eLife (2019).　 https://doi.org/10.7554/eLife.43464 安静時脳活動・機能結合（resting state brain activity, functional connectivity）「バイオマーカー」の低い再現性 Noble, S. et al. Influences on the Test–Retest Reliability of Functional Connectivity MRI and its Relationship with Behavioral Utility. Cerebral Cortex (2017).　https://doi.org/10.1093/cercor/bhx230 He, Y. et al. Nonreplication of functional connectivity differences in autism spectrum disorder across multiple sites and denoising strategies. Human Brain Mapping (2020).　 https://doi.org/10.1002/hbm.24879 21

Slide 22

Slide 22 text

神経科学研究の一般化可能性標準的な行動課題（恐怖条件づけ、遅延見本合わせ課題、ストップシグナル課題、など）で得られた知見は、自然な条件下の行動に汎化できるか（生態学的妥当性）「コントロールされた実験」の再現しやすさとのトレードオフ Nastase, S. A., Goldstein, A. & Hasson, U. Keep it real: rethinking the primacy of experimental control in cognitive neuroscience. NeuroImage (2020). https://doi.org/10.1016/j.neuroimage.2020.117254 Sonkusare, S., Breakspear, M. & Guo, C. Naturalistic Stimuli in Neuroscience: Critically Acclaimed. Trends in Cognitive Sciences 0, (2019). https://doi.org/10.1016/j.tics.2019.05.004 in vitroからin vivoへ、線虫、ハエ、マウスからヒトへ汎化できるか 22

Slide 23

Slide 23 text

技術的・倫理的に追試が困難たとえば、1990年代のサルの電気生理研究は今後再現されるのか一般性のある知識や法則として受け継ぐべきか、歴史的叙述として記録すべきか精神疾患治療に役立ってきたか半世紀以上の研究、何千ものRCT、何百万もの投資資金を経ても、精神障害に対する心理療法や薬物療法の効果の大きさは限定的であり、現在行われている治療研究は頭打ち」 Leichsenring, F.　et al. The efficacy of psychotherapies and pharmacotherapies for mental disorders in adults: an umbrella review and meta-analytic evaluation of recent meta-analyses. World Psychiatry (2022). https://doi.org/10.1002/wps.20941 23

Slide 24

Slide 24 text

再現できないことが当たり前になっていないかよくある研究者の言い訳（自己欺瞞？）の傾向と対策「時代や文化が違えば再現できなくて当たり前」←だったら、一般的な法則のように論文で主張したり、授業で教えたり、一般書でエビデンスとして紹介したりすべきでない。実際米国では、高い授業料を払って嘘を教えられている、と大学・アカデミアに対する不信の声がある「研究アプローチの多様性が重要」←その通り。でも「多様性」という美名の下、再現性のない実験研究分野も保護されるべき？「科学は常に修正されていくものだから、再現性が低いのは科学の通常の姿」←科学理論の話と混同？　再現性の欠如は、エビデンスが当てにならないということ。理論なら「計算間違い」のレベル（？）「研究の良し悪しは、どれだけ議論を喚起したかで決まるのであって、正しいかどうかは重要でない」←内輪の論理。それで納税者は納得する？ 24

Slide 25

Slide 25 text

Questionable Research Practices (QRPs）あからさまな研究不正（ねつ造、改ざん、盗用、等）ではないが、研究者の価値観に違反する研究行動で、研究成果の信頼性に害を及ぼす研究実践 QRPsという言葉は、John, Loewenstein, Prelec（2012）で広まった調査の結果、回答者の半数以上のQRPs行っており、そのような行為が問題だとは認識していなかった代表的なQRPsであるPハッキングと任意停止(optional stopping)が、オランダで初めて、研究の誠実性に関する行動規範に違反と認定される Lakens, D. The 20% Statistician: P-hacking and optional stopping have been judged violations of scientific integrity. The 20% Statistician (2020). ネカト（捏造、改ざん、盗作）と同等の研究不正とされる日も近いか 25

Slide 26

Slide 26 text

代表的QRPs p-hacking 人為的な方法で、標準的な有意性の基準（通常α=0.05）を満たす結果を得る可能性を高める行為。例えば、複数の分析を行い、p<.05のものだけを報告する、 HARKing 'Hypothesizing After the Results are Known'（HARKing）。研究の結果に基づいて得られた仮説をあたかも事前の仮説であったかのように報告する行為 FORRT. A community-sourced glossary of open scholarship terms. Nat Hum Behav 1–7 (2022). Preprint 名付けることの重要性。p-hackingやHARKingというキャッチーな名前によって一気に問題が可視化されたで、結局何が問題かというと‥ 26

Slide 27

Slide 27 text

Researcher degree of freedom (研究者自由度) 論文には報告されないデータ収集と分析の自由度があり、偽陽性率を最大5%とする名目にもかかわらず、実質的に、どのような研究でも「統計的に有意」な結果を発表できてしまう Simmons, J. P., Nelson, L. D. & Simonsohn, U. False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychol Sci 22, 1359–1366 (2011). https://doi.org/10.1177/0956797611417632 特に脳イメージング研究では、解析段階の自由度が高い最近の241件のfMRI研究において、方法論の報告と方法論の選択をレビュー。研究の数とほぼ同数のユニークな分析パイプラインが存在 Carp, J. The secret lives of experiments: Methods reporting in the fMRI literature. NeuroImage 63, 289–300 (2012). https://doi.org/10.1016/j.neuroimage.2012.07.004 27

Slide 28

Slide 28 text

研究者自由度が偽陽性率にどのような影響を与えるか Simmons et al., (2011), Table 1 a）従属変数の選択、b）サンプルサイズの選択、c）コントロール変数（共変量）の使用、d）実験条件のサブセットの報告、という4つの一般的な自由度とその組み合わせの影響を評価ランダムなデータ（効果は存在しない）を生成し、少なくとも1つが有意水準以下となる割合を表示すべて組み合わせると、p<0.05の有意水準(名目5％の偽陽性率)で、60％を超える偽陽性が生じる 28

Slide 29

Slide 29 text

Optional stopping (N増し)の効果 Simmons et al., (2011), Fig 1 で有意になるまでN増ししたときの偽陽性率を計算横軸：一回に追加する観測数 nの初期値：10か20 有意性が得られるか、n=50で停止 n=10から始め1足すごとに検定すると、22.1%の偽陽性率（名目5％） 29

Slide 30

Slide 30 text

ただし、のときだけN増しすれば偽陽性はさほど高くならない。N増しは再現性の低さの主要因ではないかも（？） Murayama, K. et al. Research Practices That Can Prevent an Inflation of False-Positive Rates. Pers Soc Psychol Rev 18, 107–118 (2014). https://doi.org/10.1177/1088868313496330 ここでは、n=50で停止しているが、ずっと続ければいつかほぼ確実に有意になる（偽陽性率100％！）母平均の差や相関がピッタリ0ということは普通ないどんな小さな差や関係（効果量）でもNを増やせば確実に有意になる：相関係数0.1でも、N=400でp<.05 どのような効果量に意味があるかを考慮し、事前にNを決めておくべき（→ 最小関心効果量 [minimum effect size of interest]、検出力分析、サンプルサイズ設計）逐次解析（sequential analysis）やベイズファクターなど、事前にNを決めない方法もあるが、これらの方法は、サンプルサイズ以外の点でより緻密な事前設定や仮定の選択が必要研究者自由度を縛らない限り問題は解決しない 30

Slide 31

Slide 31 text

【ケーススタディ】 31

Slide 32

Slide 32 text

Why Most Published Research Findings Are False Ioannidis, J. P. A. Why Most Published Research Findings Are False. PLoS Med (2005). https://doi.org/10.1371/journal.pmed.0020124 再現性が広く議論される以前に、統計検定のロジック、サンプルサイズの小ささ、実験デザインの自由度、インセンティブ・競争、などがもたらす研究の再現性の低さについて、シンプルなモデルを用いて議論した論考統計検定（P値）は、finding(ここでは「統計的に有意な」研究成果)の正しさを保証するものではないむしろ、多くの分野では、主張されているfindingは、単にバイアスを表現したものである(Null field, 虚無分野) 32

Slide 33

Slide 33 text

モデルの設定 (Ioannidis, 2005) ：分野で調査している関係（仮説）の数：事前オッズ。真の関連と偽の関連の数の比。基準率: 研究成果（findings）:　統計的に有意な関係（仮説）。※実際には有意でない結果も重要だが :　第一種過誤（偽陽性）率。実際には関係がないのに関係が「ある」（統計的に有意）と主張してしまう確率。統計検定の有意水準 :　第二種過誤（偽陰性）率。実際には関係があるのに「ない」と主張してしまう確率 :　検出力（Power） :　Positive predictive value（陽性的中率）。主張された研究成果（統計的に有意な関係）が真の関係である確率 33

Slide 34

Slide 34 text

(Ioannidis, 2005) 34

Slide 35

Slide 35 text

感染症検査でおなじみのロジック感染症検査統計検定検査で陽性統計的に有意 PPV: 検査で陽性のときに実際に感染している割合 PPV: 統計的に有意なとき真の関係である割合有病率が低ければPPVは小さい、すなわち、検査で陽性でも感染の確率は小さい事前オッズが小さければPPVは低い、すなわち、統計的に有意な結果でも真である確率は低い「有意水準で検定した結果は95%正しい」検定だけでは結果の正しさは保証されない（統計モデルの仮定が正しく、 QRPsによるバイアスがないとしても） 35

Slide 36

Slide 36 text

例（事前の真と偽の比が1:1）（事前の真と偽の比が1:10）（検出力を0.8→0.5 にしたら）事前オッズ（）と検出力（）が小さいと、有意でも真である確率は0.5 以下になりうる（神経科学研究の検出力の中央値は0.2程度という説も） 36

Slide 37

Slide 37 text

サンプルサイズが小さい（検出力が低い）のに有意になったとき、「低い検出力でも見つけられる強い結果だ」と勘違いする人がいるが間違い。サンプルサイズが小さいと有意な結果が真である割合は低いインパクトが高い研究（意外性の高い、前例がない、等）ほどが小さいので有意な結果も信用できない。より固いエビデンスが必要「途方も無い主張には、途方も無い証拠が求められる」（カール・セーガン）「素人発想、玄人実行」（金出武雄）の後半がとくに重要 37

Slide 38

Slide 38 text

追試回実験（検査）してすべて有意（陽性）だとするとのとき（、、 ) のときのとき追試できれば、その関係（仮説）が真である確率(PPV)はぐっと上がる異なる実験手法で同じリサーチクエスチョンに対するconverging evidence を得ることにも当てはまる。Triangulation（三角測量） Munafò, M. R. & Davey Smith, G. Robust research needs many lines of evidence. Nature 553, 399–401 (2018). 38

Slide 39

Slide 39 text

統計的に有意だが偽である可能性が高い研究 1. サンプルサイズが小さい（検出力が小さい） 2. 効果量が小さい（検出力が小さい） 3. 検証された関係の数が多く、事前に選択されていない。「確証的」ではなく「仮説生成的」である（事前オッズが小さい） 4. 意外性のある研究（事前オッズが小さい）「途方も無い主張には、途方も無い証拠が求められる」（カール・セーガン）「素人発想、玄人実行」（金出武雄）の後半がとくに重要 5. デザイン、アウトカム、分析方法の柔軟性が高い（バイアスが大きい、） 6. 金銭的その他の利益によるバイアスが大きい（バイアスが大きい、） 7. 分野がホットである（独立した研究が多い、） 39

Slide 40

Slide 40 text

どうすれば改善できるか・何を学ぶべきか 1. 独立データを用いた検証・三角測量追試、メタアナリシス、オープンデータ・オープンサイエンス機械学習による予測・汎化クロスバリデーション二度漬け禁止 2. 検出力（）を上げる P値だけでなく効果量を意識検出力分析等によるサンプルサイズ設計 40

Slide 41

Slide 41 text

3. バイアス（）を下げる分野・研究室の研究慣行の見直し（疑わしい研究慣行（Questionable research practices、QRPs）事前登録による研究者自由度の抑制多重比較補正混合モデル等によるデータ構造の適切な表現因果推論による交絡・バイアスへの対処、実験デザイン 4. 事前オッズ（）の検討分野のシステマティック・レビュー、メタアナリシス、Introductionの重要性探索的研究と確証的研究の区別ベイズ推論によるモデルの不確実性の表現 41

Slide 42

Slide 42 text

統計学 vs. 機械学習 Bzdok, D., Altman, N. & Krzywinski, M. Points of Significance: Statistics versus machine learning. Nature Methods 15, 233–234 (2018). 推論（Inference）：データ生成過程をモデル化し、パラメータ推定、仮説検定。通常１標本（１データセット）で完結予測（Prediction）：未観測のデータや将来の挙動を予測（out-of-sample prediction）。独立データで評価統計学は推論を重視、機械学習や予測を重視 : 統計学 → (不偏推定) 機械学習 → （汎化誤差） 42

Slide 43

Slide 43 text

説明から予測へ私が機械学習を推す理由統計学はデータ生成メカニズムを説明するというが、一般的な統計モデルは神経科学の実験データの生成プロセスの説明になっていない。そのようなモデルのパラメータを精緻に推定し、検定をすることにどれだけ意味があるのか。一方現状では、実験データを説明できるような生物・物理学的プロセス・機構モデルは限られているモデルのパラメータを解釈することよりも、データにどれだけ汎化可能な情報があるかを調べるのが現実的なアプローチではないか Kamitani, Y. & Tong, F. Decoding the visual and subjective contents of the human brain. Nat Neurosci 8, 679–685 (2005). https://doi.org/10.1038/nn1444 43

Slide 44

Slide 44 text

説明より予測を選ぶ Yarkoni, T. & Westfall, J. Choosing Prediction Over Explanation in Psychology: Lessons From Machine Learning. Perspectives on Psychological Science 12, 1100–1122 (2017). 心理学は、行動の原因を説明することにフォーカス。従来の統計モデルは心理学的メカニズムの複雑な理論を提供するものの、将来の行動を予測する能力がほとんどない「適合度」や回帰係数の大きさや方向は、予測を保証しない未観測データ（モデル適合に使われなかった「サンプル外」データ）に対するモデルの予測で評価すべきバイアス-バリアンス・トレードオフ、オーバーフィッティング、交差検証（cross valuidation）、正則化などの機械学習の考え方が有用機械学習分野の原理と技術が、心理学をより予測的な科学にする短期的に予測に注力することは、長期的に行動の原因を説明する能力を向上させることができる（かも） 44

Slide 45

Slide 45 text

バイアス・バリアンス分解真の関数がで、が学習データでフィットしたモデルとすると、モデル予測の平均二乗誤差（MSE; 学習データとの変動に対する期待値）は、バイアスとバリアンス（分散）に分解される 45

Slide 46

Slide 46 text

バイアス–バリアンス・トレードオフ単純なモデルは、データへの適合度は低く、平均的にバイアスが大きいが、予測値のばらつきは小さい（分散が小さい）モデルが複雑なほど（パラメータが多いほど）、データへの適合度は高く、平均的にバイアスは小さくいが、予測値の分散が大きくなる例）多項式回帰：。左が1次、右が5次の多項式フィット。データを生成する真のモデルは2次 Anqi Wu. Neuromatch, 2020 46

Slide 47

Slide 47 text

（James et al., 2021）モデルの複雑性（柔軟性、flexibility）を調整することで、バイアスとバリアンスのバランスを取り、予測誤差（MSE）を小さくすることができるバイアスを許容しつつ（不偏性を犠牲にする）、汎化誤差を小さくする正則化、縮小推定、カーネル法、ベイズ真のモデルが誤差最小になるとは限らない：正しいモデル vs 良いモデル深層学習はパラメータ数は多いがなぜか汎化する二重降下現象（double descent） 47

Slide 48

Slide 48 text

オーバーフィッティングモデルの複雑性を上げすぎると（使える変数/特徴量がたくさんある時など）、特定の学習データへの適合度は良くなるが、それはノイズにもフィットすることも意味し、独立のデータ（ノイズは共有されない）に汎化しないことがある。避けるには正則化（regularization）:モデルの柔軟性に制約情報量規準（AIC, BIC等）によるモデル選択クロスバリデーションによるモデル選択・汎化性能評価データをモデルのフィット用（訓練データ）と評価用（テストデータ）に分けて、解析結果が母集団や独立なデータに汎化するかを確認 48

Slide 49

Slide 49 text

分類（classification）問題（パターン認識） VC次元（Vapnik–Chervonenkis dimension）２次元平面の線は３つの点をどのようなクラスにも分離できる（VC次元は3）次元特徴量の線形判別器のVC次元は。データ数なら任意に分類可 https://en.wikipedia.org/wiki/Vapnik–Chervonenkis_dimension 49

Slide 50

Slide 50 text

データの特徴量（入力変数）の次元を増やせば、学習データにあるどんなパターンでも分類できるようにフィットできる（「精度100％」がトリビアルに実現）。しかし、独立のテストデータで分類できるとは限らない（オーバーフィッティング）　↓ データを見ながら共変量を加えていけば、有意差が出る条件は見つけられるが、再現性があるとは限らない。手元のデータのノイズにフィットしただけかも研究者自由度の問題は、一標本（学習データ）だけを使ったフィットと推論によるオーバーフィッティングの問題、とみることもできるノイズへのフィットを報告しているだけの論文は実際に多そう（「ノイズで作った団子の品評会」） 50

Slide 51

Slide 51 text

二度漬けの恐怖二度漬け(Double dipping): モデル・変数の選択やモデルのフィットに用いられたのと同じデータを使ってモデルを評価することで、歪んだ記述統計や無効な統計的推測など、バイアスが生じること "Double dipping"「二度漬け」は下の論文で有名になった Kriegeskorte, N. et al. Circular analysis in systems neuroscience: the dangers of double dipping. Nature Neuroscience 12, 535–540 (2009). 串カツの「二度漬け禁止」のように、海外でも一度かじったチップをソースに再び漬けることを指す Seinfeld: Double Dipped データ操作による論理的帰結にも関わらず、データそのものが持つ情報と勘違いするランダムデータに置き換えても同じような結果が出る二度漬による偽陽性は、当然、再現性が高い。追試して解決する問題でない 51

Slide 52

Slide 52 text

機械学習では特に要注意訓練データをそのまま使ってモデルをテストすれば、当然「予測精度」は高くなる意外と気づかないのは、データ全部を使って特徴選択（遺伝子やボクセルの選択）した後、データを訓練セットとテストセットに分けることで生じる「情報漏えい」前処理も含めてテストデータと訓練データと分けて扱う事が必要大羽成征. 遺伝子発現データに基づく予測と推定:言いたいことと言えること. 統計数理 405–423 (2006). https://www.ism.ac.jp/editsec/toukei/pdf/54-2-405.pdf Oba, S. 言いたいことと言えること talk at ATR 神谷研セミナー（2008）. https://www.slideshare.net/ShigeyukiOba/talk- at-atr-200812 時系列データでは、時間的に隣接するデータを訓練・テストセットに分けると、時系列の相関により情報漏えいが起こって、spuriousに高い予測精度がでる 52

Slide 53

Slide 53 text

重回帰分析のモデル選択も要注意 AICやBICなどでモデル選択した後、同じデータで選択されたモデルの検定を行うとバイアスが生じる。別データを使わず対処する方法も研究されている竹内一郎. データ駆動型科学のための選択的推論(2019). https://www.ieice.org/~sita/forum/article/2019/201903231310. pdf Voodoo correlation: 統計的に有意だった変数（脳画像の画素など）を選択し、同じデータを使って課題との相関係数を計算すると、データのS/Nから考えてありえない高い相関になる Vul, E. et al. Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition. Perspect Psychol Sci 4, 274–290 (2009). http://dx.doi.org/10.1111/j.1745-6924.2009.01125.x https://escholarship.org/content/qt92v2k0hm/qt92v2k0hm.pdf 二度漬けは偽陽性への最速のショートカット 53

Slide 54

Slide 54 text

予測モデルの仮定一般的な統計的推論の場合では、多くの仮定が満たされている必要がある線形回帰の場合、線形性や誤差の分散・分布、観測の独立性など予測モデルではこれらの標準的な仮定は不要バイアスと分散のトレードオフに注目し、分散を減少させながらバイアスを積極的に活かす戦略予測変数と応答変数の間に線形関係の仮定は不要。線形と非線形を問わず、モデルの予測性能を比較して、1つを選択することができる正しいモデル vs. 良いモデルしかし、観測が独立であるという仮定は残る。一つのクラスタに属する相関する観測値が、訓練セットとテストセットをまたがないようにするなどの対応が必要 de Rooij, M. & Weeda, W. Cross-Validation: A Method Every Psychologist Should Know. Advances in Methods and Practices in Psychological Science 3, 248–263 (2020). 54

Slide 55

Slide 55 text

予測モデルによるデータ解析の実情 2005年に私が機械学習による脳データ解析を世に出したのが一つのきっかけとなって、予測モデルを使った研究が認知神経科学や心理学で広く普及当初は、方法論的な健全性を求める研究者が参入して、野心的かつ方法論的に手堅い研究が大部分を占めていた健全性：モデルにウソがない。学習・テストデータを分けるしかししばらく経つと、P値信奉者が参入、予測精度がチャンスレベルよりわずかに高く「有意」になる結果を出しては論文にするようになり、分野が再び偽陽性の海に覆われてしまった予測モデルは、予測精度や誤差で評価するのが基本しかし予測モデルの出力を被験者の反応のようにして検定される 2値分類で正答率53％でもhighly significant と主張予測アプローチであっても、QRPsによるP値のハックは可能二度漬けも横行。二度漬けしていない論文のほうが珍しい可能な限りクロスバリデーションだけでなく、日、場所、人、刺激などが異なる独立データで汎化をテストし、外的妥当性を確認すべき 55

Slide 56

Slide 56 text

【ケーススタディ】 56

Slide 57

Slide 57 text

因果相関関係は因果関係を含意しない相関：「Xが大きいとYが大きい」。Xを知ることでYがわかるかという情報の問題因果：「Xを大きくするとYも大きくなる」。介入・操作によって結果が変わるか「因果関係は相関関係を含意する」は正しいかカーネマンらの新著『ノイズ』にそのような記述があり、議論となる https://twitter.com/ykamit/status/1396788604177842182? s=20&t=N6boEgh9JT8MocWzgnaBWw 反例：車で坂道を上がるとき、速度が一定になるようにアクセルを踏むと、アクセルを踏む強さと車の速度は相関しないが、両者の間には因果関係がある必ずしもトリッキーな例ではない。生命や脳のホメオスタシス 57

Slide 58

Slide 58 text

神経科学における因果神経科学（生物学）では、因果でメカニズムやプロセスを想定しがち。統計的因果推論について話が噛み合わないことがある脳機能マッピングは形式的には統計的因果推論しかし、例えば「右手を動かす」という課題が脳活動を変化させたからといって、「右手を動かすことが原因で脳活動が変化した」と結論するのはヘン「脳活動→手の運動」の因果関係の方が自然統計的因果推論としては「各試行に手を動かす条件をランダムに割り付ける介入が原因となって、脳活動の差が生じた」←神経科学者はそういうことにあまりに興味ない遺伝子操作やオプトジェネティクスなど「究極の介入」が可能。しかし、コントロールが十分かは怪しい一方で、コントロールされた実験を絶対視することの弊害もある生態学的妥当性、自発脳活動の重要性 Diener, E., Northcott, R., Zyphur, M. J. & West, S. G. Beyond Experiments. Perspect Psychol Sci 17456916211037670 (2022). 58

Slide 59

Slide 59 text

「逆推論」、その後「扁桃体の活動（脳活動）→不安（心理状態）」は逆推論、とポルドラックが批判一方で、ポルドラックは「Kamitaniのデコーディングは妥当な逆推論」と積極的に紹介してくれた神谷「？？」私のアプローチは、脳と心の関係を「コードするものとコードされるもの」としてとらえ、情報としての変換可能性に注目する特定の因果の向きを想定するわけではない「逆」とみなすこと自体が、特定の研究デザインに囚われたミスリーディングなラベルづけイアコボーニの問題は、推論の向きというよりは、脳を見れば心的現象の背後にある、より本質的な要因がわかると考えがちな本質主義的な発想ではないか 59

Slide 60

Slide 60 text

「人間の脳には『3つの動物』が住んでいる」　? 日本学術会議おもしろ情報館 https://www.scj.go.jp/omoshiro/kioku3/inde x.html 地球上に生命が生まれて三十数億年。その間に、生き物の脳もゆっくりと進化し、今の形になっていきました。人間の脳には、その進化のなごりが受け継がれています。人間の脳は、「3つの部分」から成り立っています。 60

Slide 61

Slide 61 text

ポール・マクリーンの「三位一体脳 (Triune brain)」ヒトの脳が，原始爬虫類の脳，古い哺乳類の脳，新しい哺乳類の脳という三つの基本的構造を保って進化したという説原始爬虫類の脳：前脳(大脳)の底部にある神経核構造、基底核古い哺乳類の脳：原始爬虫類の脳の周囲を取り囲む領域（中隔、海馬体、視床下部、扁桃体、帯状回）。情動的な行動を調節しているとした。「辺縁系」という言葉は，古い哺乳類の脳のことを指してマクリーンが導入新しい哺乳類の脳：ヒトで顕著に発達している新皮質。問題解決や記憶・学習に関与 61

Slide 62

Slide 62 text

しかし、鳥類でそれまで基底核と考えられていた領域にも，哺乳類の新皮質に相当する領域が多く含まれていることがわかり、2004年に多く部位が名称変更魚類や両生類，爬虫類の大脳に相当する領域がある。哺乳類が新しく獲得した構造ではないいわゆる「辺縁系」が情動に特化した部位ではない篠塚一貴, 清水透. 比較神経科学からみた進化にまつわる誤解と解説. 心理学ワールド 17–20 (2016). Boraud, T., Leblois, A. & Rougier, N. P. A natural history of skills. Progress in Neurobiology 171, 114–124 (2018). 皮質基底核ループなどが、「人間らしい」精緻な運動や実行機能、習慣行動などに関与しており、3つの部位に切り分けることではヒトの行動・心理を理解できない 62

Slide 63

Slide 63 text

脳は（３つではなく）一つリサ・フェルドマン・バレット. バレット博士の脳科学教室 7 1/2章. (2021). 三位一体脳説は現代の神話〈理性〉対〈本能と情動〉という図式はプラトン以来、西欧文化において人間の行動の説明として用いられてきたダーウィン『人間の由来』人間は理性的思考が手なずけている内なる太古の野獣を宿す本能と情動の抑制できれば合理的で責任ある行動？合理性とは？情動の影響を受けないことだと一般に考えられているが、危険が差し迫っているときに恐れを感じるのは合理的身体予算管理、生存、繁殖合理性は、脳のもっとも重要な仕事である身体予算管理、すなわち水分、塩分、グルコースなどの、われわれが毎日利用している、体に不可欠の資源の管理という観点からうまく定義できる。この観点からすると、合理性とは資源の消費や蓄積を通じて、直近の環境のもとで繁栄することを意味する。 63

Slide 64

Slide 64 text

二重過程理論の見直し Evans, J. St. B. T. & Stanovich, K. E. Dual-Process Theories of Higher Cognition: Advancing the Debate. Perspect Psychol Sci 8, 223–241 (2013). https://doi.org/10.1177/1745691612460685 二重過程理論者の著者らもシステム1、２の使用を中止。タイプ1、2処理という古い用語に戻した。「システム」は脳内の一連の処理・入出力を連想させるタイプ1は、必ずしも進化的に古いとされる領域にあるとは限らない意識的な思考が必ずしも行動を制御しているとは限らないタイプ1の過程が常に認知バイアスの原因となり、タイプ2の過程が常に正しい反応の原因となる、というのは誤り 64

Slide 65

Slide 65 text

ポルドラック『習慣と脳の科学』習慣とは脳や心のはたらきを議論する際、不確実な環境の中で適切に意思決定して行動しなければならない状況が想定されることが多い。しかし、世界は「それほど変化しない」のも事実世界の安定した側面に対して自動的に対処し、長期的な目標を常に意識的に考えたり、目下の欲求に左右されたりせずに、適切な行動ができるようにすることが習慣の機能「目下の欲求」と「長期的な目標」の間 65

Slide 66

Slide 66 text

皮質–基底核（線条体）ループ大脳基底核と大脳皮質の間のループ構造大脳皮質からの大脳基底核の線条体への入力は直接路と間接路に別れて処理され、ドーパミンのの影響を受けながら、大脳皮質に戻る線条体の各部位は大脳皮質の異なる部位とつながる学習にともなって、前頭前野を含む「認知」皮質線条体ループから、運動野を含む「運動」皮質線条体ループへと活動がらせん状に移行意識的な目標指向行動から無意識的な習慣への移行と対応大脳皮質と大脳基底核が、理性と本能に対応するわけではない。一方が他方を支配しているわけでも、両者が「闘争」しているわけでもないハイパー直接路大脳皮質（前頭葉）から大脳基底核へのハイパー直接路が行動の抑制に関わるが、長期的な目標を達成するための自制心とはほぼ無関係らしい自制心とは、衝動を抑えるの能力ではなく、衝動を抑える必要がある状況を回避する能力かもしれない。 66

Slide 67

Slide 67 text

行動変容は可能か目標指向行動と習慣は、現代のAIでも使われる強化学習の2つのタイプ（モデルベース型とモデルフリー型）と対比「それほど変化しない世界」にうまく対応するための習慣システムは、変化や刺激に満ちた現代社会において依存症などの弊害を生み出している健康問題や地球温暖化問題に対処するための行動変容へのニーズ現状、有効な方法はほとんどない各研究を信頼性とともに議論「ポスト再現性の危機」のナラティブ脳科学は行動変容のための新しい方法は生み出せるか侵襲性の高い方法は効果がありそうだが、安全性や倫理的な課題ストップシグナル課題のようなマウスでもできる課題が人間の自制心のモデルになるのか 67

Slide 68

Slide 68 text

おわりに 1. データ取得法・分析法は事前に決めよう予備実験・解析は柔軟でよいが、統計的推論のための実験・データ解析では自らの自由度を縛る 2. 独立データで汎化・再現性を調べよう１データセットで確証的研究は困難せめてクロスバリデーションしよう 3. 統計手法/モデルに思考を乗っ取られないようにしよう "All models are wrong, but some are useful" (George Box) 研究対象についてあなたの方がよく知っているはず違和感をもとに、より良い手法を探索しよう 4. 脳を見たら心的現象の本質がわかるはずという発想はやめよう少なくとも現状は、ほとんどわからない本質がわからなくても予測や制御はできる（場合がある）現実世界での予測や制御のテストをパスできるように基礎研究を頑健にしよう 68