$30 off During Our Annual Pro Sale. View Details »

再現性の科学: 脳科学は実世界で役に立つか

Yuki Kamitani
January 27, 2023

再現性の科学: 脳科学は実世界で役に立つか

サロンLHS(2023.1.27)
再現性の科学: 脳科学は実世界で役に立つか 
神谷之康(京都大学 情報学研究科)

以下のスライドを編集し、新しいコンテンツを追加しました:
https://speakerdeck.com/ykamit/shi-yan-detajie-xi-zai-ru-men-lun-wen-wo-hueikuniyusu-nisinaitameni

Yuki Kamitani

January 27, 2023
Tweet

More Decks by Yuki Kamitani

Other Decks in Science

Transcript

  1. サロンLHS(2023.1.27)
    再現性の科学: 脳科学は実世界で役に立つか
    神谷之康(京都大学 情報学研究科)
    [email protected]
    http://kamitani-lab.ist.i.kyoto-u.ac.jp
    ykamit
    Last updated: 2023.1.27
    1

    View Slide

  2. 脳科学の信頼性
    脳科学は、「心を理解する」、「精神疾患の解明・治療」など、誰もその重要
    性は否定できないお題目を掲げ、研究予算などの面で優遇されてきた。その期
    待に応えてきただろうかか。
    派手にプレスリリースされる研究は、中身は怪しいものが多い。「まだ新しい
    学問だから」「in its infancy」と自己欺瞞を続けてきた結果、成熟した学問にな
    りきれていない。
    脳科学とは
    学術的には「神経科学」
    分子、システム、病態、数理など多様な分野・アプローチ
    一般に「脳科学」でイメージされるのは認知神経科学(非侵襲的手法で脳
    機能を研究。心理学の一部と重なる)
    2

    View Slide

  3. 今日のテーマ
    心理学では著名な研究を含め、過去の多くの実験結果に再現性がないがないこ
    とが明らかとなり、現在改革が進んでいる。神経科学も、追試がしにくくて問題
    が可視化されていないだけかもしれない。
    一方で、比較的堅固な神経科学の研究成果が分野外で知られておらず、社会科学
    や人文学を含む他分野で、脳と心に関する古い理解のままアップデートされて
    いないことがある
    脳科学の方法論とその課題
    信頼性を高めるための方法
    新しい脳の見方
    実世界での活用の可能性
    (cf., ラッセル・ポルドラック『習慣と脳の科学』)
    3

    View Slide

  4. 『習慣と脳の科学』
    Russel Poldrack の Hard to Break:
    Why Our Brains Make Habits Stickの
    邦訳。神谷が監訳
    なぜ悪い習慣を断ち切ることが難し
    いのか、どのようにすれば断ち切る
    ことができるのか
    神経科学と心理学の歴史を繙ききな
    がら、学習、意思決定、自制心等に
    ついての最新の知見を紹介。行動変
    容のための方策を議論
    「ポスト再現性の危機」の科学書
    データリテラシー
    個々の研究の信頼性
    2023/2/10配本予定
    https://www.msz.co.jp/book/detail
    /09588/ 4

    View Slide

  5. Russel Poldrack
    http://poldrack.github.io/
    スタンフォード大学の心理学者。脳画像を使っ
    た認知科学神経科学
    研究では、とくに、行動抑制にかかわる「ハイ
    パー直接路」(後述)をヒトで解明したことで
    有名
    再現性・透明性の高い研究実践を目指すオープ
    ンサイエンス運動のリーダーとしての顔も
    5

    View Slide

  6. イアコボーニ騒動
    2007年11月にニューヨーク・タイムズに掲載され
    たコラムをめぐる騒動(Link)
    筆者は「ミラーニューロン」の研究で知られ
    るマルコ・イアコボーニ
    当時の米大統領選の主要候補者の写真やビデ
    オを被験者に見せて脳スキャン
    「前帯状皮質の活性化はヒラリー・クリント
    ンに対する複雑な感情を示し、一方、扁桃体
    の活性化は共和党の候補者ミット・ロムニー
    に対する有権者の不安を示している」などと政
    治評論
    ポルドラックは批判のオープンレターを執筆。3日
    後にニューヨーク・タイムズに掲載
    認知神経科学におけるオープンサイエンス運動
    のきっかけの一つ 6

    View Slide

  7. 何が問題か
    「不安 → 扁桃体の活動」&「扁桃体の活動」ゆえに「不安」??
    後件肯定の誤謬(?)
    「強い匂い → 扁桃体の活動」もある
    ポルドラックはこれを誤った「逆推論(reverse inference)」と断じた
    なぜ逆か
    標準的な脳画像研究(脳機能マッピング)では、実験者が操作する刺激や
    課題(独立変数)の結果として脳がどのように反応するか(従属変数)を
    調べる
    この実験デザインによる知見(「不安 → 扁桃体の活動」)をもとに、逆向
    きの推論をしている、という批判
    しかし、(現在でも多くの人が誤解しているが)脳活動から心理状態を推定す
    ること自体が誤っているわけではない(→ブレイン・デコーディング)
    7

    View Slide

  8. 脳機能マッピングの標準的方法
    脳画像の各画素値を実験条件のダミー変数で説明する線形回帰モデル
    : 脳画像の各画素(ボクセル)の強度の時系列(試行列)
    : 実験条件(刺激/課題のオン・オフ等)および共変量の時系列(デ
    ザイン行列)
    : 各要因の係数
    計測データから、回帰係数 を推定
    脳全体の画素(>1万)について上記の回帰解析
    各被験者の を元にグループ解析も。ランダム効果としての被験者
    (のコントラスト)がゼロかの検定。多重比較補正して有意なボクセル・
    クラスターを同定(「光る」脳部位)
    Satistical parametric map (SPM)とも呼ばれる。Karl Fristonらが確立
    構造画像や安静時脳活動の特徴と被験者属性(疾患・健常など)の関係を
    同様の手法で調べることも。BWAS(brain-wide association study)
    8

    View Slide

  9. 脳マッピングの問題点
    擬似的因果推論
    形式的には統計的因果推論。実験操作・要因の効果を共変量をコントロー
    ルしながら調べる。回帰係数の不偏推定
    しかし、たとえば「右手を動かす」という実験条件で脳活動が変化したと
    き、「右手を動かすことが原因で脳活動が変化した」と結論する?
    「脳活動 → 手の運動」の因果の方が自然
    「不安」と「扁桃体の活動」の間の因果の向きは決められるか?
    心理学や社会科学の方法論を脳データ解析に当てはめたもので、脳のメカ
    ニズムや情報表現を調べることには向いていない
    イアコボーニのケースを逆推論とみなすこと自体が、特定の方法論に囚わ
    れたミスリーディングなラベルづけでは?
    9

    View Slide

  10. 統計検定・P値への過度の依存
    再現性の危機の中心的問題
    疑わしい研究慣行(Questionable Research Practices, QRPs)
    Pハッキング
    HARKing (Hypothesizing After the Results are Known)
    チェリーピッキング
    検定の内在的問題
    基準率に依存
    わずかな効果量でもサンプルサイズが大きければ有意になる
    ランダムサンプリングの仮定(ランダム効果、一般化可能性)
    10

    View Slide

  11. 効果量の解釈が困難
    脳画像・脳活動における「意味のある効果量」はよくわからない
    信号値や脳の厚さが1%が変化することの意味は?
    実世界での意義
    臨床試験における「治療必要数(NNT)」のようなものはあるか
    精神疾患・発達障害のバイオマーカーとして期待されているが使
    えるものはほとんど存在しない
    脳活動から課題・刺激変数に変換すれば理解しやすい(→ブレイン・デコ
    ーディング)
    11

    View Slide

  12. 「平均脳」にもとづく推論
    脳イメージングでは、多数の被験者のグループ解析が一般的
    グループ平均の脳マップはどの個人の脳マップとも似ていないことが多い
    心理や行動(state, not trait)について、個体を超えたグループの「母平
    均」に意味はある?
    脳活動や行動は一義的には個体に属するもの
    グループの知見を個体に汎化するには「エルゴード性」が必要。だ
    が…↓
    Fisher, A. J. et al. Lack of group-to-individual generalizability is a
    threat to human subjects research. Proceedings of the National
    Academy of Sciences 115, E6106–E6115 (2018).
    http://doi.org/10.1073/pnas.1711978115
    個体ごとにextensive に計測するアプローチを重視すべき(→Small is
    beautiful)
    Naselaris, T., Allen, E. & Kay, K. Extensive sampling for complete
    models of individual brains. Current Opinion in Behavioral Sciences
    40, 45–51 (2021). https://doi.org/10.1016/j.cobeha.2020.12.008
    12

    View Slide

  13. 再現性の危機
    古くから繰り返し議論されてきたが2010年代になって心理学を中心に問題が表
    面化し、改革が進められてきた。書籍や解説論文も多数発表されている
    書籍
    Chambers, C. The Seven Deadly Sins of Psychology: A Manifesto for
    Reforming the Culture of Scientific Practice. (Princeton University Press,
    2019).
    【邦訳】クリス・チェインバーズ. 心理学の7つの大罪――真の科学で
    あるために私たちがすべきこと. (みすず書房, 2019).
    Ritchie, S. Science Fictions: How Fraud, Bias, Negligence, and Hype
    Undermine the Search for Truth. (Metropolitan Books, 2020)
    なかむらかずや. 書評|壊れた科学に泣かないで|"Science Fictions"
    by Stuart Ritchie. カタパルトスープレックス (1603323000).
    https://www.catapultsuplex.com/entry/science-fictions
    13

    View Slide

  14. 日本語解説論文・プレゼンテーション
    池田功毅 & 平石 界. 心理学における再現可能性危機:問題の構造と解決策.
    Japanese Psychological Review (2016).
    https://www.jstage.jst.go.jp/article/sjpr/59/1/59_3/_pdf/-char/ja
    平石 界 & 中村 大輝. 心理学における再現性危機の10年. 科学哲学 54, 27–50
    (2022). https://doi.org/10.4216/jpssj.54.2_27
    元木康介, 米満文哉, & 有賀敦紀. 消費者行動研究における再現性問題と研究
    実践. 消費者行動研究 (2021).
    https://www.jstage.jst.go.jp/article/acs/27/1_2/27_202103.002/_article/-
    char/ja/
    Yuki Yamada. 再現性問題は若手研究者の突破口. (2020).
    https://www.slideshare.net/momentumyy/ss-238482877
    14

    View Slide

  15. 再現性とは
    同じデータ 異なるデータ
    同じ分析法 Reproducibility (再生性) Replicability(再現性)
    異なる分析法 Robustness(頑健性) [Generalizability
    (一般化可能性)]
    同じ実験デザインで新たにデータを取得し(直接追試; 概念的追試)、
    同じ方法で分析したとき、同じ結果になるか(同じ方向で有意か)
    分野によるが、心理学では上のような用語の整理が定着。「一般化可能
    性」はややレイアが異なる(異なる実験操作や母集団も想定)
    個人的にはReproducibility と Replicability が語感的に逆のような気もする
    「再現性の危機」で問題となるのは主にReplicabilityだが、表現として
    は"Reproducibility"が使われることが多い
    15

    View Slide

  16. Reproducibility (再生性、再実行可能性)
    同じデータを同じ分析法で解析したとき同じ結果が得られるか
    論文のデータやコードが公開されているか
    公開されたコード・データで同じ結果を再生できるか
    青木俊太郎. オープンサイエンスのすすめ. 日本認知心理学会セミナー
    (2019). https://speakerdeck.com/s_aoki/open-science-at-kamitani-
    lab-2019
    Robustness(頑健性)
    同じデータを異なる分析法(前処理の方法、統計モデルのパラメータな
    ど、恣意的に決められる要素を変更)で解析したとき、(ほぼ)同じ結果
    が得られるか
    自由度の高い分析法を用いているのに、報告の際、都合のいい結果をチェ
    リーピッキングしていないか(→ QRPs)
    可能な分析法を網羅的に試す。頑健性テスト(robustness test)、マルチ
    バース分析(multiverse analysis)、仕様カーブ分析(specification curve
    Analysis)など
    16

    View Slide

  17. Generalizability(一般化可能性)
    一般化可能性の危機
    Yarkoni, T. The generalizability crisis. Behavioral and Brain Sciences
    (2020). https://doi.org/10.1017/S0140525X20001685
    未測定の変数に起因。被験者の属性(種、国籍・文化など)や実験条件
    (刺激の種類、など)を超えて、知見が一般化可能か
    他の3つは同一の実験・母集団を前提にするので、やや異なるレイアの概念
    Yarkoni(神経科学ではNeurosynthの作者として有名)は、研究者の自己
    欺瞞に失望して、この論文を出した後アカデミアを去った
    17

    View Slide

  18. 心理学における再現性の検証
    Open Science Collaboration.
    Estimating the reproducibility of
    psychological science. Science
    (2015).
    https://doi.org/10.1126/science.aac
    4716
    心理学の主要ジャーナル3誌
    (Psychological Science, Journal of
    Personality and Social Psychology,
    Journal of Experimental
    Psychology: Learning, Memory, and
    Cognition)に2008年に掲載された
    97報の研究を追試
    36%でのみで、オリジナルと同じ方
    向で統計的に有意
    効果量は、オリジナルの約半分
    18

    View Slide

  19. 同じような行動実験でも、経済学の行動実験の再現率は61%、実験哲学(哲
    学者による行動・心理実験)は78%
    Camerer, C. F. et al. Evaluating the replicability of social science
    experiments in Nature and Science between 2010 and 2015. Nat
    Hum Behav 2, 637–644 (2018).
    Cova, F. et al. Estimating the Reproducibility of Experimental
    Philosophy. Rev Phil. Psych. (2021).
    1000回以上引用されている著名な論文の再現性がない(社会的プライミン
    グ、ステレオタイプ脅威、パワーポーズ、自我消耗、顔面フィードバック
    仮説、「目」の効果、などなど)。条件によっては効果があるが、効果量
    はとても小さい
    再現性のない研究ほど引用される。ジャーナルの「ランク」が高いほど信
    頼性が低い
    Serra-Garcia, M. & Gneezy, U. Nonreplicable publications are cited
    more than replicable ones. Science Advances (2021).
    Brembs, B. Prestigious Science Journals Struggle to Reach Even
    Average Reliability. Frontiers in Human Neuroscience (2018).
    19

    View Slide

  20. 神経科学研究の再現性
    過去の研究の再現性を検証する目立った動きはない
    動物実験(とくにサル)では、実験系を厳密に再現することが難しい
    「モデル動物」・プロトコル標準化でよいのか? 異質性・多様性も重要
    Voelkl, B. et al. Reproducibility of animal research in light of
    biological variation. Nat Rev Neurosci (2020).
    ニューロンやサンプルの恣意的な選択
    「サルは2頭でいいんですか」(→一般化可能性)
    効果量・検出力の分析から、ポジテイブな結果の半数以上は偽陽性と推測
    される(認知神経科学)
    Szucs, D. & Ioannidis, J. P. A. Empirical assessment of published
    effect sizes and power in the recent cognitive neuroscience and
    psychology literature. PLOS Biology (2017).
    20

    View Slide

  21. VBM研究(脳構造と行動[trait]の相関)の低い再現性
    Boekel, W. et al. A purely confirmatory replication study of structural
    brain-behavior correlations. Cortex
    (2015).https://doi.org/10.1016/j.cortex.2014.11.019
    Kharabian Masouleh, S. et al. Empirical examination of the
    replicability of associations between brain structure and
    psychological variables. eLife (2019). 
    https://doi.org/10.7554/eLife.43464
    安静時脳活動・機能結合(resting state brain activity, functional
    connectivity)「バイオマーカー」の低い再現性
    Noble, S. et al. Influences on the Test–Retest Reliability of Functional
    Connectivity MRI and its Relationship with Behavioral Utility.
    Cerebral Cortex (2017). https://doi.org/10.1093/cercor/bhx230
    He, Y. et al. Nonreplication of functional connectivity differences in
    autism spectrum disorder across multiple sites and denoising
    strategies. Human Brain Mapping (2020). 
    https://doi.org/10.1002/hbm.24879
    21

    View Slide

  22. 神経科学研究の一般化可能性
    標準的な行動課題(恐怖条件づけ、遅延見本合わせ課題、ストップシグナ
    ル課題、など)で得られた知見は、自然な条件下の行動に汎化できるか
    (生態学的妥当性)
    「コントロールされた実験」の再現しやすさとのトレードオフ
    Nastase, S. A., Goldstein, A. & Hasson, U. Keep it real: rethinking the
    primacy of experimental control in cognitive neuroscience.
    NeuroImage (2020).
    https://doi.org/10.1016/j.neuroimage.2020.117254
    Sonkusare, S., Breakspear, M. & Guo, C. Naturalistic Stimuli in
    Neuroscience: Critically Acclaimed. Trends in Cognitive Sciences 0,
    (2019). https://doi.org/10.1016/j.tics.2019.05.004
    in vitroからin vivoへ、線虫、ハエ、マウスからヒトへ汎化できるか
    22

    View Slide

  23. 技術的・倫理的に追試が困難
    たとえば、1990年代のサルの電気生理研究は今後再現されるのか
    一般性のある知識や法則として受け継ぐべきか、歴史的叙述として記
    録すべきか
    精神疾患治療に役立ってきたか
    半世紀以上の研究、何千ものRCT、何百万もの投資資金を経ても、精
    神障害に対する心理療法や薬物療法の効果の大きさは限定的であり、
    現在行われている治療研究は頭打ち」
    Leichsenring, F. et al. The efficacy of psychotherapies and
    pharmacotherapies for mental disorders in adults: an umbrella review
    and meta-analytic evaluation of recent meta-analyses. World Psychiatry
    (2022). https://doi.org/10.1002/wps.20941
    23

    View Slide

  24. 再現できないことが当たり前になっていないか
    よくある研究者の言い訳(自己欺瞞?)の傾向と対策
    「時代や文化が違えば再現できなくて当たり前」←だったら、一般的な法
    則のように論文で主張したり、授業で教えたり、一般書でエビデンスとし
    て紹介したりすべきでない。実際米国では、高い授業料を払って嘘を教え
    られている、と大学・アカデミアに対する不信の声がある
    「研究アプローチの多様性が重要」←その通り。でも「多様性」という美
    名の下、再現性のない実験研究分野も保護されるべき?
    「科学は常に修正されていくものだから、再現性が低いのは科学の通常の
    姿」←科学理論の話と混同? 再現性の欠如は、エビデンスが当てになら
    ないということ。理論なら「計算間違い」のレベル(?)
    「研究の良し悪しは、どれだけ議論を喚起したかで決まるのであって、正
    しいかどうかは重要でない」←内輪の論理。それで納税者は納得する?
    24

    View Slide

  25. Questionable Research Practices (QRPs)
    あからさまな研究不正(ねつ造、改ざん、盗用、等)ではないが、研究者
    の価値観に違反する研究行動で、研究成果の信頼性に害を及ぼす研究実践
    QRPsという言葉は、John, Loewenstein, Prelec(2012)で広まった
    調査の結果、回答者の半数以上のQRPs行っており、そのような行
    為が問題だとは認識していなかった
    代表的なQRPsであるPハッキングと任意停止(optional stopping)が、オラ
    ンダで初めて、研究の誠実性に関する行動規範に違反と認定される
    Lakens, D. The 20% Statistician: P-hacking and optional stopping
    have been judged violations of scientific integrity. The 20%
    Statistician (2020).
    ネカト(捏造、改ざん、盗作)と同等の研究不正とされる日も近いか
    25

    View Slide

  26. 代表的QRPs
    p-hacking
    人為的な方法で、標準的な有意性の基準(通常α=0.05)を満たす結果を得
    る可能性を高める行為。例えば、複数の分析を行い、p<.05のものだけを報
    告する、
    HARKing
    'Hypothesizing After the Results are Known'(HARKing)。研究の結果に
    基づいて得られた仮説をあたかも事前の仮説であったかのように報告する
    行為
    FORRT. A community-sourced glossary of open scholarship terms.
    Nat Hum Behav 1–7 (2022). Preprint
    名付けることの重要性。p-hackingやHARKingというキャッチーな名前によって
    一気に問題が可視化された
    で、結局何が問題かというと‥
    26

    View Slide

  27. Researcher degree of freedom (研究者自由度)
    論文には報告されないデータ収集と分析の自由度があり、偽陽性率を最大5%と
    する名目にもかかわらず、実質的に、どのような研究でも「統計的に有意」な
    結果を発表できてしまう
    Simmons, J. P., Nelson, L. D. & Simonsohn, U. False-Positive Psychology:
    Undisclosed Flexibility in Data Collection and Analysis Allows Presenting
    Anything as Significant. Psychol Sci 22, 1359–1366 (2011).
    https://doi.org/10.1177/0956797611417632
    特に脳イメージング研究では、解析段階の自由度が高い
    最近の241件のfMRI研究において、方法論の報告と方法論の選択をレビュ
    ー。研究の数とほぼ同数のユニークな分析パイプラインが存在
    Carp, J. The secret lives of experiments: Methods reporting in the fMRI
    literature. NeuroImage 63, 289–300 (2012).
    https://doi.org/10.1016/j.neuroimage.2012.07.004
    27

    View Slide

  28. 研究者自由度が偽陽性率にどのような影響を与えるか
    Simmons et al., (2011), Table 1
    a)従属変数の選択、b)サンプルサイズの選択、c)コントロール変数(共
    変量)の使用、d)実験条件のサブセットの報告、という4つの一般的な自
    由度とその組み合わせの影響を評価
    ランダムなデータ(効果は存在しない)を生成し、少なくとも1つが有意水
    準以下となる割合を表示
    すべて組み合わせると、p<0.05の有意水準(名目5%の偽陽性率)で、60%を
    超える偽陽性が生じる
    28

    View Slide

  29. Optional stopping (N増し)の効果
    Simmons et al., (2011), Fig 1
    で有意になるまでN増ししたときの偽陽性率を計算
    横軸:一回に追加する観測数
    nの初期値:10か20
    有意性が得られるか、n=50で停止
    n=10から始め1足すごとに検定すると、22.1%の偽陽性率(名目5%)
    29

    View Slide

  30. ただし、 のときだけN増しすれば偽陽性はさほど高くな
    らない。N増しは再現性の低さの主要因ではないかも(?)
    Murayama, K. et al. Research Practices That Can Prevent an Inflation
    of False-Positive Rates. Pers Soc Psychol Rev 18, 107–118 (2014).
    https://doi.org/10.1177/1088868313496330
    ここでは、n=50で停止しているが、ずっと続ければいつかほぼ確実に有意
    になる(偽陽性率100%!)
    母平均の差や相関がピッタリ0ということは普通ない
    どんな小さな差や関係(効果量)でもNを増やせば確実に有意になる:
    相関係数0.1でも、N=400でp<.05
    どのような効果量に意味があるかを考慮し、事前にNを決めておくべき
    (→ 最小関心効果量 [minimum effect size of interest]、検出力分析、
    サンプルサイズ設計)
    逐次解析(sequential analysis)やベイズファクターなど、事前にNを決め
    ない方法もあるが、これらの方法は、サンプルサイズ以外の点でより緻密
    な事前設定や仮定の選択が必要
    研究者自由度を縛らない限り問題は解決しない
    30

    View Slide

  31. 【ケーススタディ】
    31

    View Slide

  32. Why Most Published Research Findings Are
    False
    Ioannidis, J. P. A. Why Most Published Research Findings Are False. PLoS
    Med (2005). https://doi.org/10.1371/journal.pmed.0020124
    再現性が広く議論される以前に、統計検定のロジック、サンプルサイズの小
    ささ、実験デザインの自由度、インセンティブ・競争、などがもたらす研
    究の再現性の低さについて、シンプルなモデルを用いて議論した論考
    統計検定(P値)は、finding(ここでは「統計的に有意な」研究成果)の正し
    さを保証するものではない
    むしろ、多くの分野では、主張されているfindingは、単にバイアスを表現
    したものである(Null field, 虚無分野)
    32

    View Slide

  33. モデルの設定
    (Ioannidis, 2005)
    : 分野で調査している関係(仮説)の数
    : 事前オッズ。真の関連と偽の関連の数の比。基準率:
    研究成果(findings): 統計的に有意な関係(仮説)。※実際には有意で
    ない結果も重要だが
    : 第一種過誤(偽陽性)率。実際には関係がないのに関係が「ある」
    (統計的に有意)と主張してしまう確率。統計検定の有意水準
    : 第二種過誤(偽陰性)率。実際には関係があるのに「ない」と主張し
    てしまう確率
    : 検出力(Power)
    : Positive predictive value(陽性的中率)。主張された研究成果
    (統計的に有意な関係)が真の関係である確率
    33

    View Slide

  34. (Ioannidis, 2005)
    34

    View Slide

  35. 感染症検査でおなじみのロジック
    感染症検査 統計検定
    検査で陽性 統計的に有意
    PPV: 検査で陽性のときに実際に
    感染している割合
    PPV: 統計的に有意なとき真の関係であ
    る割合
    有病率が低ければPPVは小さい、
    すなわち、検査で陽性でも感染の
    確率は小さい
    事前オッズ が小さければPPVは低い、
    すなわち、統計的に有意な結果でも真で
    ある確率は低い
    「有意水準 で検定した結果は95%正しい」
    検定だけでは結果の正しさは保証されない(統計モデルの仮定が正しく、
    QRPsによるバイアスがないとしても)
    35

    View Slide


  36. (事前の真と偽の比が1:1)
    (事前の真と偽の比が1:10)
    (検出力を0.8→0.5 にしたら)
    事前オッズ( )と検出力( )が小さいと、有意でも真である確率は0.5
    以下になりうる(神経科学研究の検出力の中央値は0.2程度という説も )
    36

    View Slide

  37. サンプルサイズが小さい(検出力が低い)のに有意になった とき、「低い
    検出力でも見つけられる強い結果だ」と勘違いする人がいるが間違い。サ
    ンプルサイズが小さいと有意な結果が真である割合は低い
    インパクトが高い研究(意外性の高い、前例がない、等)ほど が小さい
    ので有意な結果も信用できない。より固いエビデンスが必要
    「途方も無い主張には、途方も無い証拠が求められる」(カール・セ
    ーガン)
    「素人発想、玄人実行」(金出武雄)の後半がとくに重要
    37

    View Slide

  38. 追試
    回実験(検査)してすべて有意(陽性)だとすると
    のとき( 、 、 )
    のとき
    のとき
    追試できれば、その関係(仮説)が真である確率(PPV)はぐっと上がる
    異なる実験手法で同じリサーチクエスチョンに対するconverging evidence
    を得ることにも当てはまる。Triangulation(三角測量)
    Munafò, M. R. & Davey Smith, G. Robust research needs many lines of
    evidence. Nature 553, 399–401 (2018). 38

    View Slide

  39. 統計的に有意だが偽である可能性が高い研究
    1. サンプルサイズが小さい(検出力 が小さい)
    2. 効果量が小さい(検出力 が小さい)
    3. 検証された関係の数が多く、事前に選択されていない。「確証的」ではな
    く「仮説生成的」である(事前オッズ が小さい)
    4. 意外性のある研究(事前オッズ が小さい)
    「途方も無い主張には、途方も無い証拠が求められる」(カール・セ
    ーガン)
    「素人発想、玄人実行」(金出武雄)の後半がとくに重要
    5. デザイン、アウトカム、分析方法の柔軟性が高い(バイアスが大きい、 )
    6. 金銭的その他の利益によるバイアスが大きい(バイアスが大きい、 )
    7. 分野がホットである(独立した研究が多い、 )
    39

    View Slide

  40. どうすれば改善できるか・何を学ぶべきか
    1. 独立データを用いた検証・三角測量
    追試、メタアナリシス、オープンデータ・オープンサイエンス
    機械学習による予測・汎化
    クロスバリデーション
    二度漬け禁止
    2. 検出力( )を上げる
    P値だけでなく効果量を意識
    検出力分析等によるサンプルサイズ設計
    40

    View Slide

  41. 3. バイアス( )を下げる
    分野・研究室の研究慣行の見直し(疑わしい研究慣行(Questionable
    research practices、QRPs)
    事前登録による研究者自由度の抑制
    多重比較補正
    混合モデル等によるデータ構造の適切な表現
    因果推論による交絡・バイアスへの対処、実験デザイン
    4. 事前オッズ( )の検討
    分野のシステマティック・レビュー、メタアナリシス、Introductionの
    重要性
    探索的研究と確証的研究の区別
    ベイズ推論によるモデルの不確実性の表現
    41

    View Slide

  42. 統計学 vs. 機械学習
    Bzdok, D., Altman, N. & Krzywinski, M. Points of Significance: Statistics versus
    machine learning. Nature Methods 15, 233–234 (2018).
    推論(Inference):データ生成過程をモデル化し、パラメータ推定、仮説
    検定。通常1標本(1データセット)で完結
    予測(Prediction):未観測のデータや将来の挙動を予測(out-of-sample
    prediction)。独立データで評価
    統計学は推論を重視、機械学習や予測を重視
    :
    統計学 → (不偏推定)
    機械学習 → (汎化誤差)
    42

    View Slide

  43. 説明から予測へ
    私が機械学習を推す理由
    統計学はデータ生成メカニズムを説明するというが、一般的な統計モデルは神
    経科学の実験データの生成プロセスの説明になっていない。そのようなモデル
    のパラメータを精緻に推定し、検定をすることにどれだけ意味があるのか。一
    方現状では、実験データを説明できるような生物・物理学的プロセス・機構モ
    デルは限られている
    モデルのパラメータを解釈することよりも、データにどれだけ汎化可能な情報
    があるかを調べるのが現実的なアプローチではないか
    Kamitani, Y. & Tong, F. Decoding the visual and subjective contents of the
    human brain. Nat Neurosci 8, 679–685 (2005).
    https://doi.org/10.1038/nn1444
    43

    View Slide

  44. 説明より予測を選ぶ
    Yarkoni, T. & Westfall, J. Choosing Prediction Over Explanation in Psychology:
    Lessons From Machine Learning. Perspectives on Psychological Science 12,
    1100–1122 (2017).
    心理学は、行動の原因を説明することにフォーカス。従来の統計モデルは
    心理学的メカニズムの複雑な理論を提供するものの、将来の行動を予測す
    る能力がほとんどない
    「適合度」や回帰係数の大きさや方向は、予測を保証しない
    未観測データ(モデル適合に使われなかった「サンプル外」データ)
    に対するモデルの予測で評価すべき
    バイアス-バリアンス・トレードオフ、オーバーフィッティング、交差検証
    (cross valuidation)、正則化などの機械学習の考え方が有用
    機械学習分野の原理と技術が、心理学をより予測的な科学にする
    短期的に予測に注力することは、長期的に行動の原因を説明する能力を向
    上させることができる(かも)
    44

    View Slide

  45. バイアス・バリアンス分解
    真の関数が で、 が学習データでフィットしたモデルとする
    と、モデル予測の平均二乗誤差(MSE; 学習データと の変動に対する期待値)
    は、バイアスとバリアンス(分散)に分解される
    45

    View Slide

  46. バイアス–バリアンス・トレードオフ
    単純なモデルは、データへの適合度は低く、平均的にバイアスが大きい
    が、予測値のばらつきは小さい(分散が小さい)
    モデルが複雑なほど(パラメータが多いほど)、データへの適合度は高
    く、平均的にバイアスは小さくいが、予測値の分散が大きくなる
    例)多項式回帰: 。左が1次、右が5次の多項式フィット。デー
    タを生成する真のモデルは2次
    Anqi Wu. Neuromatch, 2020
    46

    View Slide

  47. (James et al., 2021)
    モデルの複雑性(柔軟性、flexibility)を調整することで、バイアスとバリアン
    スのバランスを取り、予測誤差(MSE)を小さくすることができる
    バイアスを許容しつつ(不偏性を犠牲にする)、汎化誤差を小さくする
    正則化、縮小推定、カーネル法、ベイズ
    真のモデルが誤差最小になるとは限らない:正しいモデル vs 良いモデル
    深層学習はパラメータ数は多いがなぜか汎化する
    二重降下現象(double descent) 47

    View Slide

  48. オーバーフィッティング
    モデルの複雑性を上げすぎると(使える変数/特徴量がたくさんある時など)、
    特定の学習データへの適合度は良くなるが、それはノイズにもフィットするこ
    とも意味し、独立のデータ(ノイズは共有されない)に汎化しないことがあ
    る。避けるには
    正則化(regularization):モデルの柔軟性に制約
    情報量規準(AIC, BIC等)によるモデル選択
    クロスバリデーションによるモデル選択・汎化性能評価
    データをモデルのフィット用(訓練データ)と評価用(テストデー
    タ)に分けて、解析結果が母集団や独立なデータに汎化するかを確認
    48

    View Slide

  49. 分類(classification)問題(パターン認識)
    VC次元(Vapnik–Chervonenkis dimension)
    2次元平面の線は3つの点をどのようなクラスにも分離できる(VC次
    元は3)
    次元特徴量の線形判別器のVC次元は 。データ数 な
    ら任意に分類可
    https://en.wikipedia.org/wiki/Vapnik–Chervonenkis_dimension
    49

    View Slide

  50. データの特徴量(入力変数)の次元を増やせば、学習データにあるどんなパタ
    ーンでも分類できるようにフィットできる(「精度100%」がトリビアルに実
    現)。しかし、独立のテストデータで分類できるとは限らない(オーバーフィ
    ッティング)
     ↓
    データを見ながら共変量を加えていけば、有意差が出る条件は見つけられる
    が、再現性があるとは限らない。手元のデータのノイズにフィットしただけか

    研究者自由度の問題は、一標本(学習データ)だけを使ったフィットと推論に
    よるオーバーフィッティングの問題、とみることもできる
    ノイズへのフィットを報告しているだけの論文は実際に多そう(「ノイズで作
    った団子の品評会」)
    50

    View Slide

  51. 二度漬けの恐怖
    二度漬け(Double dipping): モデル・変数の選択やモデルのフィットに用いられ
    たのと同じデータを使ってモデルを評価することで、歪んだ記述統計や無効な
    統計的推測など、バイアスが生じること
    "Double dipping"「二度漬け」は下の論文で有名になった
    Kriegeskorte, N. et al. Circular analysis in systems neuroscience: the
    dangers of double dipping. Nature Neuroscience 12, 535–540 (2009).
    串カツの「二度漬け禁止」のように、海外でも一度かじったチップを
    ソースに再び漬けることを指す
    Seinfeld: Double Dipped
    データ操作による論理的帰結にも関わらず、データそのものが持つ情報と
    勘違いする
    ランダムデータに置き換えても同じような結果が出る
    二度漬による偽陽性は、当然、再現性が高い。追試して解決する問題
    でない
    51

    View Slide

  52. 機械学習では特に要注意
    訓練データをそのまま使ってモデルをテストすれば、当然「予測精
    度」は高くなる
    意外と気づかないのは、データ全部を使って特徴選択(遺伝子やボク
    セルの選択)した後、データを訓練セットとテストセットに分けるこ
    とで生じる「情報漏えい」
    前処理も含めてテストデータと訓練データと分けて扱う事が必要
    大羽成征. 遺伝子発現データに基づく予測と推定:言いたいこと
    と言えること. 統計数理 405–423 (2006).
    https://www.ism.ac.jp/editsec/toukei/pdf/54-2-405.pdf
    Oba, S. 言いたいことと言えること talk at ATR 神谷研セミナー
    (2008). https://www.slideshare.net/ShigeyukiOba/talk-
    at-atr-200812
    時系列データでは、時間的に隣接するデータを訓練・テストセットに
    分けると、時系列の相関により情報漏えいが起こって、spuriousに高い
    予測精度がでる
    52

    View Slide

  53. 重回帰分析のモデル選択も要注意
    AICやBICなどでモデル選択した後、同じデータで選択されたモデルの
    検定を行うとバイアスが生じる。別データを使わず対処する方法も研
    究されている
    竹内一郎. データ駆動型科学のための選択的推論(2019).
    https://www.ieice.org/~sita/forum/article/2019/201903231310.
    pdf
    Voodoo correlation: 統計的に有意だった変数(脳画像の画素など)を選択
    し、同じデータを使って課題との相関係数を計算すると、データのS/Nから
    考えてありえない高い相関になる
    Vul, E. et al. Puzzlingly High Correlations in fMRI Studies of Emotion,
    Personality, and Social Cognition. Perspect Psychol Sci 4, 274–290
    (2009). http://dx.doi.org/10.1111/j.1745-6924.2009.01125.x
    https://escholarship.org/content/qt92v2k0hm/qt92v2k0hm.pdf
    二度漬けは偽陽性への最速のショートカット
    53

    View Slide

  54. 予測モデルの仮定
    一般的な統計的推論の場合では、多くの仮定が満たされている必要がある
    線形回帰の場合、線形性や誤差の分散・分布、観測の独立性など
    予測モデルではこれらの標準的な仮定は不要
    バイアスと分散のトレードオフに注目し、分散を減少させながらバイ
    アスを積極的に活かす戦略
    予測変数と応答変数の間に線形関係の仮定は不要。線形と非線形を問
    わず、モデルの予測性能を比較して、1つを選択することができる
    正しいモデル vs. 良いモデル
    しかし、観測が独立であるという仮定は残る。一つのクラスタに属す
    る相関する観測値が、訓練セットとテストセットをまたがないように
    するなどの対応が必要
    de Rooij, M. & Weeda, W. Cross-Validation: A Method Every
    Psychologist Should Know. Advances in Methods and Practices in
    Psychological Science 3, 248–263 (2020).
    54

    View Slide

  55. 予測モデルによるデータ解析の実情
    2005年に私が機械学習による脳データ解析を世に出したのが一つのきっか
    けとなって、予測モデルを使った研究が認知神経科学や心理学で広く普及
    当初は、方法論的な健全性を求める研究者が参入して、野心的かつ方法論
    的に手堅い研究が大部分を占めていた
    健全性:モデルにウソがない。学習・テストデータを分ける
    しかししばらく経つと、P値信奉者が参入、予測精度がチャンスレベルより
    わずかに高く「有意」になる結果を出しては論文にするようになり、分野
    が再び偽陽性の海に覆われてしまった
    予測モデルは、予測精度や誤差で評価するのが基本
    しかし予測モデルの出力を被験者の反応のようにして検定される
    2値分類で正答率53%でもhighly significant と主張
    予測アプローチであっても、QRPsによるP値のハックは可能
    二度漬けも横行。二度漬けしていない論文のほうが珍しい
    可能な限りクロスバリデーションだけでなく、日、場所、人、刺激な
    どが異なる独立データで汎化をテストし、外的妥当性を確認すべき
    55

    View Slide

  56. 【ケーススタディ】
    56

    View Slide

  57. 因果
    相関関係は因果関係を含意しない
    相関:「Xが大きいとYが大きい」。Xを知ることでYがわかるかという
    情報の問題
    因果:「Xを大きくするとYも大きくなる」。介入・操作によって結果
    が変わるか
    「因果関係は相関関係を含意する」は正しいか
    カーネマンらの新著『ノイズ』にそのような記述があり、議論となる
    https://twitter.com/ykamit/status/1396788604177842182?
    s=20&t=N6boEgh9JT8MocWzgnaBWw
    反例:車で坂道を上がるとき、速度が一定になるようにアクセルを踏
    むと、アクセルを踏む強さと車の速度は相関しないが、両者の間には
    因果関係がある
    必ずしもトリッキーな例ではない。生命や脳のホメオスタシス
    57

    View Slide

  58. 神経科学における因果
    神経科学(生物学)では、因果でメカニズムやプロセスを想定しがち。統
    計的因果推論について話が噛み合わないことがある
    脳機能マッピングは形式的には統計的因果推論
    しかし、例えば「右手を動かす」という課題が脳活動を変化させたか
    らといって、「右手を動かすことが原因で脳活動が変化した」と結論
    するのはヘン
    「脳活動→手の運動」の因果関係の方が自然
    統計的因果推論としては「各試行に手を動かす条件をランダムに
    割り付ける介入が原因となって、脳活動の差が生じた」←神経科
    学者はそういうことにあまりに興味ない
    遺伝子操作やオプトジェネティクスなど「究極の介入」 が可能。しかし、
    コントロールが十分かは怪しい
    一方で、コントロールされた実験を絶対視することの弊害もある
    生態学的妥当性、自発脳活動の重要性
    Diener, E., Northcott, R., Zyphur, M. J. & West, S. G. Beyond
    Experiments. Perspect Psychol Sci 17456916211037670 (2022).
    58

    View Slide

  59. 「逆推論」、その後
    「扁桃体の活動(脳活動)→不安(心理状態)」は逆推論、とポルドラッ
    クが批判
    一方で、ポルドラックは「Kamitaniのデコーディングは妥当な逆推論」と
    積極的に紹介してくれた
    神谷「??」
    私のアプローチは、脳と心の関係を「コードするものとコードされる
    もの」としてとらえ、情報としての変換可能性に注目する
    特定の因果の向きを想定するわけではない
    「逆」とみなすこと自体が、特定の研究デザインに囚われたミスリー
    ディングなラベルづけ
    イアコボーニの問題は、推論の向きというよりは、脳を見れば心的現象の
    背後にある、より本質的な要因がわかると考えがちな本質主義的な発想で
    はないか
    59

    View Slide

  60. 「人間の脳には『3つの動物』が住
    んでいる」 ?
    日本学術会議 おもしろ情報館
    https://www.scj.go.jp/omoshiro/kioku3/inde
    x.html
    地球上に生命が生まれて三十数億年。そ
    の間に、生き物の脳もゆっくりと進化
    し、今の形になっていきました。人間の
    脳には、その進化のなごりが受け継がれ
    ています。
    人間の脳は、「3つの部分」から成り立っ
    ています。
    60

    View Slide

  61. ポール・マクリーンの「三位一体脳 (Triune brain)」
    ヒトの脳が,原始爬虫類の脳,古い哺乳類の脳,新しい哺乳類の脳という三つ
    の基本的構造を保って進化したという説
    原始爬虫類の脳:前脳(大脳)の底部にある神経核構造、基底核
    古い哺乳類の脳:原始爬虫類の脳の周囲を取り囲む領域(中隔、海馬体、
    視床下部、扁桃体、帯状回)。情動的な行動を調節しているとした。「辺
    縁系」という言葉は,古い哺乳類の脳のことを指してマクリーンが導入
    新しい哺乳類の脳:ヒトで顕著に発達している新皮質。問題解決や記憶・
    学習に関与
    61

    View Slide

  62. しかし、
    鳥類でそれまで基底核と考えられていた領域にも,哺乳類の新皮質に相当
    する領域が多く含まれていることがわかり、2004年に多く部位が名称変更
    魚類や両生類,爬虫類の大脳に相当する領域がある。哺乳類が新しく獲得
    した構造ではない
    いわゆる「辺縁系」が情動に特化した部位ではない
    篠塚一貴, 清水 透. 比較神経科学からみた進化にまつわる誤解と解説. 心
    理学ワールド 17–20 (2016).
    Boraud, T., Leblois, A. & Rougier, N. P. A natural history of skills.
    Progress in Neurobiology 171, 114–124 (2018).
    皮質基底核ループ などが、「人間らしい」精緻な運動や実行機能、習慣行動な
    どに関与しており、3つの部位に切り分けることではヒトの行動・心理を理解で
    きない
    62

    View Slide

  63. 脳は(3つではなく)一つ
    リサ・フェルドマン・バレット. バレット博士の脳科学教室 7 1/2章. (2021).
    三位一体脳説は現代の神話
    〈理性〉対〈本能と情動〉という図式はプラトン以来、西欧文化において
    人間の行動の説明として用いられてきた
    ダーウィン『人間の由来』
    人間は理性的思考が手なずけている内なる太古の野獣を宿す
    本能と情動の抑制できれば合理的で責任ある行動?
    合理性とは?
    情動の影響を受けないことだと一般に考えられているが、危険が差し
    迫っているときに恐れを感じるのは合理的
    身体予算管理、生存、繁殖
    合理性は、脳のもっとも重要な仕事である身体予算管理、すなわ
    ち水分、塩分、グルコースなどの、われわれが毎日利用してい
    る、体に不可欠の資源の管理という観点からうまく定義できる。
    この観点からすると、合理性とは資源の消費や蓄積を通じて、直
    近の環境のもとで繁栄することを意味する。 63

    View Slide

  64. 二重過程理論の見直し
    Evans, J. St. B. T. & Stanovich, K. E. Dual-Process Theories of Higher
    Cognition: Advancing the Debate. Perspect Psychol Sci 8, 223–241 (2013).
    https://doi.org/10.1177/1745691612460685
    二重過程理論者の著者らもシステム1、2の使用を中止。タイプ1、2処理と
    いう古い用語に戻した。「システム」は脳内の一連の処理・入出力を連想
    させる
    タイプ1は、必ずしも進化的に古いとされる領域にあるとは限らない
    意識的な思考が必ずしも行動を制御しているとは限らない
    タイプ1の過程が常に認知バイアスの原因となり、タイプ2の過程が常に正
    しい反応の原因となる、というのは誤り
    64

    View Slide

  65. ポルドラック『習慣と脳の科学』
    習慣とは
    脳や心のはたらきを議論する際、不確実な環境の中で適切に意思決定して
    行動しなければならない状況が想定されることが多い。しかし、世界は
    「それほど変化しない」 のも事実
    世界の安定した側面に対して自動的に対処し、長期的な目標を常に意識的
    に考えたり、目下の欲求に左右されたりせずに、適切な行動ができるよう
    にすることが習慣の機能
    「目下の欲求」と「長期的な目標」の間
    65

    View Slide

  66. 皮質–基底核(線条体)ループ
    大脳基底核と大脳皮質の間のループ構造
    大脳皮質からの大脳基底核の線条体への入力は直接路と間接路に別れ
    て処理され、ドーパミンのの影響を受けながら、大脳皮質に戻る
    線条体の各部位は大脳皮質の異なる部位とつながる
    学習にともなって、前頭前野を含む「認知」皮質線条体ループか
    ら、運動野を含む「運動」皮質線条体ループへと活動がらせん状
    に移行
    意識的な目標指向行動から無意識的な習慣への移行と対応
    大脳皮質と大脳基底核が、理性と本能に対応するわけではない。一方が他
    方を支配しているわけでも、両者が「闘争」しているわけでもない
    ハイパー直接路
    大脳皮質(前頭葉)から大脳基底核へのハイパー直接路が行動の抑制に関
    わるが、長期的な目標を達成するための自制心とはほぼ無関係らしい
    自制心とは、衝動を抑えるの能力ではなく、衝動を抑える必要がある状況
    を回避する能力かもしれない。
    66

    View Slide

  67. 行動変容は可能か
    目標指向行動と習慣は、現代のAIでも使われる強化学習の2つのタイプ(モ
    デルベース型とモデルフリー型)と対比
    「それほど変化しない世界」にうまく対応するための習慣システムは、変
    化や刺激に満ちた現代社会において依存症などの弊害を生み出している
    健康問題や地球温暖化問題に対処するための行動変容へのニーズ
    現状、有効な方法はほとんどない
    各研究を信頼性とともに議論
    「ポスト再現性の危機」のナラティブ
    脳科学は行動変容のための新しい方法は生み出せるか
    侵襲性の高い方法は効果がありそうだが、安全性や倫理的な課題
    ストップシグナル課題のようなマウスでもできる課題が人間の自
    制心のモデルになるのか
    67

    View Slide

  68. おわりに
    1. データ取得法・分析法は事前に決めよう
    予備実験・解析は柔軟でよいが、統計的推論のための実験・データ解
    析では自らの自由度を縛る
    2. 独立データで汎化・再現性を調べよう
    1データセットで確証的研究は困難
    せめてクロスバリデーションしよう
    3. 統計手法/モデルに思考を乗っ取られないようにしよう
    "All models are wrong, but some are useful" (George Box)
    研究対象についてあなたの方がよく知っているはず
    違和感をもとに、より良い手法を探索しよう
    4. 脳を見たら心的現象の本質がわかるはずという発想はやめよう
    少なくとも現状は、ほとんどわからない
    本質がわからなくても予測や制御はできる(場合がある)
    現実世界での予測や制御のテストをパスできるように基礎研究を頑健
    にしよう
    68

    View Slide