Slide 1

Slide 1 text

第4回 ⽂理融合探究ワークショップ / 第79回 データサイエンスセミナー@滋賀⼤2020/2/17 の内容をもとにWeb資料⽤に改変 @国⽴環境研究所 環境リスク・健康研究センター 林岳彦 “因果推論駅”の奥の⽅を 探訪しながら考える ̶ われわれの諸研究は内的に/外的にどのような繋がりを 持っているのか

Slide 2

Slide 2 text

⾃⼰紹介|どんな研究をしているのか ⽣態リスク評価、確率的リスク分析、因果推論 Yij θAlgae σj Means SD θFish Sensitivity differences among taxonomic groups Normal distributions Log(NOEC) Parameters were estimated by MCMC simulations θInvertebrate 階層ベイズモデルとモンテカルロシミュレーションを ⽤いた化学物質の⽣態リスクの定量化とリスク⽐較 Hayashi & Kashiwagi (2009) Hayashi & Kashiwagi (2010) Monte Carlo Analysis EPAF = F µ ECD - µ SSD s ECD 2 + s SSD 2 æ è ç ç ö ø ÷ ÷ µ ECD µ SSD s ECD s SSD Calculation of predictive distribution of EPAF Posterior distributions of ECD parameters Posterior distributions of SSD parameters Results: Quantitative Risk Comparison Median and 90% range of EPAF log10(EPAF) Large Risk→ ←Small Risk Chemicals Ammonia Copper Nickel Zinc Hayashi and Kashiwagi (2011)

Slide 3

Slide 3 text

⾃⼰紹介|どんな研究をしているのか 『はじめてのバックドア基準』 (Pearlの関数的因果モデルの解説) ⽣態リスク評価、確率的リスク分析、因果推論 ネオニコチノイド系農薬の ⾚トンボへの影響の因果推論 !",$ = &",$ − &"(),$ &"(),$ = +) ,-./)," − ,-./),"() + ⋯ + +2 ,-./2," − ,-./2,"() ++" 3-45" + 6) 7)," + ⋯ + 68 78," 背景知識からの因果モデルの構築 バックドア基準に基づく 統計モデルの構築 因果効果の推定

Slide 4

Slide 4 text

⾃⼰紹介|どんな研究をしているのか 社会対話・協働推進オフィス@国環研 林は準コアメンバー的な⽴場で⽐較的STS的な問題意識での 社会対話の実践を⽬指して参加している @taiwa_kankyo の twitterアカウント

Slide 5

Slide 5 text

解題 (イントロとして)

Slide 6

Slide 6 text

I. 解題 東京駅 東京駅の3つの⼊り⼝ 端的に⾔って愚問である どれも「東京駅」としかいいようがないし そもそもぜんぶ奥で繋がってる 八重洲口 丸の内口 日本橋口 どの入口が最も優れた「東京駅」か? どの入口が本物の「東京駅」か? ぱっと⾒の外観は それぞれ個性的 特定の⽬的の上では どれが良いかという 議論はありうるけど

Slide 7

Slide 7 text

因果推論 I. 解題 どれも「因果推論」としかいいようがないし そもそもぜんぶ奥で繋がってる どの入口が本物の「因果推論」か? どの入口が最も優れた「因果推論」か? 統計的因果推論の3つの⼊り⼝ Pearl口 Rubin口 Robins口 Hernan & Robins (coming soon) ぱっと⾒の外観は それぞれ個性的 特定の⽬的の上では どれが良いかという 議論はありうるけど 端的に⾔って愚問である

Slide 8

Slide 8 text

I. 解題 本⽇の話: ”因果推論駅”の奥を探訪する ⼀⾒異なる因果推論のアプローチが奥の⽅で 繋がっているさまを理解する その“駅の奥”から様々な研究アプローチが内 的/外的にどう繋がっているかを考える 学術研究において 統計的因果推論とは何か? Issue-drivenの研究者はこういうことを考えることがままあると思う

Slide 9

Slide 9 text

本講演の全体まとめ Preview: 最終的にはスライド127枚⽬でこういう話に着地します バックドア基準の話と潜在反応モデルの話と関数因 果モデルの話はふつうに繋がっている What-if/反事実の推定アプローチとしての統計的因 果推論と(例えば)⼤規模物理シミュレーションモ デルは連続的なperspectiveのもとに置ける 変数が含意する概念の構成要因・媒介要因の質的/ 量的研究は因果効果推定の話と直結する 統計的因果推論で”誤差”として扱われる観測可能& 数量化可能なもの以外の個体の諸々は質的研究で取 り扱われる(そして我々はそれにエビデンス利⽤の”往路” で再び出会う) ■ ■ ■ ■

Slide 10

Slide 10 text

本⽇の内容 I. 統計的因果推論と異質性/多様性 本⽇は以下の三部構成: II-1. 「全ての他の要因」を考える必要があるのか :バックドア基準⼊⾨ II-2. もしもの世界を構成する :潜在反応モデル⼊⾨ II. 統計的因果推論の理論の繋がり II-3. 関数因果モデルによる記述 :因果グラフを構成する :潜在反応モデルを構成する :因果グラフと潜在反応モデルの繋がり

Slide 11

Slide 11 text

本⽇の内容 III. 関数因果モデルからの散歩道 III-1. 関数因果モデルの潜在的な射程範囲、 広すぎるのでは? III-2. 統計的因果推論において変数を概念的 に吟味するとはどういうことか III-3. 個体レベル→集団レベルへ移⾏する際に 抜け落ちるものは何か

Slide 12

Slide 12 text

本⽇の内容 I-1.「対象集団のありよう」を丁寧に省察せよ: 因果推論のはじまりとしての異質性 I-2. 相関と因果がズレるとき:「ふぞろいのリ ンゴたち」によるバイアス II-1. 「全ての他の要因」を考える必要があるのか :バックドア基準⼊⾨ II-2. 潜在反応モデルを関数的因果モデルで記述 する --- “What works” meets “why it works” I. 統計的因果推論と異質性/多様性 II. 統計的因果推論の理論の繋がり 本⽇は以下の三部構成:

Slide 13

Slide 13 text

因果推論のはじまりの場所| 初⼼に戻り「対象のありよう」を丁寧に考える 10個のリンゴがあります 統計の教科書が想定してる「ありよう」は Exchangeable!

Slide 14

Slide 14 text

Exchangeable? 因果推論のはじまりの場所| 初⼼に戻り「対象のありよう」を丁寧に考える 10個のリンゴがあります 現実はしばしば「ふぞろいのリンゴ」である

Slide 15

Slide 15 text

因果推論のはじまりの場所| 因果推論でまず重要なのは「対象集団のありよ う」について丁寧に省察することである ある意味、統計的因果推論とは集団内の異質 性/⾮均⼀性を巡る体系である(後述) 「ありよう」の質的な省察は推論の⼟台をなす Exchangeable?

Slide 16

Slide 16 text

本⽇の内容 I-1.「対象集団のありよう」を丁寧に省察せよ: 因果推論のはじまりとしての異質性 I-2. 相関と因果がズレるとき:「ふぞろいのリ ンゴたち」によるバイアス II-1. 「全ての他の要因」を考える必要があるのか :バックドア基準⼊⾨ II-2. 潜在反応モデルを関数的因果モデルで記述 する --- “What works” meets “why it works” I. 統計的因果推論と異質性/多様性 II. 統計的因果推論の理論の繋がり 本⽇は以下の三部構成:

Slide 17

Slide 17 text

相関と因果がズレるとき| 仮想例として「肥料X→リンゴの糖度Y」の因果 効果を考えてみる(まずは均⼀品種バージョン) 肥料Xを与えると糖度Yは単純に+2される もともとのリンゴの糖度Yの平均は16、 分散は1.0 「肥料X=あり」で育てたリンゴは50個 「肥料X=なし」で育てたリンゴは50個 肥料X=あり/なしの糖度Yをプロットすると つまり「真の因果効果」は +2.0

Slide 18

Slide 18 text

3 8 12 16 20 −1 0 1 2 3 8 12 16 20 −1 0 1 2 3 相関と因果がズレるとき| なし あり 肥料X 糖 度 Y 「肥料X→リンゴの糖度Y」の散布図(1品種ver) +2.1 各処理グループ 平均の差(+2.1) 「真の因果効果(+2)」 ≒ 散布図上での差を 因果効果として そのまま解釈可能 =バイアスなし ここでのバイアスの定義= 「真の因果効果」と「観測された処理 グループ平均の差」の系統的なズレ

Slide 19

Slide 19 text

相関と因果がズレるとき| 「ぺこ」と「すまいる」の2つのリンゴ 品種がサンプル内に混在している 肥料X=あり/なしの糖度Yをプロットすると 元々の「ぺこ」の糖度Yの平均は16 元々の「すまいる」の糖度Yの平均は12 その他の設定・仮定は先程の例と同一 ひきつづき「肥料X→リンゴの糖度Y」の因果効 果を考えてみる(2品種への拡張バージョン)

Slide 20

Slide 20 text

3 8 −1 0 1 2 3 3 8 12 16 20 −1 0 1 2 3 相関と因果がズレるとき| なし あり 肥料X 糖 度 Y 「肥料X→リンゴの糖度Y」の散布図(2品種ver) +4.4 鱿鱘 鱞鲃鱉鲐 各処理グループ 平均の差(+4.4) 「真の因果効果(+2)」 ≠ (他の設定は同⼀でも) 2種類の品種が 混在するだけで バイアスが⽣じる ここでのバイアスの定義= 「真の因果効果」と「観測された処理 グループ平均の差」の系統的なズレ

Slide 21

Slide 21 text

相関と因果がズレるとき| 品種が混在するときは必ずバイアスが⽣じる? 8 12 −1 0 1 2 3 8 12 −1 0 1 2 3 8 12 −1 0 1 2 3 8 12 16 20 −1 0 1 2 3 8 12 16 20 −1 0 1 2 3 8 12 16 20 −1 0 1 2 3 20 20 20 +4.4 +2.0 -0.8 なし あり 肥料X 糖 度 Y なし あり 肥料X なし あり 肥料X 40/10 10/40 25/25 25/25 40/10 10/40 「品種の⽐率」が処理グループ間で同じとき にはバイアスが⽣じない ぺこ/すまいる比(総数ではぺこ50個/すまいる50個)

Slide 22

Slide 22 text

8 12 −1 0 1 2 3 8 12 −1 0 1 2 3 8 12 −1 0 1 2 3 8 12 16 20 −1 0 1 2 3 8 12 16 20 −1 0 1 2 3 8 12 16 20 −1 0 1 2 3 相関と因果がズレるとき| 品種が混在するときは必ずバイアスが⽣じる? +3.3 +2.2 +0.8 なし あり 肥料X 糖 度 Y なし あり 肥料X なし あり 肥料X ぺこ/すまいる比 8/42 2/48 5/45 5/45 8/42 2/48 「品種の⽐率」が処理グループ間で同じとき にはバイアスが⽣じない (総数ではぺこ10個/すまいる90個) ここ⼤事

Slide 23

Slide 23 text

相関と因果がズレるとき| 「品種の⽐率」が処理グループ間で同じとき にはバイアスが⽣じない 「特性(共変量)のありよう」が処理グループ 間で同じときにはバイアスが⽣じない 統計的因果推論の要点:処理と共変量の独⽴性 処理グループ間で「共変量がバランシングしている」みたいな ⾔い⽅もします この例を⼀般化すると 数式だと P(共変量Z|X=あり)=P(共変量Z|X=なし) 統計的因果推論の主要な企みとは、上記の独⽴性 を実験計画や解析の⼯夫により達成すること

Slide 24

Slide 24 text

相関と因果がズレるとき| 対処例:層別化による処理と共変量の「独⽴化」 鱿鱘ݸ 鱞鲃鱉鲐ݸ 鱿鱘ݸ 鱞鲃鱉鲐ݸ ʮංྉ9鱇鲏ʯ鱳಺༁ ʮංྉ9鱯鱜ʯ鱳಺༁ ౶ ౓ ංྉ9 鱯鱜 鱇鲏 ౶ ౓ ංྉ9 鱯鱜 鱇鲏 ౶ ౓ ංྉ9 鱯鱜 鱇鲏 ʰ鱞鲃鱉鲐ʱ鱥鱖鱬 ૚ผղੳ ʰ鱿鱘ʱ鱥鱖鱬 ૚ผղੳ 層別化で処理間の共変量を 揃える→バイアスが消える

Slide 25

Slide 25 text

相関と因果がズレるとき| IIIの⼩まとめ サンプルの特性がまったく均⼀のときにはバ イアスが⽣じない *ここでのバイアスの定義=「真の因果効果」と「観測された処理グループ平均の差」 の系統的なズレ 処理グループ間で特性(共変量)の分布が同じ ときにはバイアスが⽣じない この意味で、因果推論とは「対象集団におけ る異質性への対処」を巡る体系である 因果推論の主要な企みとは、この状況を実験 計画や解析の⼯夫により達成すること *また、そもそも異質性(たとえば品種)を⾒分けることができなければバイアスの 存在にも気づけない(→質的な省察が推論の⼟台となる)

Slide 26

Slide 26 text

相関と因果がズレるとき| ひとくちに「特性の分布が同じ」といっても 無数の「特性」がありうるわけで… その全ての特性(全ての共変量)を 処理間で揃えなければならないの? ここで少し考えてみよう 「揃えるべき特性」と「揃えなくてもよい特性」を 判別する理論的基準はあるのか? *たとえばリンゴの「特性」を考えても、品種、産地、農法、農家、流通形態、 収穫時期、価格、などなどいくらでもありうるわけで… 細かく考えていくときりがない!

Slide 27

Slide 27 text

本⽇の内容 I-1.「対象集団のありよう」を丁寧に省察せよ: 因果推論のはじまりとしての異質性 I-2. 相関と因果がズレるとき:「ふぞろいのリ ンゴたち」によるバイアス II-1. 「全ての他の要因」を考える必要があるのか :バックドア基準⼊⾨ II-2. 潜在反応モデルを関数的因果モデルで記述 する --- “What works” meets “why it works” I. 統計的因果推論と異質性/多様性 II. 統計的因果推論の理論の繋がり 本⽇は以下の三部構成:

Slide 28

Slide 28 text

導⼊|(ちょっと話は戻るが)相関と因果は違う 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ 『X→Yの介⼊効果』= Xを1単位量分だけ介⼊により変化させたときの Yの平均的な変化量 【本⽇の発表の中での定義】

Slide 29

Slide 29 text

導⼊|相関と因果は違う 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ ؀ڥԚછ෺࣭ͷՏ઒தೱ౓ 9 ఈ ੜ ࠛ ஬ ͷ छ ਺ : p < 0.001

Slide 30

Slide 30 text

導⼊|相関と因果は違う 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ ؀ڥԚછ෺࣭ͷՏ઒தೱ౓ 9 ఈ ੜ ࠛ ஬ ͷ छ ਺ : p < 0.001 「Xが⼩さいとき、Yは⼤きい」 (=相関関係がある)とほぼ確実に⾔える

Slide 31

Slide 31 text

導⼊|相関と因果は違う 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ ؀ڥԚછ෺࣭ͷՏ઒தೱ౓ 9 ఈ ੜ ࠛ ஬ ͷ छ ਺ : p < 0.001 「Xが⼩さいとき、Yは⼤きい」 (=相関関係がある)とほぼ確実に⾔える 「Xを⼩さくすると、Yは⼤きくなる」 (=因果関係がある)と⾔えるか?

Slide 32

Slide 32 text

導⼊|相関と因果は違う もしXとYの相関が「Xと関係ない要因」で⽣じ ているならば、Xを減少させてもYは回復しない ■ ؀ڥԚછ෺࣭ͷՏ઒தೱ౓ 9 ఈ ੜ ࠛ ஬ ͷ छ ਺ : ԼྲྀҬ ্ྲྀҬ

Slide 33

Slide 33 text

導⼊|相関と因果は違う もしYの状態がXにより⽣じているならば、Xを 減少させればYは回復する ■ ؀ڥԚછ෺࣭ͷՏ઒தೱ౓ 9 ఈ ੜ ࠛ ஬ ͷ छ ਺ : ԼྲྀҬ ্ྲྀҬ

Slide 34

Slide 34 text

導⼊|相関と因果は違う もしYの状態がXにより部分的に⽣じているなら ば、Xを減少させればYは部分的に回復する ■ ؀ڥԚછ෺࣭ͷՏ઒தೱ౓ 9 ఈ ੜ ࠛ ஬ ͷ छ ਺ : ԼྲྀҬ ্ྲྀҬ

Slide 35

Slide 35 text

導⼊|相関と因果は違う もしYの状態がXにより部分的に⽣じているなら ば、Xを減少させればYは部分的に回復する ■ ؀ڥԚછ෺࣭ͷՏ઒தೱ౓ 9 ఈ ੜ ࠛ ஬ ͷ छ ਺ : ԼྲྀҬ ্ྲྀҬ 「Xを⼩さくすると、Yは⼤きくなる」かは Yの状態が何によって⽣じているかに依存する

Slide 36

Slide 36 text

導⼊| 相関と因果で必要とされる⽅法論が違う 「Xが⼩さいとき、Yは⼤きい」か? ∈「相関関係(association)」についての問い p(Y|X=⼩さい) やるべきこと:Xが⼩さいときのYの計算 ←所与の数値のみから計算できる ؀ڥԚછ෺࣭ͷՏ઒தೱ౓ 9 ఈ ੜ ࠛ ஬ ͷ छ ਺ : p < 0.001

Slide 37

Slide 37 text

導⼊|相関と因果で必要とされる⽅法論が違う 「Xを⼩さくすると、Yは⼤きくなる」か? ∈「因果的影響(causal effect)」についての問い p(Y|X=do(⼩さい)) やるべきこと:Xを⼩さくしたときのYの計算 ←計算に因果的情報が必要 ؀ڥԚછ෺࣭ͷՏ઒தೱ౓ 9 ఈ ੜ ࠛ ஬ ͷ छ ਺ : ԼྲྀҬ ্ྲྀҬ

Slide 38

Slide 38 text

導⼊|相関と因果で必要とされる⽅法論が違う p(Y|X=⼩さい) Xが⼩さいときのYの計算 p(Y|X=do(⼩さい)) Xを⼩さくしたときのYの計算 因果の問題 相関の問題 p(Y|X=see(⼩さい)) あるいは、いうなれば なぜズレるの? 交絡のせい! 内⽣性のせい! ⼀歩込み⼊った議論をする際に判断に迷うことがある 本章の ⽬標 「バックドアパスが開いているせい」 「バックドア基準が満たされていないせい」 という説明の仕⽅・概念を理解する association

Slide 39

Slide 39 text

前置き|バックドア基準は「何について」の話? ■ 例えば、重回帰モデルの場合 モデルに追加された説明変数の組が「X→Y」についてバック ドア基準を満たすとき、重回帰分析から得られたXの偏回帰係 数をそのまま「X→Yの介⼊効果」のバイアスのない推定量と みなせる 例えば、「シンプソンのパラドックス」(ここでは、どの変数で層別化す るかによって推定結果が変るケースの意味で⽤いる)が⽣じている場合 興味の対象となる「処理X→結果Y」についてバックドア基準 を満たす変数で層別化して解析すれば「X→Yの介⼊効果」を バイアスなく推定できる 具体的には、バックドア基準を満たすと: *データが適切に測定されており、かつ適切なモデルが適⽤されているという⼤前提での話です * *

Slide 40

Slide 40 text

今⽇の話| バックドア基準とは?(ざっくり) “バックドア基準が満たされている” ■ “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない ≒ “ブロック”って何?

Slide 41

Slide 41 text

今⽇の話| バックドア基準とは?(ざっくり) “バックドア基準が満たされている” ■ “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない ≒ “ブロック”って何?

Slide 42

Slide 42 text

超ざっくり説明|”バックドアパス”とは? n 因果構造を丘にある「⼈⼯池」でイメージする 迂遠かもしれませんが、因果の「流れ」のアナロジーと して有効だと思うので少々お付き合いいただければ・・ X Y *降⾬の影響などは考えない 本講演を通して X: 処理 Y: 結果 Z: 共変量 で表記します * Y=βX+γ+ε ⼈⼯池 ⼈⼯池 ⽔路

Slide 43

Slide 43 text

超ざっくり説明|”バックドアパス”とは? 「バックドアパス」=『処理Xと結果Yの上 流側にある両者に影響を与える流れ』 ■ X Y Z1 Z2 (X→Yの) バックドアパス 上流側にある「Z1」に インクをぶちまけると XにもYにも到達する (=両者に影響を与える)

Slide 44

Slide 44 text

超ざっくり説明|”バックドアパス”とは? 「バックドアパス」=『処理Xと結果Yの上 流側にある両者に影響を与える流れ』 ■ X Y Z1 Z2 (X→Yの) バックドアパス ではない! 上流側にある「Z1」に インクをぶちまけても Yにしか到達しない (=両者には影響を与えない)

Slide 45

Slide 45 text

超ざっくり説明|”バックドアパス”とは? 「バックドアパス」=『処理Xと結果Yの上 流側にある両者に影響を与える流れ』 ■ X Y Z1 Z2 (X→Yの) バックドアパス ではない! 上流側にある「Z1」に インクをぶちまけても Xにしか到達しない (=両者には影響を与えない) *Xそのものを通してYへ繋がる 流れはノーカウント

Slide 46

Slide 46 text

超ざっくり説明|”バックドアパス”とは? 「バックドアパス」=『処理Xと結果Yの上 流側にある両者に影響を与える流れ』 ■ X Y Z1 Z2 (X→Yの) バックドアパス 上流側にある「Z1」に インクをぶちまけると XにもYにも到達する (=両者に影響を与える)

Slide 47

Slide 47 text

超ざっくり説明|バックドアパスの何が問題? 上流側の変動に伴い”シンクロ”が⽣じる ■ X Y Z X Y Zの変動によりX-Y間に "シンクロ"が⽣じる Zが⼤ Zが⼩ (X→Yの) バックドアパス このZの変動によるシンクロが”疑似相関”を⽣み、 X→Yの介⼊効果の推定にバイアスをもたらす ⾮因果的 連関

Slide 48

Slide 48 text

超ざっくり説明|バックドアパスの何が問題? 参考:バックドアパスがない場合の例 ■ X Y Z X Y Zの変動でX-Y間に “シンクロ”は⽣じない Zが⼤ Zが⼩ バックドアパスがないとき、Zの変動はバイアス・ 擬似相関の原因とならない

Slide 49

Slide 49 text

今⽇の話| バックドア基準とは?(ざっくり) “バックドア基準が満たされている” ■ “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない ≒ “ブロック”って何?

Slide 50

Slide 50 text

超ざっくり説明|バックドアパスが”閉じる”とは? バックドアパスが”閉じる”=バックドアパス 上の変数を”固定”する ■ X Y Z Zを“固定”する バックドアパスが”閉じ” 交絡の影響が消える シンクロを⽣む流れが “ブロック”される Zで層別化して解析 重回帰分析の共変量としてZをモデルに追加 “固定”= 条件付けconditioning の⼿法の例 ・ ・

Slide 51

Slide 51 text

超ざっくり説明|バックドアパスが”閉じる”とは? 参考:Zでの層別化(X:汚染濃度, Y:種数, Z:流域) ■ 「上流」「下流」の層別に X→Yの効果を計算して集計する Z:流域 X:汚染 濃度 Y:種数 流域Zを層別化により”固定”し解析することで交絡 の影響が消え、介⼊効果がバイアスなく推定できる ؀ڥԚછ෺࣭ͷՏ઒தೱ౓ 9 ఈ ੜ ࠛ ஬ ͷ छ ਺ : ԼྲྀҬ ্ྲྀҬ

Slide 52

Slide 52 text

超ざっくり説明|パスが”開きっぱなし”とは? バックドアパスが開きっぱなし=変数が固定 されずパスの流れが”ブロック”されていない ■ X Y Z X Y Zの変動によりX-Y間に "シンクロ"が⽣じる Zが⼤ Zが⼩ (X→Yの) バックドアパス ⾮因果的 連関 介⼊効果の推定のバイアスが調整されぬまま残る

Slide 53

Slide 53 text

超ざっくり追記|固定により”開く”こともある 合流点を固定すると、“親”の間に双⽅向 パスが開く ■ バックドアパスが “開いた”状態 X Y Z (X→Yの) バックドアパス ⼦ 親 親 バックドアパスの ない状態 X Y Z Zを“固定

Slide 54

Slide 54 text

超ざっくり追記|固定により”開く”こともある 参考:合流点となる「合否」を”固定” ■ 実 技 試 験 Z:合否 Y:実技 試験 美⼤の⼊学試験における仮想例 合否Zで層別化すると、XとYの間に⾮因果的な連関 が⽣じ、X→Yの介⼊効果にバイアスが⽣じる 合格者 Z=1 不合格者 Z=0 X:学⼒ 試験 100 100 学⼒試験 合 格 ラ イ ン

Slide 55

Slide 55 text

内容の説明| バックドア基準とは?(概要版) “バックドア基準が満たされている” ■ “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない ≒ “ブロック”って何?

Slide 56

Slide 56 text

超ざっくり説明| ”X→Yの道がブロックされてない” Zが中間点の場合は”固定”してはいけない ■ Z Y X X Y Zを"固定"しなければ、何の問題も⽣じない

Slide 57

Slide 57 text

超ざっくり説明| ”X→Yの道を閉じるな” 中間点をZを固定すると、Xからの「介⼊効 果」の流れ⾃体がブロックされてしまう ("overconditioning") ■ 在来種Aを護るための 外来種Bの駆除の効果(仮想例) Z:外来種B の根絶 Y:在来種A の個体数 X:外来種B の駆除努⼒ 外来種Bの駆除努⼒ 在 来 種 A の 個 体 数 छBͷࠜઈʹ੒ޭ(Z=1) छBͷࠜઈʹࣦഊ(Z=0)

Slide 58

Slide 58 text

内容の説明| バックドア基準とは?(概要版) “バックドア基準が満たされている” ■ “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない ≒ “ブロック”って何?

Slide 59

Slide 59 text

具体例でおさらい|3変量(X, Y, Z)の場合 3変量で⾒る”ほぼ バックドア基準” ■ X Y Z X Y Z X Z Y Zを加えよ Zを加えるな *3変量の場合では、巷の”rule-of-thumb”的な変数選択 ルール以上のご利益はあまり感じられないかも

Slide 60

Slide 60 text

具体例でおさらい|4変量の場合 4変量以上だと「道」を考える必要がある ■ X Y Z1 Z2 もし処理Xと結果Yの「両者の共通 原因」を”交絡変数”と呼ぶ場合 Z2は”交絡変数”かつ分岐点 Z1は”交絡変数”と呼ばれない 必ずモデルに追加すべき? モデルに追加しなくてよい? common cause *Z2は観測不可能、Z1は観測済み のときどうする?

Slide 61

Slide 61 text

具体例でおさらい| 4変量の場合 変数ベースではなく”道“の開閉がキモ ■ このどの場合もバックドアパスは閉じられている *どのケースもXとYの"シンクロ"の原因となりうる上流側の流れが遮断されている X Y Z2 Z1 X Y X Y Z1 Z2 Z2 Z1

Slide 62

Slide 62 text

4変量以上の場合|本質は”道”にあり 4変量以上の”道”:合流点の例 ■ Z1 X Z2 Y Z3 Z1 X Y Z3 X Z2 Y Z3 X→Y Z1 Z2 X Y Z3 Z1 Z2 バックドアパスが "開いている" バックドアパスは"閉まっている" バックドアパスの”道”がブロック されていることが肝要

Slide 63

Slide 63 text

4変量以上の場合|本質は”道”にあり 4変量以上の”道”:中間点の場合 ■ X Y Z2 Z1 Z1, Z2は中間点 絶対にモデルに追加 したらダメ? 中間点を⼊れるとXからの 因果効果⾃体が ブロックされてしまうのでダメ! (これは3変量の場合と同様)

Slide 64

Slide 64 text

4変量以上の場合|本質は”道”にあり 4変量以上の”道”:中間点の場合 ■ X Y Z1 Z2 全体としてX→Yの因果の"道"がブロックされないことが肝要 X Y X Y Z2 Z1 Z1 Z2

Slide 65

Slide 65 text

4変量以上の場合|まとめ X Y Z2 Z1 X Y X Y Z1 Z2 Z2 Z1 X Y Z1 Z2 X Y X Y Z2 Z1 Z1 Z2 バックドアパス をブロックしろ X→Yの道を ブロックするな もうほとんどバックドア基準 細かい論点をのぞけば 畢竟, 以下2つのメッセージに集約される ■

Slide 66

Slide 66 text

ステップ6 | "まとめ"としてのバックドア基準 教科書内の「バックドア基準」を解読してみよう ⿊⽊学(2017)『構造的因果モデルの基礎』 p99より引⽤ ■

Slide 67

Slide 67 text

ステップ6 | "まとめ"としてのバックドア基準 教科書内の「バックドア基準」を解読してみよう ⿊⽊学(2017)『構造的因果モデルの基礎』 p99より引⽤ ■ 1. XからZの任意の要素に有向道がない 2. GよりXから出る⽮線(X→)を除いたグラフにおいて、 ZがXとYを有向分離する 定義 3-5 バックドア基準(back door criterion) “逆”のケース(XがYの下流)ではない ⾮巡回的有向グラフGにおいてXはYの⾮⼦孫である。このとき、次 の2条件を満たす頂点集合Zは、(X, Y)についてバックドア基準を 満たすという 例:中間変数や下流の合流点 Xの下流の共変量をモデルに加えてはいけない バックドアパスがブロックされている

Slide 68

Slide 68 text

4変量以上の場合|まとめ(再掲) X Y Z2 Z1 X Y X Y Z1 Z2 Z2 Z1 X Y Z1 Z2 X Y X Y Z2 Z1 Z1 Z2 バックドアパス をブロックしろ X→Yの道を ブロックするな もうほとんどバックドア基準 ものすごい細かい論点をのぞけば 畢竟, 以下2つのメッセージに集約される ■ 条件(1)に対応 条件(2)に対応

Slide 69

Slide 69 text

例題その1|どの変数を加えれば良い? X Y Z1 Z2 Z3 Z1にインクをぶちまけると XとYの両⽅にインクは到達する バックドアパスの⾒極めに迷ったら、もし「その⼈⼯池にインクを ぶちまけたらどうなるか」を考えてみよう!

Slide 70

Slide 70 text

例題その1|どの変数を加えれば良い? バックドアパスの⾒極めに迷ったら、もし「その⼈⼯池にインクを ぶちまけたらどうなるか」を考えてみよう! X Y Z1 Z2 Z3 Z2にインクを ぶちまけると XとYの両⽅に インクは到達する

Slide 71

Slide 71 text

例題その1|どの変数を加えれば良い? バックドアパスの⾒極めに迷ったら、もし「その⼈⼯池にインクを ぶちまけたらどうなるか」を考えてみよう! X Y Z1 Z2 Z3 Z2からは こういう 経路もある

Slide 72

Slide 72 text

例題その1|どの変数を加えれば良い? X Y Z1 Z2 Z3 バックドアパスの⾒極めに迷ったら、もし「その⼈⼯池にインクを ぶちまけたらどうなるか」を考えてみよう! 全部で3つの バックドアパス がある

Slide 73

Slide 73 text

例題その1|どの変数を加えれば良い? X Y Z3 Z2 Z1 Z1, Z2をブロックすると3つの バックドアパスが全て遮断される バックドア基準を満たす最⼩の変数セットは「Z1, Z2」 *「Z1, Z2, Z3」もバックドア基準を満たします

Slide 74

Slide 74 text

例題その2|どの変数を加えれば良い? X Y Z1 Z4 Z3 Z2 Z5 Z6

Slide 75

Slide 75 text

例題その2|どの変数を加えれば良い? X Y Z1 Z4 Z3 Z2 Z5 Z6

Slide 76

Slide 76 text

例題その2|どの変数を加えれば良い? X Y Z4 Z3 Z2 Z5 Z6 Z1 バックドア基準 を満たす最⼩の 変数セットは 「Z1」 *ここでZ5, Z6を⼊れると 新たなバックドアパスが 開いてしまう *Z4はそもそも 中間点なので⼊れてはダメ Z1をブロックすると2つの バックドアパスが全て遮断される

Slide 77

Slide 77 text

⼀部が不明な場合|どの変数を加えれば良い? X Y Z1 Z2 この部分の 因果構造は不明 バックドアパスが ある場合、必ず Z1, Z2のどちらかを通る

Slide 78

Slide 78 text

⼀部が不明な場合|どの変数を加えれば良い? X Z1 Z2 この部分の 因果構造は不明 Y 「Z1, Z2」を加えればバックドア基準を満たす Z1, Z2をブロックすれば バックドアパスは 遮断される ポイントとなる部分の適切な粒度の背景知識があればよい

Slide 79

Slide 79 text

例題その3| どの変数を加えれば良いのか? • 構造の全てを知る必要は全くない:路線図の喩え つくば 彦根 守⾕駅さえ封鎖すれば林は (電⾞では)家に帰れない

Slide 80

Slide 80 text

例題その3| どの変数を加えれば良いのか? • 構造の全てを知る必要は全くない:路線図の喩え つくば

Slide 81

Slide 81 text

例題その3| どの変数を加えれば良いのか? • 構造の全てを知る必要は全くない:路線図の喩え つくば 駅 彦根駅 守⾕ 駅 極度に 複雑な 鉄道網 必要なのは 「守⾕の先は⼀本線」 という"背景知識"のみ ポイントとなる部分の適切な粒度の背景知識があればよい TX

Slide 82

Slide 82 text

例題その3| どの変数を加えれば良いのか? X Z1 Z2 この部分の 因果構造は不明 Y ポイントとなる部分の適切な粒度の背景知識があればよい

Slide 83

Slide 83 text

補⾜|実験における無作為化との関係 X Y Z1 Z3 Z2 Z5 Z6 Z4 So many バックドアパス 実験はランダム⽣成機によりバックドアパスを閉じる ■

Slide 84

Slide 84 text

補⾜|実験における無作為化との関係 X Y Z1 Z3 Z2 Z5 Z6 Z4 コイントス 実験は”ランダム⽣成機”によりバックドアパスを閉じる ■

Slide 85

Slide 85 text

補⾜|傾向スコアとの関係 X Y Z1 Z3 Z2 Z5 Z6 Z4 So many バックドアパス 傾向スコアはバックドアパスをブロックする"合成変数" ■

Slide 86

Slide 86 text

補⾜|傾向スコアとの関係 X Y Z1 Z3 Z2 Z5 Z6 Z4 e 傾向スコアで まとめてブロック 傾向スコアはバックドアパスをブロックする"合成変数" ■

Slide 87

Slide 87 text

補⾜ |傾向スコアとの関係 X Y Z1 Z3 Z2 Z5 Z6 Z4 e 傾向スコアで まとめてブロック 傾向スコアはバックドアパスをブロックする"合成変数" ■ うまく適⽤できれば超強⼒な⼿法!

Slide 88

Slide 88 text

バックドア基準のまとめ “バックドア基準が満たされている” ■ + (2) 処理Xの下流の変数が追加されていない (1) 開きっぱなしのバックドアパスがない ≒ 変数ベースではなく”道”の開閉がキモ ■ ・たとえ森羅万象が因果関係で繋がっていても、因 果効果を識別可能とするために考えるべき局所的 な因果構造と変数の範囲を理論的に限定できる ・傾向スコアもバックドアパスを閉じるための強⼒ な⼿法(バックドア基準は理論的条件) 介⼊効果がバイアスなく推定できる *データが適切に測定されており、かつ適切なモデルが適⽤されているという⼤前提での話です

Slide 89

Slide 89 text

(再掲)|バックドア基準は「何について」の話? ■ 例えば、重回帰モデルの場合 モデルに追加された説明変数の組が「X→Y」についてバック ドア基準を満たすとき、重回帰分析から得られたXの偏回帰係 数をそのまま「X→Yの介⼊効果」のバイアスのない推定量と みなせる 例えば、「シンプソンのパラドックス」(ここでは、どの変数で層別化す るかによって推定結果が変るケースの意味で⽤いる)が⽣じている場合 興味の対象となる「処理X→結果Y」についてバックドア基準 を満たす変数で層別化して解析すれば「X→Yの介⼊効果」を バイアスなく推定できる 具体的には、バックドア基準を満たすと: *データが適切に測定されており、かつ適切なモデルが適⽤されているという⼤前提での話です * *

Slide 90

Slide 90 text

(再掲)|バックドア基準は「何について」の話? 介⼊効果推定におけるバックドア基準とは ■ バックドア基準は上式が成り⽴つ際に含まれる べき共変量Zのセット(上式の成⽴条件)を⽰す ・処置Xについてexchangeability/ignorabilityが成⽴し ているとき、交絡の影響なく介⼊効果推定が可能 共変量 結果変数の 潜在反応 処置 Hernan and Robins (2017) 『Causal Inference』 より 介⼊効果推定における変数選択の基準を与える Conditional exchangeability:

Slide 91

Slide 91 text

補⾜|バックドア基準は「何について」の話? つまり、共変量セットZがバックドア基準を 満たすとき: ■ ⽐較したい要因以外の要因(共変量)が “全て揃っている"とみなせる! 共変量の違いによる影響が調整された状態で の処理間の⽐較が可能となる

Slide 92

Slide 92 text

II-1.のまとめ 全ての特性(全ての共変量)を 処理間で揃えなければならないのか? データ⽣成における因果構造のモデルから バックドア基準により 「揃えるべき特性」「揃えなくてもよい特性」 「揃えるべきでない特性」および、 「考慮すべき局所的な因果構造の範囲」を 判別できる ⼀般に、因果構造(要因間の繋がり)のモデルは質的な省察に多くを依存 している。つまり、因果効果の量的な識別可能性の前提となる 理論的条件の検証には質的な省察がほんらい必要となる

Slide 93

Slide 93 text

林岳彦・⿊⽊学(2016) 「相関関係」と「因果関係」は違います。これはよく知られています。ある要 因 X ともうひとつの要因 Y のあいだに高い相関が見られたからといって,それ らのあいだに因果的な関係があるとは限りません。一方で,そのような高い相関 を「因果関係」として解釈できる場合もたしかにあります。この辺りが難しいと ころです。もしあなたの同僚やクライアントが,あなたが作成した散布図を見て 「相関関係」と「因果関係」を明らかに混同した発言をしはじめたとしましょう。 このとき, 「この場合はこれこれこうだからこの相関関係は因果関係として解釈 できるんですよ/できないんですよ」と相手に向かって理路整然と説明するのは, それほど簡単なことではありません。こと因果関係の話になると,自分の頭の中 でその内容を整理するのも,その内容を相手に伝わるように説明するのも,なか なか難しいものです。 私たちの経験上,そんなときにとても役に立つのは,データの背後に想定して いる「因果構造(データ生成のメカニズム)」についての(分かる範囲での)簡単な ポンチ絵を丸と矢印で描いてみせることです[本稿ではそんなポンチ絵の例がたくさん 出てきます]。そして,そのようなポンチ絵を描いたあとに,その描かれた因果構 造が「あ ・ る ・ 特 ・ 定 ・ の ・ 条 ・ 件 ・ 群 ・ 」を満たしているかどうかを相手と共同で検討していき ます。多くの場合,その検討を通して「この相関関係は因果関係を示していると 解釈してよいのか?」や「相関関係を因果関係として解釈するためには本来はど のようなデータが必要なのか?」といった本質的な問いについて,より明確かつ 端的な議論ができるようになります。 相関と因果と丸と矢印のはなし はじめてのバックドア基準 林岳彦(国立環境研究所)・黒木学(統計数理研究所) [特集]因果推論 現実の課題に答える統計学 参考⽂献 | バックドア基準の解説原稿 (本⽇の元ネタ) 2016年6⽉発売「岩波データサイエンスvol. 3」因果推論特集号

Slide 94

Slide 94 text

参考⽂献 | バックドア基準の解説 (ガチ勢向け)

Slide 95

Slide 95 text

参考⽂献 | Pearlのやさしい本(昨年でた) Pearlが、⼀般向けに、 やさしく書いている! (やさしく書かれているが けっこう深い/新しい 内容まで書いてある)

Slide 96

Slide 96 text

本⽇の内容 I. 統計的因果推論と異質性/多様性 本⽇は以下の三部構成: II-1. 「全ての他の要因」を考える必要があるのか :バックドア基準⼊⾨ II-2. もしもの世界を構成する :潜在反応モデル⼊⾨ II. 統計的因果推論の理論の繋がり II-3. 関数因果モデルによる記述 :因果グラフを構成する :潜在反応モデルを構成する :因果グラフと潜在反応モデルの繋がり フロントドア基準

Slide 97

Slide 97 text

本⽇の内容 I. 統計的因果推論と異質性/多様性 本⽇は以下の三部構成: II-1. 「全ての他の要因」を考える必要があるのか :バックドア基準⼊⾨ II-2. もしもの世界を構成する :潜在反応モデル⼊⾨ II. 統計的因果推論の理論の繋がり II-3. 関数因果モデルによる記述 :因果グラフを構成する :潜在反応モデルを構成する :因果グラフと潜在反応モデルの繋がり フロントドア基準

Slide 98

Slide 98 text

潜在反応モデルと関数的因果モデル| Neyman-Rubinの潜在反応モデルの考え⽅ 処理 = に対して、各個体は⼀意な(決定論 的に定まる)潜在反応() をもつ () ぴかそ ねこの健康状態Yに対する栄養補助食Xの影響の例 ぴかそ だり () だり X=0を「補助食なし」、X=1を「補助食あり」とする もし「ぴかそ」が 「補助⾷あり」のときの 「ぴかそ」の健康状態 もし「だり」が 「補助⾷なし」のときの 「だり」の健康状態

Slide 99

Slide 99 text

潜在反応モデルと関数的因果モデル| Neyman-Rubinの潜在反応モデルの考え⽅ 因果効果を「処理間での潜在反応の差」として 定義する X=0を「補助食なし」、X=1を「補助食あり」とする () ぴかそ − () ぴかそ 「ぴかそ」へのX→Yの因果効果= 通常、この両者をともには観測できない “因果推論の根本問題” 「しゅれーでぃんがー」 の場合には別途検討 同じ個体に同時に異なる処理はできない ねこの健康状態Yに対する栄養補助食Xの影響の例

Slide 100

Slide 100 text

潜在反応モデルと関数的因果モデル| Neyman-Rubinの潜在反応モデルの考え⽅ 潜在反応の枠組みをもとに「観測できるもの」 と「観測できないもの」を整理する ぴかそ = () ぴかそ + ( − )() ぴかそ Xが2値のとき、観測値 と潜在反応の関係は: (ぴかそ) = ()(ぴかそ) X=1のときはY1のみ観測可能 X=0のときはY0のみ観測可能 (ぴかそ) = ()(ぴかそ) 実際の処理と異なる潜在反応は”⽋測”となる ねこの健康状態Yに対する栄養補助食Xの影響の例

Slide 101

Slide 101 text

潜在反応モデルと関数的因果モデル| Neyman-Rubinの潜在反応モデルの考え⽅ 潜在反応の枠組みをもとに「集団への平均効果」 を考える X=0を「補助食なし」、X=1を「補助食あり」とする (() ねこ集団 ) − (() ねこ集団 ) 「ねこ集団A」へのX→Yの平均因果効果= 実は依然、この両者をともには観測できない 同じ集団に同時に異なる処理はできない ねこの健康状態Yに対する栄養補助食Xの影響の例

Slide 102

Slide 102 text

潜在反応モデルと関数的因果モデル| Neyman-Rubinの潜在反応モデルの考え⽅ 同じ集団から「処理X=あり」と「処理X=なし」 を分けて考えれば良い? X=0を「補助食なし」、X=1を「補助食あり」とする ( ねこ集団| = ) − ( ねこ集団| = ) 「ねこ集団A」へのX→Yの平均因果効果? 異なる処理Xを受けた集団は質的に異なりうるの でバイアスが⽣じうる 例:体調が良くない個体がより補助⾷を処⽅さ れやすいと、「補助⾷あり」の⽅のねこ集団の ⽅がもともとの健康状態が悪くなりがち ねこの健康状態Yに対する栄養補助食Xの影響の例

Slide 103

Slide 103 text

潜在反応モデルと関数的因果モデル| Neyman-Rubinの潜在反応モデルの考え⽅ 集団への処理に対して「観測できるもの」と 「観測できないもの」を整理する X=0のときの潜在反応 X=1のときの潜在反応 実際は X=0 (() ねこ集団| = ) (() ねこ集団| = ) 実際は X=1 (() ねこ集団| = ) (() ねこ集団| = ) X=0を「補助食なし」、X=1を「補助食あり」とする そもそも観測不能(反事実) そもそも観測不能(反事実) 観測可能 観測可能 (i) (ii) (iii) (iv) 計算したいのは(たとえば)因果効果 (iv) – (iii) Average Treatment Effect of the Treated ねこの健康状態Yに対する栄養補助食Xの影響の例

Slide 104

Slide 104 text

潜在反応モデルと関数的因果モデル| Neyman-Rubinの潜在反応モデルの考え⽅ 処理Xを集団内の個体に無作為に割り付ければ 反事実の項を観測可能な項で代替できる 無作為割付→潜在反応と処理Xが独⽴→ *+(,) ⊥ (() ねこ集団| = ) = (() ねこ集団| = ) ignorable X=0のときの潜在反応 X=1のときの潜在反応 実際は X=0 (() ねこ集団| = ) (() ねこ集団| = ) 実際は X=1 (() ねこ集団| = ) (() ねこ集団| = ) そもそも観測不能(反事実) そもそも観測不能(反事実) 観測可能 観測可能 = 因果効果 (iv) – (iii) を (iv) – (i) として計算可能 (i) (ii) (iii) (iv) Average Treatment Effect of the Treated → “on average”で ⊥

Slide 105

Slide 105 text

(再掲+α)|バックドア基準は「何について」の話? 介⼊効果推定におけるバックドア基準とは ■ バックドア基準は上式が成り⽴つ際に含まれる べき共変量Zのセット(上式の成⽴条件)を⽰す ・処置Xについてexchangeability/ignorabilityが成⽴し ているとき、交絡の影響なく介⼊効果推定が可能 Conditional exchangeability/Ignorability: ,-(.) | ⊥ ⊥ for all X=x 上式を満たすZを合成変数として構成したものが 「傾向スコア」 コイントスの結果ZによりXを決定すると「RCT」 ランダム⽣成機

Slide 106

Slide 106 text

の条件を満たすことで観察値に 基づき「反事実」の項を計算可能 (尚、バックドア基準を満たせば上記条件は満たされる) 潜在反応モデルと関数的因果モデル| Neyman-Rubinの潜在反応モデルの特徴(まとめ) 因果効果を「異なる処理に対する潜在反応の差 分」として定義する 定義により推定量には「反事実」が含まれる !"($) | ⊥ ⊥ 潜在反応の中⾝(”why it works”)はブラック ボックスでも構わない *潜在反応がブラックボックスであるのは理論的 な必然というわけではない(次の話につづく) 尚、処理Xが連続量のときの 表現が苦⼿という側⾯もある 「推定プロトコル」への⾒通しがよい たとえばRCTとか傾向スコアなどで

Slide 107

Slide 107 text

本⽇の内容 I. 統計的因果推論と異質性/多様性 本⽇は以下の三部構成: II-1. 「全ての他の要因」を考える必要があるのか :バックドア基準⼊⾨ II-2. もしもの世界を構成する :潜在反応モデル⼊⾨ II. 統計的因果推論の理論の繋がり II-3. 関数因果モデルによる記述 :因果グラフとの関連をみる :潜在反応モデルを構成する :因果グラフと潜在反応モデルの繋がり

Slide 108

Slide 108 text

参考⽂献|⿊⽊(2017) ここからの話はこの本の 第六章が元ネタです 本⽇の説明は やや「超訳」的に なりますので 正確な議論については ぜひ本書を ご参照ください

Slide 109

Slide 109 text

因果グラフと関数的因果モデル| 関数因果モデル(構造的因果モデル)とは 因果構造を関数の形で記述したもの 関数因果モデルのフォーマルな定義 ⾮巡回的有向グラフGとその頂点に対応する確率変数の集合V = {X1,…Xp} が与えられている.グラフGが確率変数間の関数関係を ⿊⽊(2017), p70より引⽤ になる形に規定し、確率変数がこの関数関係にしたがって⾃律的でかつ 定常的に⽣成されるとき、Gを因果ダイアグラムという.ここに、錯乱 項ε1,…,εpは互いに独⽴であるとする.また、pa(Xi)は因果ダイアグラムG におけるXiの親全体からなる変数集合であり、GにおけるXiの直接的原因 (direct cause)と解釈される. 上式を広い意味で物理的なデータ⽣成過程のモデルとして捉えるとき、上式は 関数因果モデルあるいは、構造⽅程式モデル、構造的因果モデルと呼ばれる. ! = ! ! , ! = 1, … ,

Slide 110

Slide 110 text

因果グラフと関数的因果モデル| 関数因果モデル(構造的因果モデル)とは 因果ダイアグラムは関数因果モデルの視覚的 表現といえる(実は後者の⽅が表現できるものの幅は広い) 因果構造を関数の形で記述したもの GUIとCUIのようなイメージ Y X Z1 Z2 Z3 特定の関数型を特に 念頭に置く話ではない = " (, 1) = # (2, 3) 1 = $% (2) = ℎ" (2, 3) 実は「Pearlの体系=グラフィカルモデル」と いうのは適切な理解ではない! こうも書けるし このように 外⽣変数の関数 としても書ける 詳細は⿊⽊(2017)

Slide 111

Slide 111 text

本⽇の内容 I. 統計的因果推論と異質性/多様性 本⽇は以下の三部構成: II-1. 「全ての他の要因」を考える必要があるのか :バックドア基準⼊⾨ II-2. もしもの世界を構成する :潜在反応モデル⼊⾨ II. 統計的因果推論の理論の繋がり II-3. 関数因果モデルによる記述 :因果グラフを構成する :潜在反応モデルを構成する :因果グラフと潜在反応モデルの繋がり

Slide 112

Slide 112 text

潜在反応モデルと関数的因果モデル| 潜在反応モデルを関数的因果モデルで構成する *+ , (ぴかそ) = (( = ), 1, 2, 3, . . , ) 「ぴかそ」の特性を表す全変数 *+ - (ぴかそ) = (( = 0), 1, 2, 3, . . , ) *+ . (ぴかそ) = (( = 1), 1, 2, 3, . . , ) 潜在反応の”中⾝”を関数と 変数で表現している ぴかそ

Slide 113

Slide 113 text

潜在反応モデルと関数的因果モデル| 例えば全特性が近似的に等しい個体がいれば… *+ , (たつや) = (( = ), 1, 2, 3, . . , ) *+ , (かずや) = (( = ), 1, 2, 3, . . , ) もし「たつや」「かずや」という双⼦がいて もし関数および変数が近似的に等しければ *+(,) たつや − *+(-) たつや ≒ *+(,) たつや − *+(-) かずや これは観測可能! 「関数と特性」で潜在反応の”中⾝”を語りうる 観測不可能な因果効果 潜在反応の脱ブラックボックス化 関数因果モデルの枠組みではSUTVAの話が関数と特性で議論しうる話となる

Slide 114

Slide 114 text

本⽇の内容 I. 統計的因果推論と異質性/多様性 本⽇は以下の三部構成: II-1. 「全ての他の要因」を考える必要があるのか :バックドア基準⼊⾨ II-2. もしもの世界を構成する :潜在反応モデル⼊⾨ II. 統計的因果推論の理論の繋がり II-3. 関数因果モデルによる記述 :因果グラフを構成する :潜在反応モデルを構成する :因果グラフと潜在反応モデルの繋がり フロントドア基準

Slide 115

Slide 115 text

潜在反応モデルと関数因果モデルと因果グラフ| ねこ集団Hへの平均因果効果を考える [*+ / (ねこ集団)] = [(, 1, 2, . . . , )] 平均因果効果=[./(0) ねこ集団 − ./(1) ねこ集団 ] = [./(0) ねこ集団| = 1 ] − [./(1) ねこ集団| = 0 ] [./(0) ねこ集団| = 1 ] = [ , 1, 2, . . , = 1 ] [./(1) ねこ集団| = 0 ] = [(, 1, 2, . . , | = 0)] もし異なる処理Xを受けたサンプル集団間で これらZの分布がバランシングしている場合 観測値から因果効果を推定可能! 異なる処理を受けた集団間で 潜在反応の分布が異ならない 潜在反応を構成する全ての変数Zにおいてバランシングしている必要がある?

Slide 116

Slide 116 text

潜在反応モデルと関数因果モデルと因果グラフ| 潜在反応モデルを視覚的に表現してみると こんなかんじで潜在反応モデルと関数因果モデルと バックドア基準の話はふつうに繋がっている Y X Z1 Z2 Z3 バックドア基準に基づき、たとえばこの潜在反応 モデルの例で調整する必要があるのはZ1だけ *+ / = (( = ), 1, 3) *ここの部分は実際の Xの値とは関係ない 潜在反応に実際のXの値が与えられて観測値となる という解釈 *+ ,

Slide 117

Slide 117 text

本⽇の内容 III. 関数因果モデルからの散歩道 III-1. 関数因果モデルの潜在的な射程範囲、 広すぎるのでは? III-2. 統計的因果推論において変数を概念的 に吟味するとはどういうことか III-3. 個体レベル→集団レベルへ移⾏する際に 抜け落ちるものは何か

Slide 118

Slide 118 text

関数因果モデルの潜在的な射程範囲を考える| Y X Z1 Z2 Z3 = " (, 1) = # (2, 3) 1 = $% (2) = ℎ" (2, 3) こうも書けるし こうも書ける

Slide 119

Slide 119 text

関数因果モデルの潜在的な射程範囲を考える| = ℎ" (2, 3) こうも書ける この形、ひじょうに⼀般的すぎないか? = (モデルパラメータベクトル) たとえば気候変動シミュレーションモデル(What if/反 事実的計算に⽤いられる)もこんな形で書けちゃうよね?

Slide 120

Slide 120 text

関数因果モデルの潜在的な射程範囲を考える| 潜在反応 モデル メカニズムが ブラックボックス であるたぐいの 物理シミュレー ションモデル 因果効果推定アプローチの連続的な”ラフスケッチ” Full-of-Theory Theory-free 中間変数を介 す2段階回帰 under フロントドア 基準 構造推定@ 経済学 X→Yの祖先-⼦孫 系列の効果伝搬を 計算・集計してい くたぐいの X以外の共変量を バランシングして いくたぐいの = (処理, 外⽣変数) 重回帰 under バックドア 基準 RCT, 準実験 例えばスパコンで回す ような気候変動モデル 関数fと変数zについての モデル式の正当性に依存しない ただし、関数fと変数zの理論が なければ移設可能性の把握が困難 関数fと変数zについての モデル式の正当性に依存する 関数fと変数zの同等性の検討 により移設可能性を議論可能 祖先変数を介 す操作変数・ ⼆段階SLS あくまでラフスケッチです 境界はびみょう

Slide 121

Slide 121 text

本⽇の内容 III. 関数因果モデルからの散歩道 III-1. 関数因果モデルの潜在的な射程範囲、 広すぎるのでは? III-2. 統計的因果推論において変数を概念的 に吟味するとはどういうことか III-3. 個体レベル→集団レベルへ移⾏する際に 抜け落ちるものは何か

Slide 122

Slide 122 text

変数を概念的に吟味するとはどういうことか| 「投薬X=あり」を概念的に吟味する 投薬X 痛みY 患者さんへの投薬の効果を RCTで調べました でも「投薬X=あり」 ってそもそも何? めでたしめでたし?

Slide 123

Slide 123 text

変数を概念的に吟味するとはどういうことか| 「投薬X=あり」を概念的に吟味する 投薬X 痛みY 患者さんの 気持ち お医者さん の気持ち 服薬 プラセボ効果 観察者バイアス (ノン)コンプ ライアンス 「投薬X=あり」 の因果効果 ≠ 薬剤の因果効果

Slide 124

Slide 124 text

変数を概念的に吟味するとはどういうことか| 「投薬X=あり」を概念的に吟味する 投薬X 痛みY 患者さんの 気持ち お医者さん の気持ち 服薬 プラセボ効果 観察者バイアス (ノン)コンプ ライアンス ⼆重盲検& コンプライアンス 条件下では: 「投薬X=あり」 の因果効果 = 薬剤の効果 ⼆重盲検法(薬/偽薬) 「投薬すること」の構成要因・媒介要因の(質 的/量的)研究は因果効果推定の話と直結する ブラインド ブライ ンド

Slide 125

Slide 125 text

変数を概念的に吟味するとはどういうことか| 「マスクX=着⽤あり」を概念的に吟味する マスクX インフル感染 環境(家庭/学校/満員電⾞) (マスクX, 環境) “「マスク着⽤」 が感染を防ぐ エビデンスは ありません” 「マスク着⽤」の構成要因・媒介要因の(質 的/量的)研究は因果効果推定の話と直結する 「マスク着⽤」とは? Effect modification (邪道なDAG表現ですが便宜上おゆるしを)

Slide 126

Slide 126 text

変数を概念的に吟味するとはどういうことか| 統計的因果推論と諸研究の関連性のイメージ 因果 モデル 関数fと変数Zのあり よう⾃体を分析対象 とした質的/量的研究 介⼊効果 推定 統計的 因果推論 分析概念の/関数fと変数Zの モデルの⾼解像度化 バイアスの減少 Target/SUTVAの明確化 深化 効果の定量的な実証 量的な重要度の明確化 介⼊効果がいかに/どの程度⽣じるかについての “Sufficiently deep explanation”を社会に提供できる Morgan and Winship (2014)

Slide 127

Slide 127 text

変数を概念的に吟味するとはどういうことか| 統計的因果推論で因果グラフを⽤いることの効⽤ ・ 調整すべき変数についての論理が得られる ・量的(統計的)研究と質的研究の橋渡しとなりうる ・ 調整すべき変数を絞り込むことができる ・ 感度分析・媒介効果分析への橋渡しとなりうる ・ 調整すべき変数の抜け漏れを防げる ・因果の図解⾃体が関係者とのやりとりに役⽴つ ・ ⼀般化可能性についての議論も深まりやすくなる (⼀般化可能性は⽣成メカニズムの安定性や類似性にも⼤きく依存するため)

Slide 128

Slide 128 text

変数を概念的に吟味するとはどういうことか| 統計的因果推論で因果グラフを⽤いることの効⽤ 因果グラフの積極的な使⽤は、 統計的因果推論の分析に使⽤される諸変数が 表現する概念の内実に対する内省を促すための “ナッジ”である 分析概念の吟味の観点からは:

Slide 129

Slide 129 text

本⽇の内容 III. 関数因果モデルからの散歩道 III-1. 関数因果モデルの潜在的な射程範囲、 広すぎるのでは? III-2. 統計的因果推論において変数を概念的 に吟味するとはどういうことか III-3. 個体レベル→集団レベルへ移⾏する際に 抜け落ちるものは何か

Slide 130

Slide 130 text

個体レベル→集団レベルを考える| 「個体」の潜在反応をゼロベースで考えてみる ./(2) (ぴかそ) = (, 観測可能&数量化可能なもの, 数量化不可能なもの, 観測不可能なもの, 固有なもの, ⾮固有なもの … ) そもそもを⾔えば、個体の潜在反応は観測可能な もの/不可能なもの、数量化可能なもの/不可能 なもの/、固有なもの/⾮固有なものの全てに よって規定されている 統計的推論では観測可能&数量化可能なもの以外 の個体の諸々は”誤差”として⽚付けられてしまう 本当の「ぴかそ」 の全て 半可通にとっての「ぴかそ」の全て

Slide 131

Slide 131 text

統計的因果推論で”誤差”として扱われる観測&数量化 されたもの以外の諸々は質的研究で取り扱われる *+ 0 ぴかそ = (, 観測&数量化されたもの, それ以外) *+ 0 だり = (, 観測&数量化されたもの, それ以外) *+ 0 まちす = (, 観測&数量化されたもの, それ以外) *+ 0 みろ = (, 観測&数量化されたもの, それ以外) 集団レベルではこれらは全て”誤差項”に回収される 少なくとも内在的には”誤差項”は必ずしも偶然な変動ではない 個体レベル→集団レベルを考える| →これは(例えば)リスクの分配の公正性を考えるときに重要な 論点となりうる(”それは本当に「運の平等」か?”) →例:ある特定の認知的偏りをもった⼈が常に過⼩評価される等

Slide 132

Slide 132 text

因果推論と「質的な研究」| 個人 集団A 集団A’ 集団Σ 集団因果効果の 推定量 “往路” “復路” , , … エビデンス の⽣産 個人 個人 エビデンス の利⽤ , , … , , … トークンto タイプ タイプto トークン エビデンスの社会への適⽤の”往路”と”復路” 例えばリスク・コミュニケーションの 現場では「数値」のナラティブ内での 位置づけまでの考慮が必要となる 往路で”誤差”として⽚付けた「断⽚的なもの」に ”復路”でふたたび向き合うべきときがある こういう感覚が分からない⼈をコミュニケーター役にすると⼤抵ろくなことにならない

Slide 133

Slide 133 text

バックドア基準の話と潜在反応モデルの話と関数因 果モデルの話はふつうに繋がっている What-if/反事実の推定アプローチとしての統計的因 果推論と(例えば)⼤規模物理シミュレーションモ デルは連続的なperspectiveのもとに置ける 変数が含意する概念の構成要因・媒介要因の質的/ 量的研究は因果効果推定の話と直結する 統計的因果推論で”誤差”として扱われる観測可能& 数量化可能なもの以外の個体の諸々は質的研究で取 り扱われる(そして我々はそれにエビデンス利⽤の”往路” で再び出会う) 本⽇の話の全体まとめ ■ ■ ■ ■

Slide 134

Slide 134 text

因果推論駅の奥へ! Enjoy!