Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
入門統計的因果推論4.4節
Masafumi Abeta
September 05, 2021
Science
0
68
入門統計的因果推論4.4節
Masafumi Abeta
September 05, 2021
Tweet
Share
More Decks by Masafumi Abeta
See All by Masafumi Abeta
物体追跡
abeta
0
21
特徴量記述
abeta
0
27
適応共鳴理論 / Adaptive resonance theory
abeta
0
200
4ページで理解するディリクレ過程混合モデル
abeta
0
37
Lordのパラドックス
abeta
0
150
ウェブ最適化からはじめる機械学習 7章
abeta
1
25
ウェブ最適化からはじめる機械学習 8章
abeta
0
20
Incorporating Convolution Designs into Visual Transformers
abeta
2
410
ウェブ最適化からはじめる機械学習 3章
abeta
1
35
Other Decks in Science
See All in Science
初学者向けDjango教材を作ってみた
miura55
1
310
深層学習による自然言語処理 輪読会#2 資料
tok41
0
260
Теория байесовских сетей - осень 2021 - 2 лекция
dscs
0
110
不審なURLの見つけ方
secchick
1
180
Kaggle Feedback Prizeコンペ 反省会
shimacos
3
1.1k
第2回ディープラーニング勉強会~画像処理編~
ganchan11
0
120
Statistical approaches for differential expression analysis in metatranscriptomics
tagtag
0
120
スマートシティとメタバースにおける人工知能技術の活用
miyayou
0
340
深層学習による自然言語処理 輪読会#4 資料
tok41
0
180
Pangeo Forge Tutorial Intoduction
rabernat
0
120
統計的推測の心構え:正しい質問をする
shogo_osawa
0
200
Vaccine Information
yoshimine77
0
110
Featured
See All Featured
Atom: Resistance is Futile
akmur
255
20k
Music & Morning Musume
bryan
35
4.1k
Facilitating Awesome Meetings
lara
29
3.9k
How To Stay Up To Date on Web Technology
chriscoyier
780
250k
Learning to Love Humans: Emotional Interface Design
aarron
261
37k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
350
21k
Six Lessons from altMBA
skipperchong
14
1.3k
Bootstrapping a Software Product
garrettdimon
294
110k
A Philosophy of Restraint
colly
192
14k
The Pragmatic Product Professional
lauravandoore
19
2.9k
The World Runs on Bad Software
bkeepers
PRO
56
5.2k
The Straight Up "How To Draw Better" Workshop
denniskardys
225
120k
Transcript
XX University ⼊⾨統計的因果推論 Sec4.4~ Abeta
2 4.4 半事実の実践的応⽤ 4.4.1 参加者募集 4.4.2 加法的介⼊ 4.4.3 個⼈の意思決定 4.4.4
採⽤における差別 4.4.5 媒介とパス切断介⼊ 4.5 介⼊と寄与の分析に関する数学的ツール 4.5.1 原因の確率と寄与に関するツール 4.5.2 媒介についてのツール
3 4.4 半事実の実践的応⽤ 4.4.1 参加者募集 4.4.2 加法的介⼊ 4.4.3 個⼈の意思決定 4.4.4
採⽤における差別 4.4.5 媒介とパス切断介⼊ 4.5 介⼊と寄与の分析に関する数学的ツール 4.5.1 原因の確率と寄与に関するツール 4.5.2 媒介についてのツール
4 半事実がどのように使われているかの例を⾒ていく。
5 4.4 半事実の実践的応⽤ 4.4.1 参加者募集 4.4.2 加法的介⼊ 4.4.3 個⼈の意思決定 4.4.4
採⽤における差別 4.4.5 媒介とパス切断介⼊ 4.5 介⼊と寄与の分析に関する数学的ツール 4.5.1 原因の確率と寄与に関するツール 4.5.2 媒介についてのツール
6 例4.4.1 政府は失業者向け職業訓練プログラムを助成。予備試験のランダム化試験ではプログラム修了者の⽅が⾼い割 合で就職した。正式募集ではさらに修了者の就職割合が⾼くなった。 プログラム助成反対派は、⾃分で応募するような⼈は知性も教養も⾼く、社会的つながりもあるため、もとも と仕事が⾒つかりやすい⼈たちであるから、「修了者がもし参加しなかったときの効果」を調べるべきと主張 している。 ETT = 𝐸
𝑌! − 𝑌" |𝑋 = 1 = 𝐸 𝑌! 𝑋 = 1 − 𝐸 𝑌" 𝑋 = 1 = 𝐸 𝑌 𝑋 = 1 − 𝐸 𝑌" 𝑋 = 1
7 𝐸 𝑌! 𝑋 = 1 を求めたい。共変量の集合𝑍が処置と反応変数についてバックドア基準を満たす場合は、バックド ア公式と定理4.3.1を使⽤して計算できる。これをETT調整可公式と呼ぶ。 𝑃 𝑌)
𝑋 = 𝑥* = , + 𝑃 𝑌) = 𝑦 𝑋 = 𝑥*, 𝑍 = 𝑧 𝑃 𝑍 = 𝑧 𝑋 = 𝑥* = , + 𝑃 𝑌) = 𝑦 𝑍 = 𝑧 𝑃 𝑍 = 𝑧 𝑋 = 𝑥* = , + 𝑃 𝑌) = 𝑦 𝑋 = 𝑥, 𝑍 = 𝑧 𝑃 𝑍 = 𝑧 𝑋 = 𝑥* = , + 𝑃 𝑌 = 𝑦 𝑋 = 𝑥, 𝑍 = 𝑧 𝑃 𝑍 = 𝑧 𝑋 = 𝑥* ∵定理4.3.1 ∵定理4.3.1 ∵⼀致性
8 よって、反事実を含まない式で計算が可能。 ETT = 𝐸 𝑌! − 𝑌" |𝑋 =
1 = 𝐸 𝑌! 𝑋 = 1 − 𝐸 𝑌" 𝑋 = 1 = 𝐸 𝑌 𝑋 = 1 − , + 𝐸 𝑌 𝑋 = 0, 𝑍 = 𝑧 𝑃 𝑍 = 𝑧 𝑋 = 1 知性・教養・社会的つながりについて プログラム修了者の重みで プログラム⾮修了者の重み付けをする
9 練習問題4.4.1(a) 𝑋が⼆値変数の場合、 𝑃(𝑋, 𝑌)と𝑃(𝑌|do(𝑋 = 𝑥))が分かればETTを推定できる。 𝐸 𝑌" =
, 45",! 𝐸 𝑌) 𝑋 = 𝑖 𝑃 𝑋 = 𝑖 = 𝐸 𝑌" 𝑋 = 0 𝑃 𝑋 = 0 + 𝐸 𝑌" 𝑋 = 1 𝑃 𝑋 = 1 ⇒ 𝐸 𝑌"|𝑋 = 1 = 𝐸 𝑌" − 𝐸 𝑌" 𝑋 = 0 𝑃 𝑋 = 0 𝑃 𝑋 = 1 = 𝐸 𝑌|do(𝑋 = 0) − 𝐸 𝑌 𝑋 = 0 𝑃 𝑋 = 0 𝑃 𝑋 = 1
10 練習問題4.4.1(b) 性別が交絡因⼦と考えた場合のETTを計算する。Doオペレータは調整可公式を使⽤する。 𝐸 𝑌!|𝑋 = 1 = 𝐸 𝑌|do(𝑋
= 0) − 𝐸 𝑌 𝑋 = 0 𝑃 𝑋 = 0 𝑃 𝑋 = 1 = 𝐸 𝑌 𝑋 = 0, 𝑍 = 0 𝑃(𝑍 = 0) + 𝐸 𝑌 𝑋 = 0, 𝑍 = 1 𝑃(𝑍 = 1) − 𝐸 𝑌 𝑋 = 0 𝑃 𝑋 = 0 𝑃 𝑋 = 1 = 234 270 × 270 + 87 350 + 350 + 55 80 × 263 + 80 350 + 350 − 289 350 × 1 2 1 2 = 20497 28000 X=1: 投与あり Z=1: ⼥
11 練習問題4.4.1(c) 性別がバックドア基準を満たしている場合。 𝐸 𝑌!|𝑋 = 1 = : "
𝐸 𝑌 𝑋 = 0, 𝑍 = 𝑧 𝑃 𝑍 = 𝑧 𝑋 = 1 = 𝐸 𝑌 𝑋 = 0, 𝑍 = 0 𝑃 𝑍 = 0 𝑋 = 1 + 𝐸 𝑌 𝑋 = 0, 𝑍 = 1 𝑃 𝑍 = 1 𝑋 = 1 = 234 270 × 87 350 + 55 80 × 263 350 = 20497 28000 X=1: 投与あり Z=1: ⼥ ETT = 𝐸 𝑌|𝑋 = 1 − 𝐸 𝑌! |𝑋 = 1 = 273 350 − 20497 28000 ~0.048
12 4.4 半事実の実践的応⽤ 4.4.1 参加者募集 4.4.2 加法的介⼊ 4.4.3 個⼈の意思決定 4.4.4
採⽤における差別 4.4.5 媒介とパス切断介⼊ 4.5 介⼊と寄与の分析に関する数学的ツール 4.5.1 原因の確率と寄与に関するツール 4.5.2 媒介についてのツール
13 例4.4.2 もともと存在する𝑋の値にある値を加える(または除く)ときの効果を推定するとき、それぞれの個体のもと もとの𝑋は個体ごとに異なるとする。このような介⼊の効果を観察研究または𝑋をある値𝑥に予め⼀様に決定し ておく実験研究で推定できるだろうか。 𝐸 𝑌 add 𝑞 −
𝐸 𝑌 = E "! 𝐸 𝑌"!#$ 𝑋 = 𝑥% 𝑃 𝑋 = 𝑥% − 𝐸 𝑌 = E "! E & 𝐸 𝑌 𝑋 = 𝑥% + 𝑞, 𝑍 = 𝑧 𝑃 𝑍 = 𝑧 𝑋 = 𝑥% 𝑃 𝑋 = 𝑥% − 𝐸 𝑌 現在X = 𝑥′の個体をX = 𝑥% + 𝑞に介⼊したとき、つまり𝑌"%#$ をX = 𝑥′の個体で平均すると𝐸[𝑌"!#$ |𝑥′]となる。こ れはETTの表現をしている。介⼊前後の差をとって介⼊効果とする。変数𝑍がバックドア基準を満たす変数と するとETT調整化公式が使える。
14 個体のもともとの𝑋が異なるので、推定効果は⺟集団𝑃(𝑋)に依存することに注意。 ところで、なぜランダムにグループを⼆つに分け、それぞれqを加える、0を加える介⼊を⾏って⽐較するだけ のことに、反事実を持ち出す必要があるのか。これはadd表記がdo表記で記述出来ないからである。 do表記では⺟集団を⼀律𝑋 = 𝑥と⼀定の値にしてしまう。これは科学者がよく求めたがる汎⽤的な推定値であ る𝐸 𝑌 do
𝑋 = 𝑥% + 𝑞 − 𝐸[𝑌|do(𝑋 = 𝑥%)]に相当する。 ⼀⽅で政策決定者は、特定の⺟集団(国⺠)全員に対して、各個体の現在の𝑋に関わらず⼀定の処置を⾏った ときの効果を知りたがる。後者のような推定のために反事実が使⽤される。
15 また、加法的介⼊効果𝐸 𝑌 add 𝑞 − 𝐸 𝑌 は平均因果効果、 加法的介⼊効果は𝑌"
と𝑋が⾮交絡のときのみ平均因果効果に⼀致する。 E " 𝐸 𝑌|do(𝑋 = 𝑥 + 𝑞) − 𝐸 𝑌|do(𝑋 = 𝑥) 𝑃 𝑋 = 𝑥 とも異なる。平均因果効果は、被験者をランダムに選んで、割合𝑃 𝑋 = 𝑥 の⼈たちに強制してdo(𝑋 = 𝑥 + 𝑞) をしている。⼀⽅で加法的介⼊効果は、⾃由意志で𝑋 = 𝑥となることを選択した⼈に対して、 𝑞を加える操作 をしている。この違いが効果に影響する。 𝐸 𝑌 add 𝑞 − 𝐸 𝑌 = E " 𝐸 𝑌"#$ 𝑋 = 𝑥 − 𝐸 𝑌|𝑋 = 𝑥 𝑃 𝑋 = 𝑥 ≠ E " 𝐸 𝑌"#$ − 𝐸 𝑌" 𝑃 𝑋 = 𝑥 = E " 𝐸 𝑌|do(𝑋 = 𝑥 + 𝑞) − 𝐸 𝑌|do(𝑋 = 𝑥) 𝑃 𝑋 = 𝑥
16 練習問題4.4.2(a)(b) 肺がんになる確率をETTで表す。吸ってない⼈が吸ったときに肺がんになる確率がどれだけ⾼くなるか知りた い。 フロントドア基準を満たすデータであればよい。 X=1: 喫煙者 Z=1: タール蓄積あり ETT
= 𝐸 𝑌# − 𝑌!|𝑋 = 0
17 練習問題4.4.2(c) (3.15)のフロントドア公式を⽤いる。 𝐸 𝑌" 𝑋 = 𝑥% を求める。 𝐸
𝑌! = 𝑦 = % !" % # 𝐸 𝑌 = 𝑦 𝑍 = 𝑧, 𝑋 = 𝑥" 𝑃(𝑍 = 𝑧|𝑋 = 𝑥)𝑃 𝑋 = 𝑥" 𝐸 𝑌! = 𝑦 = % !! 𝐸 𝑌! 𝑋 = 𝑥" 𝑃 𝑋 = 𝑥" ⟹ 0 = % !! 𝑃 𝑋 = 𝑥" 𝐸 𝑌! 𝑋 = 𝑥" − % # 𝐸 𝑌 = 𝑦 𝑍 = 𝑧, 𝑋 = 𝑥" 𝑃(𝑍 = 𝑧|𝑋 = 𝑥) ∵フロントドア公式 ∵乗法定理 ∵ 𝑃 𝑋 = 𝑥% >0かつ𝑃 𝑋 = 𝑥% の任意性 = 0 ETT = 𝐸 𝑌' − 𝑌! |𝑋 = 0 = E &(!,' 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 0 𝑃 𝑍 = 𝑧 𝑋 = 1 − 𝐸 𝑌 𝑋 = 0 = 0.9× 20 400 + 0.95× 380 400 − 0.9025 = 0.045 X=1: 喫煙者 Z=1: タール蓄積あり 肺がんになる確率4.5%上昇を受け⼊れられるか
18 ちなみに、喫煙している⼈が、もし喫煙しなかった場合と⽐べたときの肺がんになる確率は次のようになる。 𝐸 𝑌' − 𝑌! |𝑋 = 1 =
𝐸 𝑌 𝑋 = 1 − E &(!,' 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 1 𝑃 𝑍 = 𝑧 𝑋 = 0 = 0.15 − 0.1× 380 400 − 0.15× 20 400 = 0.0475
19 4.4 半事実の実践的応⽤ 4.4.1 参加者募集 4.4.2 加法的介⼊ 4.4.3 個⼈の意思決定 4.4.4
採⽤における差別 4.4.5 媒介とパス切断介⼊ 4.5 介⼊と寄与の分析に関する数学的ツール 4.5.1 原因の確率と寄与に関するツール 4.5.2 媒介についてのツール
20 例4.4.3 (i)がん摘出⼿術のみ(𝑋 = 0) (ii)がん摘出⼿術+放射線治療(𝑋 = 1) Jonesは(ii)を選択し10年再発なく(Y =
1)喜び、Smithは(i)を選択し1年後再発し(Y = 0)後悔している。 この喜びや後悔の正しさをデータから推定できるのか。出来たところで何か意味はあるのか。 放射線治療を受けて(𝑋 = 1)再発しなかったとき(Y = 1)、仮に放射線治療を受けず再発していた(𝑌! = 0)確率を 必要性の確率(PN: Probability of Necessity)と呼び、Jonesの結果が望ましい結果を得るのに必要であった度 合いを測るものである。 𝑃𝑁 = 𝑃 𝑌! = 0|𝑋 = 1, 𝑌 = 1 放射線治療を受けず(𝑋 = 0)再発したとき(Y = 0)、仮に放射線治療を受けて再発しなかった (𝑌' = 1)確率を⼗ 分性の確率(PS: Probability of Sufficiency)と呼び、Smithの選択しなかった⽅の選択肢をもし選んでいたとき の回復していたであろう度合いを測るものである。 𝑃𝑆 = 𝑃 𝑌# = 1|𝑋 = 0, 𝑌 = 0
21 Dailyは放射線治療を受けなければ再発し、受ければ再発しないような腫瘍のときのみ放射線治療をしたい。 仮に放射線治療を受けて再発しない (𝑌' = 1)かつ放射線治療を受けず再発する(𝑌! = 0)確率は必要かつ⼗分で あるような確率を表す。 𝑃𝑁𝑆
= 𝑃 𝑌# = 1, 𝑌! = 0 このような確率は⼀般には観察データからも実験データからも推定不可能だが、ある条件のもとでは推定でき ることがある。 → 4.5.1項 個⼈のリスクや選択の正しさを確認することで、⾃分の意思決定に対して⾃信を持ったり、思考プロセスの改 善につなげることができる。
22 4.4 半事実の実践的応⽤ 4.4.1 参加者募集 4.4.2 加法的介⼊ 4.4.3 個⼈の意思決定 4.4.4
採⽤における差別 4.4.5 媒介とパス切断介⼊ 4.5 介⼊と寄与の分析に関する数学的ツール 4.5.1 原因の確率と寄与に関するツール 4.5.2 媒介についてのツール
23 例4.4.4 A社に落とされたMaryは⾃⾝が同性愛者だから落とされたと考えた。A社が異性愛者を優遇し、同性愛者を差 別していることを⽰せるか。 ⼗分性の確率で表せる。 𝑃𝑆 = 𝑃 𝑌# =
1|𝑋 = 0, 𝑌 = 0 𝑋 = 0は同性愛、 𝑌 = 0が不合格を表す。 個別のケースでは差別か判断できないが、差別が起きた確率を求める事はできる。→ 4.5.2項
24 4.4 半事実の実践的応⽤ 4.4.1 参加者募集 4.4.2 加法的介⼊ 4.4.3 個⼈の意思決定 4.4.4
採⽤における差別 4.4.5 媒介とパス切断介⼊ 4.5 介⼊と寄与の分析に関する数学的ツール 4.5.1 原因の確率と寄与に関するツール 4.5.2 媒介についてのツール
25 例4.4.5 (i)教育の場や職業訓練において性別の差をなくす (ii)採⽤の決定を性別によらないものにする 成功した場合⼆つのどちらが、採⽤における性間格差を減少させるのに⼤きなインパクトを残せるか知りたい。 採⽤の決定を性別によらないものにしてみよう。雇⽤主は応募者を男性のように扱い(𝑋 = 1)、応募者は資格 (Q =
𝑞)を持っているとする。男性と⼥性の採⽤結果の差は次のようになる。 E $ 𝐸 𝑌*(',+($ 𝑃(𝑄 = 𝑞|𝑋 = 0) − E $ 𝐸 𝑌*(',+($ 𝑃(𝑄 = 𝑞|𝑋 = 1) これは資格により媒介された採⽤における性別の間接効果である。この効果を⾃然な間接効果(NIE: Natural Indirect Effect)と呼ぶ。媒介変数を⺟集団全体で固定せず、⾃然に様々な値をとるためである。 交絡因⼦がなければ条件付き確率で表せることが知られている。 E $ 𝐸 𝑌|𝑋 = 1, 𝑄 = 𝑞 𝑃 𝑄 = 𝑞 𝑋 = 0 − 𝑃 𝑄 = 𝑞 𝑋 = 1
26 4.4 半事実の実践的応⽤ 4.4.1 参加者募集 4.4.2 加法的介⼊ 4.4.3 個⼈の意思決定 4.4.4
採⽤における差別 4.4.5 媒介とパス切断介⼊ 4.5 介⼊と寄与の分析に関する数学的ツール 4.5.1 原因の確率と寄与に関するツール 4.5.2 媒介についてのツール
27 4.5.1項では、PNを推定する際に有⽤な数学的結果をまとめる。 4.5.2項では、処置が𝑋 = 𝑥であったとき媒介変数の値が𝑋が𝑥′であったならばとっていたであろう値𝑀"% だった ならば反応𝑌の期待値はどうなっていたか𝐸[𝑌"!,,"! ]を推定できる条件や公式をまとめる。
28 4.4 半事実の実践的応⽤ 4.4.1 参加者募集 4.4.2 加法的介⼊ 4.4.3 個⼈の意思決定 4.4.4
採⽤における差別 4.4.5 媒介とパス切断介⼊ 4.5 介⼊と寄与の分析に関する数学的ツール 4.5.1 原因の確率と寄与に関するツール 4.5.2 媒介についてのツール
29 事象は⼆値とする。 𝑋 = 𝑥, 𝑌 = 𝑦をそれぞれ介⼊と反応とし、 𝑋 =
𝑥′, 𝑌 = 𝑦′をそれぞれの否定とする。 実際には𝑋 = 𝑥, 𝑌 = 𝑦 だが、もし𝑋 = 𝑥′のとき𝑌 = 𝑦′ であろう確率を求めたい。 𝑃𝑁(𝑥, 𝑦) = 𝑃 𝑌)* = 𝑦′|𝑋 = 𝑥, 𝑌 = 𝑦 PNが識別可能である条件は定理4.5.1で⽰される。 過剰相対リスク(ERR: Excess Risk Ratio) 交絡バイアスの修正項(CF: Confounding Factor)
30 単調でない⼀般の場合には、PNには下限と上限があることが⽰される。 下限と上限は下記のように表せる。
31 PNを推定する例。
32 薬xは飲むと死に⾄らせることはあっても、死を防ぐことはないと仮定する(単調性)。 実際には飲んだら死んだ(𝑋 = 𝑥, 𝑌 = 𝑦 )が、飲まなかったら死ななかった(𝑋 =
𝑥′のとき𝑌 = 𝑦′ )確率を求める。 飲まないほうが死ぬ確 率が⾼いように思える 飲ませると死ぬ 確率が上がる PNは確率なので0 ≤ 𝑃𝑁 ≤ 1を満たさなければならない。 また、もし単調性がなくてもPNの下限が1になるので、 0 ≤ 𝑃𝑁 ≤ 1と合わせて𝑃𝑁 = 1が⽰される。 よって飲まなければ死ななかった確率は100%である。
33 練習問題4.5.1 変数の定義は下記の通り。 がん摘出⼿術のみ(𝑋 = 0 = 𝑥′) がん摘出⼿術+放射線治療(𝑋 =
1 = 𝑥) 再発なし(Y = 1 = 𝑦) 再発あり(Y = 0 = 𝑦′) 𝑃 𝑌 = 𝑦′|do(𝑋 = 𝑥′) = 0.39 𝑃 𝑌 = 𝑦′ do 𝑋 = 𝑥 = 0.14 𝑃 𝑦′ = 0.3 𝑃 𝑥′ 𝑦′ = 0.7 𝑃 𝑥", 𝑦" = 0.21 𝑃 𝑦|do(𝑋 = 𝑥′) = 0.61 𝑃 𝑦 = 0.7 𝑃 𝑥 𝑦" = 0.3 𝑃 𝑥, 𝑦" = 0.09 𝑃 𝑥 = 0.5 𝑃 𝑥, 𝑦 = 𝑃 𝑥 − 𝑃 𝑥, 𝑦" = 0.2 Fisher et al. 観察データ 使⽤できるデータは下記の通り。 下限と上限は下記の通り。 LB = max 0, 𝑃 𝑦 − 𝑃(𝑦|do(𝑋 = 𝑥′)) 𝑃(𝑥, 𝑦) = max 0, 0.7 − 0.61 0.2 = 0.45 UB = min 1, 𝑃 𝑦" do 𝑋 = 𝑥" − 𝑃(𝑥", 𝑦′) 𝑃(𝑥, 𝑦) = min 1, 0.39 − 0.21 0.2 = 0.9 Fisher et al. 観察データ 治療あり |do(x) 治療あり |do(xʼ) 治療あり ,x 治療なし ,xʼ 再発あり y 0.86 0.61 0.2 再発なし yʼ 0.14 0.39 0.09 0.21 情報が⾜りないので適 当に追加
34 4.4 半事実の実践的応⽤ 4.4.1 参加者募集 4.4.2 加法的介⼊ 4.4.3 個⼈の意思決定 4.4.4
採⽤における差別 4.4.5 媒介とパス切断介⼊ 4.5 介⼊と寄与の分析に関する数学的ツール 4.5.1 原因の確率と寄与に関するツール 4.5.2 媒介についてのツール
35 媒介問題の標準的モデル。
36 反事実における直接効果と間接効果の定義 (a)総合効果(TE: Total Effect) TE = 𝐸 𝑌# −
𝑌! = 𝐸 𝑌 do 𝑇 = 1 − 𝐸 𝑌 do 𝑇 = 0 = NDE − NIE$ (b)制御された直接効果 (CDE: Controlled Direct Effect) CDE 𝑚 = 𝐸 𝑌#,& − 𝑌!,& = 𝐸 𝑌 do 𝑇 = 1, 𝑀 = 𝑚 − 𝐸 𝑌 do 𝑇 = 0, 𝑀 = 𝑚 (c)⾃然な直接効果 (NDE: Natural Direct Effect) NDE = 𝐸 𝑌#,'$ − 𝑌!,'$ (d)⾃然な間接効果 (NIE: Natural Indirect Effect) NIE = 𝐸 𝑌!,'% − 𝑌!,'$ NIE$ = 𝐸 𝑌#,'$ − 𝑌#,'% (a)(b)はdoオペレータで書かれているのでデータから推定可能である。(c)(d)は別の仮定が必要。
37 ⾃然な効果を識別するための条件 以下の条件が⾃然な直接効果と間接効果を識別するための必要⼗分条件。
38 ⾃然な効果を識別するための条件
39 数値を使った具体例:2値変数による具体例 プログラム全体は合格率を46%上げ、宿題が30.4%寄与している。
40 練習問題4.5.2(a) 構造モデルのTE、NDE、NIEを求める。 𝑦 = 𝛽' 𝑚 + 𝛽- 𝑡
+ 𝑢. 𝑚 = 𝛾' 𝑡 + 𝑢/ 𝑀 𝑌 𝑇 NDE = 𝐸 𝑌0(',,(,#$% − 𝑌0(!,,(,#$% = 𝐸 𝑌 do 𝑇 = 1, 𝑀 = 𝐸[𝑈, ] − 𝐸 𝑌 do 𝑇 = 0, 𝑀 = 𝐸[𝑈, ] = 𝛽' 𝐸[𝑈, ] + 𝛽- + 𝐸 𝑈1 − 𝛽' 𝐸[𝑈, ] − 𝐸[𝑈1 ] = 𝛽- 𝑇E = 𝐸 𝑌0(' − 𝑌0(! = 𝐸 𝑌 do 𝑇 = 1 − 𝐸 𝑌 do 𝑇 = 0 = 𝛽' 𝛾' + 𝛽' 𝐸 𝑈, + 𝛽- + 𝐸 𝑈1 − 𝛽' 𝐸 𝑈, − 𝐸 𝑈1 = 𝛽' 𝛾' + 𝛽- NIE = 𝐸 𝑌0(!,,(,#$& − 𝑌0(!,,(,#$% = 𝐸 𝑌 do 𝑇 = 1, 𝑀 = 𝛾' + 𝐸[𝑈, ] − 𝐸 𝑌 do 𝑇 = 0, 𝑀 = 𝐸[𝑈, ] = 𝛽' 𝛾' +𝛽' 𝐸[𝑈, ] + 𝛽- + 𝐸 𝑈1 − 𝛽' 𝐸[𝑈, ] − 𝐸[𝑈1 ] = 𝛽' 𝛾'
41 練習問題4.5.2(b) 構造モデルのTE、NDE、NIEを求める。 𝑦 = 𝛽' 𝑚 + 𝛽- 𝑡
+ 𝑢. 𝑚 = 𝛾' 𝑡 + 𝑢/ 𝑀 𝑌 𝑇 NDE = 𝐸 𝑌0(',,(,#$% − 𝑌0(!,,(,#$% = 𝐸 𝑌 do 𝑇 = 1, 𝑀 = 𝐸[𝑈, ] − 𝐸 𝑌 do 𝑇 = 0, 𝑀 = 𝐸[𝑈, ] = 𝛽' 𝐸[𝑈, ] + 𝛽- + 𝐸 𝑈1 − 𝛽' 𝐸[𝑈, ] − 𝐸[𝑈1 ] = 𝛽- 𝑇E = 𝐸 𝑌0(' − 𝑌0(! = 𝐸 𝑌 do 𝑇 = 1 − 𝐸 𝑌 do 𝑇 = 0 = 𝛽' 𝛾' + 𝛽' 𝐸 𝑈, + 𝛽- + 𝐸 𝑈1 − 𝛽' 𝐸 𝑈, − 𝐸 𝑈1 = 𝛽' 𝛾' + 𝛽- NIE = 𝐸 𝑌0(!,,(,#$& − 𝑌0(!,,(,#$% = 𝐸 𝑌 do 𝑇 = 0, 𝑀 = 𝛾' + 𝐸[𝑈, ] − 𝐸 𝑌 do 𝑇 = 0, 𝑀 = 𝐸[𝑈, ] = 𝛽' 𝛾' +𝛽' 𝐸[𝑈, ] + 𝐸 𝑈1 − 𝛽' 𝐸[𝑈, ] − 𝐸[𝑈1 ] = 𝛽' 𝛾' 𝑈, 𝑈1
42 練習問題4.5.3(a) 構造モデルの𝑇𝐸 − NDEを求める。 𝑦 = 𝛽' 𝑚 +
𝛽- 𝑡 + 𝛽2 𝑡𝑚 + 𝛽3 𝑤 + 𝑢. 𝑚 = 𝛾' 𝑡 + 𝛾- 𝑤 + 𝑢/ 𝑤 = 𝛼𝑡 + 𝑢4 𝑀 𝑌 𝑇 NDE = 𝐸 𝑌#$%,'$'!"# − 𝑌#$(,'$'!"# = 𝐸 𝑌 do 𝑇 = 1, 𝑀 = 0 − 𝐸 𝑌 do 𝑇 = 0, 𝑀 = 0 = 𝛽) + 𝛽* 𝛼 − 𝛽* 𝐸 𝑈+ = 𝛽) + 𝛽* 𝛼 𝑇𝐸 = 𝐸 𝑌#$% − 𝑌#$( = 𝐸 𝑌 do 𝑇 = 1 − 𝐸 𝑌 do 𝑇 = 0 = 𝛽% 𝛾% + 𝛾) 𝛼 + 𝛽) + 𝛽, 𝛾% + 𝛾) 𝛼 + 𝛽* 𝛼 = 𝛽) + 𝛾% + 𝛼𝛾) 𝛽, + 𝛽% + 𝛼𝛽* NIE = 𝐸 𝑌#$(,'$'!"$ − 𝑌#$(,'$'!"# = 𝐸 𝑌 do 𝑇 = 0, 𝑀 = 𝛾% + 𝛾) 𝛼 − 𝐸 𝑌 do 𝑇 = 0, 𝑀 = 0 = 𝛽% 𝛾% + 𝛾) 𝛼 𝑊 𝑇𝐸 − NDE = 𝛽) + 𝛾% + 𝛼𝛾) 𝛽, + 𝛽% + 𝛼𝛽* − (𝛽) + 𝛽* 𝛼) = 𝛾% + 𝛼𝛾) 𝛽, + 𝛽%
43 練習問題4.5.3(b) 構造モデルの𝑇𝐸 − NDEを求める。 𝑦 = 𝛽' 𝑚 +
𝛽- 𝑡 + 𝛽2 𝑡𝑚 + 𝛽3 𝑤 + 𝑢. 𝑚 = 𝛾' 𝑡 + 𝛾- 𝑤 + 𝑢/ 𝑤 = 𝛼𝑡 + 𝑢4 𝑀 𝑌 𝑇 NDE = 𝐸 𝑌#$%,+$+!"# − 𝑌#$(,+$+!"# = 𝐸 𝑌 do 𝑇 = 1, 𝑊 = 0 − 𝐸 𝑌 do 𝑇 = 0, 𝑊 = 0 = 𝛽% 𝛾% + 𝛽) + 𝛽, 𝛾% 𝑇𝐸 = 𝐸 𝑌#$% − 𝑌#$( = 𝐸 𝑌 do 𝑇 = 1 − 𝐸 𝑌 do 𝑇 = 0 = 𝛽% 𝛾% + 𝛾) 𝛼 + 𝛽) + 𝛽, 𝛾% + 𝛾) 𝛼 + 𝛽* 𝛼 = 𝛽) + 𝛾% + 𝛼𝛾) 𝛽, + 𝛽% + 𝛼𝛽* NIE = 𝐸 𝑌#$(,+$+!"$ − 𝑌#$(,+$+!"# = 𝐸 𝑌 do 𝑇 = 0, 𝑊 = 𝛼 − 𝐸 𝑌 do 𝑇 = 0, 𝑊 = 0 = 𝛽% 𝛾) 𝛼 + 𝛽* 𝛼 𝑊 𝑇𝐸 − NDE = 𝛽) + 𝛾% + 𝛼𝛾) 𝛽, + 𝛽% + 𝛼𝛽* − 𝛽% 𝛾% + 𝛽) + 𝛽, 𝛾% = 𝛼𝛾) 𝛽, + 𝛽% + 𝛼𝛽*
44 練習問題4.5.4 NIE/TEを求める。
おまけ
46 RCTでは𝐸 𝑌! − 𝐸 𝑌 𝑋 = 𝑥 𝑋が⼆値変数の場合。バックドア基準を満たす変数𝑊が存在する場合。
𝐸 𝑌" − 𝐸 𝑌 𝑋 = 𝑥 = 𝐸 𝑌 do 𝑋 = 𝑥 − 𝐸 𝑌 𝑋 = 𝑥 = E 4 𝐸 𝑌 𝑋 = 𝑥, 𝑊 = 𝑤 𝑃 𝑊 = 𝑤 − 𝐸 𝑌 𝑋 = 𝑥 = E 4 𝐸 𝑌 𝑋 = 𝑥, 𝑊 = 𝑤 𝑃 𝑊 = 𝑤 − E 4 𝐸 𝑌 𝑋 = 𝑥, 𝑊 = 𝑤 𝑃 𝑊 = 𝑤 𝑋 = 𝑥 = E 4 𝐸 𝑌 𝑋 = 𝑥, 𝑊 = 𝑤 𝑃 𝑊 = 𝑤 − 𝑃 𝑊 = 𝑤 𝑋 = 𝑥 理想的なRCT(ランダム割付、標本無限)で あれば⼀致する。 バックドア基準を満たす変数がない場合、𝑊を𝑋の𝑃𝐴とすればそのまま成り⽴つ。理想的なRCTであれば全て の確率変数の分布が同じ、すなわち𝑃 𝑃𝐴 = 𝑤 − 𝑃 𝑃𝐴 = 𝑤 𝑋 = 𝑥 = 0であるはずなので、理想的なRCTでは 𝐸 𝑌" = 𝐸 𝑌 𝑋 = 𝑥 となる。
47 フロントドアで試してみる 𝑋が⼆値変数の場合。フロントドア基準を満たす変数𝑍が存在する場合。 𝐸 𝑌! − 𝐸 𝑌 𝑋 =
𝑥 = 𝐸 𝑌 do 𝑋 = 𝑥 − 𝐸 𝑌 𝑋 = 𝑥 = % # % !" 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 𝑥" 𝑃 𝑋 = 𝑥" 𝑃(𝑍 = 𝑧|𝑋 = 𝑥) − 𝐸 𝑌 𝑋 = 𝑥 = % # % !! 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 𝑥" 𝑃 𝑋 = 𝑥" 𝑃 𝑍 = 𝑧 𝑋 = 𝑥 − % # 𝐸 𝑌 𝑋 = 𝑥, 𝑍 = 𝑧 𝑃 𝑍 = 𝑧 𝑋 = 𝑥 = % # 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 0 𝑃 𝑋 = 0 𝑃 𝑍 = 𝑧 𝑋 = 𝑥 + % # 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 1 𝑃 𝑋 = 1 𝑃 𝑍 = 𝑧 𝑋 = 𝑥 − % # 𝐸 𝑌 𝑋 = 0, 𝑍 = 𝑧 𝑃 𝑍 = 𝑧 𝑋 = 0 𝛿!,' − % # 𝐸 𝑌 𝑋 = 1, 𝑍 = 𝑧 𝑃 𝑍 = 𝑧 𝑋 = 1 𝛿!,( = % # 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 0 𝑃 𝑋 = 0 𝑃 𝑍 = 𝑧 𝑋 = 𝑥 − 𝑃 𝑍 = 𝑧 𝑋 = 0 𝛿!,' + % # 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 1 𝑃 𝑋 = 1 𝑃 𝑍 = 𝑧 𝑋 = 𝑥 − 𝑃 𝑍 = 𝑧 𝑋 = 1 𝛿!,( = 1 2 % # 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 0 𝑃(𝑍 = 𝑧|𝑋 = 1) − 1 2 % # 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 1 𝑃 𝑍 = 𝑧 𝑋 = 1 = 1 2 % # 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 0 − 𝐸 𝑌 𝑍 = 𝑧, 𝑋 = 1 𝑃(𝑍 = 𝑧|𝑋 = 1) ∵x=1のケース