Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Pearl「入門統計的因果推論4.5」まとめ

うとしん
September 27, 2022
1.5k

 Pearl「入門統計的因果推論4.5」まとめ

社内勉強会の発表資料です。「入門統計的因果推論(Pearl)」の4.5章「介入と寄与の分析に関する数学的ツール」の内容についてまとめました。

うとしん

September 27, 2022
Tweet

Transcript

  1. 反事実とは(基本法則) - 正式な定義: Y x (u) = Y Mx (u)

    … (4.5) - 一致性: もし X = x ならば Y x = Y … (4.6) ここで、M x は任意の構造モデル Mを修正してXの等式をX=xに置き換えたもの この基本法則に従って反事実を考えることで、 ある特定の個体(U=u)の振る舞いを捉えることが可能
  2. 反事実とは(ココがすごい) 構造的因果モデルにより完全に記述され たどのようなモデルにおいても反事実の 確率を計算できる モデルの記述が不完全 or変数がいくつ か測定できていない時でもデータからこ れらの確率を計算することができる X =

    aU, Y = bX + U Y x (u) = Y Mx (u) = bx + u 証拠E=eからUの値を決定 X=xとし修正モデルM x を得る (決定論的モデルの例) パラメトリックなモデルが存在 モデルから Uを推論可能 母集団レベルにおいて は、調整化公式により確 率や期待値を計算するこ とができる Yes No
  3. 3つの頻出パターン 1. ETT(Effect of Treatment on the Treated) ➢ 前章で解説

    2. 必要性の確率(PN: Probability of Necessity) ➢ 4.5.1 原因と確率と寄与に関するツールで解説 3. 媒介問題 ➢ 4.5.2 媒介についてのツールで解説
  4. 1. ETT(Effect of Treatment on the Treated) 2. 必要性の確率(PN: Probability

    of Necessity) 3. 媒介問題 3つの頻出パターン
  5. ETTの復習 - Effect of Treatment on the Treated(処置群での処置効果) - ETT

    = E[ Y x - Y x’ | X=x ] = E[ Y x | X=x ] - E[ Y x’ | X=x ] ETTが識別可能となるのは以下の 3通り 1. バックドア基準を満たす 2. フロントドア基準を満たす 3. 2値変数Xで実験データと非実験データがそれぞれP(Y=y|do(X=x))とP(X=x, Y=y)の形で手に入る
  6. PN(必要性の確率)とは Probability of Necessityの略。2値の事象を仮定し - X=x は介入(X=x’ は X=x の否定)

    - Y=y は反応(Y=y’ は Y=y の否定) とするとき、求めたい反事実の量は PN(x, y) = P( Y x’ =y’ | X=x, Y=y ) 上記のPNは、実際にはX=x, Y=yですが、 もしX=x’であったならばY=y’であろう確率を表してます
  7. PNの下限と上限(3つの特徴) PNの下限と上限をERRの関数として描画 1. 交絡の有無に依らず UB - LB = q =

    P(y’|x) / P(y|x) (一定) 2. ERRのみでは十分でない場合に、CFは PN>1/2を満たすために下限を上昇させ るかもしれない 3. 上下限の上昇量はCFによって与えられ る 観察可能 唯一、実験データから 推定する必要あり
  8. PNの下限と上限(PSとPNS) - PS(Probability of Sufficiency) - PS = P(Y x

    =y | X=x’, Y=y’) - PNS(Probability of Necessity and Sufficiency) - PNS = P(Y x =y, Y x’ =y’) についても同様に上下限を求めることができる 特に、Y x (u)が単調の場合 PNS = P(Y x =y, Y x’ =y’)= P(Y x =y, Y x’ =y) = P(Y x =y) - P(Y x’ =y) ※詳細は「Tien and Pearl 2000」を参照
  9. PNの具体例 腰痛の薬xが腰痛患者Aさんの死亡原因であるのか? 実験データ 非実験データ do(x) do(x’) x x’ 死(y) 16

    14 2 28 生存(y’) 984 986 998 972 手元にある実験データおよび非実験データから薬 xが人の死yの原因である確率PNを推定する 表から - P(y|do(x)) = 16/1000 = 0.016 - P(y|do(x’)) = 14/1000 = 0.014 - P(y) = 30/2000 = 0.015 - P(x,y) = 2/2000 = 0.001 - P(y|x) = 2/1000 = 0.002 - P(y|x’) = 28/1000 = 0.028 が得られる ※標本誤差はないものとする
  10. PNの具体例 腰痛の薬xが腰痛患者Aさんの死亡原因であるのか? 実験データ 非実験データ do(x) do(x’) x x’ 死(y) 16

    14 2 28 生存(y’) 984 986 998 972 手元にある実験データおよび非実験データから薬 xが人の死yの原因である確率PNを推定する 単調性を仮定すると、 定理4.5.1の4.29式より 式4.30の下限は1となるので PN=1 ➢ 確実に死の原因と言える ※標本誤差はないものとする
  11. PNのまとめ - PNとは「実際にはX=x, Y=yだが、もしX=x’であったならばY=y’であ ろう」確率 - PNが識別可能な条件は下記の通り - すべてのuでYがXについて単調(Y 1

    (u) >= Y 0 (u)) - 因果効果P(y|do(x))が識別可能 - PNが識別可能なとき、PNはERRとCFに分解でき、ERRは観察デー タから、CFは実験データから推定することが可能
  12. よくある媒介問題のモデル 媒介問題の標準的なモデル t = f T (u T ), m

    = f M (t, u M ), y = f Y (t, m, u Y ) …(4.43) ただし、 - T(処置), M(媒介), Y(反応)は確率変数(離散 or連続) - fは任意の関数 - Uは省略変数 - ベクトルU = (U T , U M , U Y )は確率ベクトル(個体間のばらつきを表す)
  13. よくある媒介問題のモデル(グラフ) 交絡なし U M M U T U Y T

    Y 交絡あり U M と(U T , U Y )の間に従属性がある U M M U T U Y T Y
  14. 反事実における効果の定義 効果 定義 解釈 媒介変数の挙動 総合効果 TE: Total Effect 処置がT=0からT=1に変化した

    時のYの増加量の期待値 Tが変化するにつれて 関数f M に より自然に変化する 制御された直接効果 CDE: Controlled Direct Effect 処置がT=0からT=1に変化した 時のYの増加量の期待値 母集団全体に対して一律 M=m に設定 自然な直接効果 NDE: Natural Direct Effect 処置がT=0からT=1に変化した 時のYの増加量の期待値 T=0においてそれぞれの個体 がとったであろう値に固定 自然な間接効果 NIE: Natural Indirect Effect 処置がT=0に固定されていると きのYの増加量の期待値 T=1においてそれぞれの個体 がとったであろう値に固定 TEとCDEはdoオペレーターで記述することができ、データから推定することができる。 NDEと NIEを識別するためには別の仮定が必要になる。
  15. 総合効果の分解 一般に総合効果TEは下記の通り分解することができる TE = NDE - NIE r … (4.48)

    ここで、NIE r はT=1からT=0へ逆向きの移行をしたときのNIE ➢ NDEとTEが識別可能であれば、NIEも識別可能
  16. TE・NDE・NIEを用いた3つの比 NDE / TE : Mを”凍結”したまま直接伝搬する反応の割合 (TE - NDE) /

    TE : 反応のうちMによるものの割合 NIE / TE : YがXに影響されないとき、 Mを経由して伝搬する反応の割合
  17. 媒介公式の具体例 宿題・補習への取り組みと試験の合否(合格率) 処置 宿題 合格率 T M E[Y|T=t,M=m] 1 1

    0.80 1 0 0.40 0 1 0.30 0 0 0.20 処置 宿題 T E[M|T=t] 0 0.40 1 0.75 表から - NDE = (0.4 - 0.2)(1 - 0.4) + (0.8 - 0.3)0.4 = 0.32 - NIE = (0.75 - 0.4)(0.3 - 0.2) = 0.035 - TE = 0.8*0.75 + 0.4*0.25 - (0.3*0.4 + 0.2*0.6) = 0.46 - NIE / TE = 0.07 - NDE / TE = 0.696 - (TE - NDE) / TE = 0.304 プログラムにより宿題に時間 をかけるようになった結果 合格率の増加(30.4%) 宿題の時間に増加 のみの合格率の増 加(7%) プログラム全体の合格率の増加( 46%)
  18. 4.5.2 構造モデルのTE, NDE, NIEを求める (a) (b) U Y = aU

    M + b と置いて(a)と同様に計算するだけ。 答えは(a)と同じになります! M T Y U M U Y 線形モデルなので TE = NDE + NIE
  19. 4.5.4 性別・資格と採用(採用率) 性別 資格 採用率 T M E[Y|T=t,M=m] 1 1

    0.80 1 0 0.40 0 1 0.30 0 0 0.20 性別 資格 T E[M|T=t] 0 0.40 1 0.75 表から - NDE = (0.4 - 0.2)(1 - 0.4) + (0.8 - 0.3)0.4 = 0.32 - NIE = (0.75 - 0.4)(0.3 - 0.2) = 0.035 - TE = 0.8*0.75 + 0.4*0.25 - (0.3*0.4 + 0.2*0.6) = 0.46 - NIE / TE = 0.07 - NDE / TE = 0.696 - (TE - NDE) / TE = 0.304 男性が資格を持っている 場合の採用率の増加 (30.4%) 資格のみによる 採用率の増加 (7%) 全体の採用における性差( 46%) 男性が資格を持っている ことによる採用率の増加 (30.4%)