ベイズ的方法に基づく統計的因果推論の基礎

Slide 1

Slide 1 text

ベイズ的方法に基づく統計的因果推論の基礎早稲田大学データ科学センター堀井俊佑

Slide 2

Slide 2 text

自己紹介堀井俊佑（ほりいしゅんすけ）早稲田大学データ科学センター准教授専門分野：統計的因果推論，統計的学習理論，符号理論、情報理論 AI・データ利活用研究会 2 第5章〜第7章第2章〜第3章第2章〜第3章

Slide 3

Slide 3 text

講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル – 2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 3

Slide 4

Slide 4 text

講演の裏テーマ • 構造的因果モデルは難しくない • 傾向スコアを使わないと因果推論できないというのは誤解 • 線形モデルでは因果推論できないというのは誤解 • 因果効果のベイズ推定では傾向スコアが必須ではない理由 • 以下の内容については本講演では扱いません – 因果探索 – 操作変数法 – 差分の差分法 – 回帰不連続デザイン AI・データ利活用研究会 4

Slide 5

Slide 5 text

講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル – 2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 5

Slide 6

Slide 6 text

因果とは • “Causality”の語義：「結果と原因の関係」および「何事にも原因があるとする原理」 AI・データ利活用研究会 6 引用：Oxford Dictionaries • 因果推論の問題：「ある行動Aを起こしたときにYに何が起こるか？」 • 多くの統計学の教科書における因果の取り扱い – 相関と因果の違いに関する注意喚起にとどまるものが多い • 「アイスクリームの消費が多い時期は水死者数も多い」という相関関係は「アイスクリームを食べたことが原因で水死者が増えた」という因果関係を意味しないもう一歩先へ

Slide 7

Slide 7 text

因果推論問題の例 AI・データ利活用研究会 7 例 • ECサイト（インターネット通販サイト）の一部のユーザーに対して広告メールを送り，メールを送ったユーザー・送らなかったユーザーそれぞれについてその後のECサイトでの使用額を調べた．広告メールは効果があるといえるだろうか？また，その効果はどの程度だろうか？ユーザー No. メールの有無 𝑻 使用額 𝒀 1 1 0 2 0 14900 3 1 48200 ⋮ ⋮ ⋮ 𝑛 1 0 広告メールの送付が売上に与える効果処置変数𝑇が結果変数𝑌に与える効果を求めたい． 𝑇 = 0：メールなし， 𝑇 = 1：メールあり 𝑇：処置変数 𝑌：結果変数 ※ 安井翔太「効果検証入門」（技術評論社）の例を一部変更

Slide 8

Slide 8 text

因果推論の難しさ AI・データ利活用研究会 8 因果効果（？）のプリミティブな推定方法 1 𝑖: 𝑇𝑖 = 1 ෍ 𝑖:𝑇𝑖=1 𝑌𝑖 − 1 𝑖: 𝑇𝑖 = 0 ෍ 𝑖:𝑇𝑖=0 𝑌𝑖 メールを送った人の平均使用額メールを送らなかった人の平均使用額メールを送った人の平均使用額：237.86 メールを送らなかった人の平均使用額：54.28 「メールを送ること」の「使用額」への効果（？）は 237.86-54.28=183.58 ？

Slide 9

Slide 9 text

因果推論の難しさ AI・データ利活用研究会 9 • 広報メールは顧客の過去の購買履歴データを元に送付するかどうかが決められているユーザー No. メールの有無 𝑻 使用額 𝒀 昨年の使用額 𝑿𝟏 最後の購入からの経過月数 𝑿𝟐 1 1 0.0 82800 5 2 0 14900 3000 9 3 1 48200 34700 3 ⋮ ⋮ ⋮ ⋮ 𝑛 1 0.0 51500 1

Slide 10

Slide 10 text

因果推論の難しさ AI・データ利活用研究会 10 • メールの有無で層別した「昨年の使用額」と「最後の購入からの経過月数」のヒストグラムメールを送った顧客は優良顧客である可能性が高く，そもそもメールを送らなくても使用額は大きかったかもしれない

Slide 11

Slide 11 text

因果推論の難しさ AI・データ利活用研究会 11 メールなしグループメールありグループメールを受け取らなかった顧客が，メールを受け取らなかった場合の使用額の期待値メールを受け取った顧客が，メールを受け取った場合の使用額の期待値プリミティブな推定方法での推定対象

Slide 12

Slide 12 text

因果推論の難しさ AI・データ利活用研究会 12 メールなしグループメールありグループメールを受け取らなかった顧客が，メールを受け取らなかった場合の使用額の期待値メールを受け取った顧客が，メールを受け取らなかった場合の使用額の見込額メールを受け取った顧客が，メールを受け取った場合の使用額の期待値プリミティブな推定方法での推定対象本当に推定したい量

Slide 13

Slide 13 text

問題点の振り返り AI・データ利活用研究会 13 • 例ではそもそも『推定対象』が定義されていない定義されていないものを推定することはできない • 因果推論を統計的に扱うためには，『因果効果』の数学的定義が必要 • 因果効果を数学的に定義するための代表的なフレームワーク • Neyman-Rubinの潜在反応モデル • Pearlの構造的因果モデル 2つのフレームワークを例を通じて紹介 ※ 部分的に人によって定義や説明が異なることがあるので注意

Slide 14

Slide 14 text

講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル – 2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 14

Slide 15

Slide 15 text

Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 15 • 処置変数𝑇𝑖 ：0か1の2値をとる • 結果変数𝑌𝑖 • 𝑇𝑖 の値に応じて，𝑌 𝑖 (0)と𝑌 𝑖 (1)という2つの確率変数の存在を仮定例 • 広告メールの有無と使用額ユーザー No. メールの有無 𝑻 𝒀(𝟎) 𝒀(𝟏) 1 1 0 10000 2 0 15000 20000 ⋮ ⋮ ⋮ ⋮ 𝑛 1 5000 7500 𝑌 𝑖 (0)：ユーザー𝑖にメールを送らなかったときの使用額 𝑌 𝑖 (1)：ユーザー𝑖にメールを送ったときの使用額

Slide 16

Slide 16 text

ユーザー No. メールの有無 𝑻 𝒀(𝟎) 𝒀(𝟏) 𝒀 1 1 0 10000 10000 2 0 15000 20000 15000 ⋮ ⋮ ⋮ ⋮ ⋮ 𝑛 1 5000 7500 7500 Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 16 • 仮定 (一致性)：結果変数𝑌𝑖 は𝑇𝑖 = 0のとき𝑌 𝑖 (0)と等しく，𝑇𝑖 = 1のとき𝑌 𝑖 (1)と等しい ⇒ 𝑌𝑖 = 𝑇𝑖 𝑌 𝑖 (1) + (1 − 𝑇𝑖 )𝑌 𝑖 (0)と表せる例 • 広告メールの有無と使用額 𝑌 𝑖 (0)と𝑌 𝑖 (1)はどちらか一方しか観測できない因果推論の根本的な問題（Holland） Individual Treatment Effect: ITE 𝑌 𝑖 (1) − 𝑌 𝑖 0 , 𝑖 = 1, … , 𝑛 集団レベルの平均的な因果効果推定

Slide 17

Slide 17 text

Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 17 • 仮定 (一致性)：結果変数𝑌𝑖 は𝑇𝑖 = 0のとき𝑌 𝑖 (0)と等しく，𝑇𝑖 = 1のとき𝑌 𝑖 (1)と等しい ⇒ 𝑌𝑖 = 𝑇𝑖 𝑌 𝑖 (1) + (1 − 𝑇𝑖 )𝑌 𝑖 (0)と表せる • 当然成り立つように見えるが、あくまで『仮定』 • 例えば、ユニット𝑖の結果変数が他のユニットの影響を受けないことが暗に仮定されている ⇒ ワクチンの効果を調べるような問題では成り立たない可能性 Remark

Slide 18

Slide 18 text

Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 18 • 処置変数𝑇𝑖 ：0か1の2値をとる • 結果変数𝑌𝑖 • 𝑇𝑖 の値に応じて，𝑌 𝑖 (0)と𝑌 𝑖 (1)という2つの確率変数の存在を仮定例 • 広告メールの有無と使用額ユーザー No. メールの有無 𝑻 𝒀(𝟎) 𝒀(𝟏) 1 1 0 10000 2 0 15000 20000 ⋮ ⋮ ⋮ ⋮ 𝑛 1 5000 7500 𝑌 𝑖 (0)：ユーザー𝑖にメールを送らなかったときの使用額 𝑌 𝑖 (1)：ユーザー𝑖にメールを送ったときの使用額 𝑌1 (0), … , 𝑌𝑛 (0)はi.i.d.で分布ℙ0 に従い， 𝑌1 (1), … , 𝑌𝑛 (1)はi.i.d.で分布ℙ1 に従うと仮定

Slide 19

Slide 19 text

Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 19 𝑌1 (0), … , 𝑌𝑛 (0)はi.i.d.で分布ℙ0 に従い， 𝑌1 (1), … , 𝑌𝑛 (1)はi.i.d.で分布ℙ1 に従うと仮定例 • 広告メールの有無と使用額ユーザー No. メールの有無 𝑻 𝒀(𝟎) 𝒀(𝟏) 𝒀 1 1 0 10000 10000 2 0 15000 20000 15000 ⋮ ⋮ ⋮ ⋮ ⋮ 𝑛 1 5000 7500 7500 ℙ0 ℙ1 E[𝑌(0)] E[𝑌(1)]

Slide 20

Slide 20 text

Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 20 𝑌1 (0), … , 𝑌𝑛 (0)はi.i.d.で分布ℙ0 に従い， 𝑌1 (1), … , 𝑌𝑛 (1)はi.i.d.で分布ℙ1 に従うと仮定例 • 広告メールの有無と使用額ユーザー No. メールの有無 𝑻 𝒀(𝟎) 𝒀(𝟏) 𝒀 1 1 0 10000 10000 2 0 15000 20000 15000 ⋮ ⋮ ⋮ ⋮ ⋮ 𝑛 1 5000 7500 7500 ℙ0 ℙ1 E[𝑌(0)] E[𝑌(1)] 定義（平均処置効果(ATE)）： E 𝑌 1 − E[𝑌(0)] ※ これはあくまで因果効果の統計的な定義の1つ

Slide 21

Slide 21 text

Neyman-Rubinの潜在反応モデル AI・データ利活用研究会 21 Remark • 以下のように定義することも母集団サイズ：𝑁 標本サイズ：𝑛 それぞれに 𝑌 𝑖 (0)と𝑌 𝑖 (1) ATE：1 𝑁 σ𝑖=1 𝑁 𝑌 𝑖 (1) − 𝑌 𝑖 (0) • （非ベイズ的な設定では）𝑌 𝑖 (0), 𝑌 𝑖 (1)は定数 • 本講演では前ページの定義で話を進める ※ 詳細はG. W. インベンス, D. B., ルービン, (星野崇宏 (監修, 翻訳), 繁桝算男 (監修, 翻訳)), 「統計的因果推論(上・下)」, (朝倉書店)を参照

Slide 22

Slide 22 text

プリミティブな推定方法の問題点 AI・データ利活用研究会 22 • 大数の法則から 1 𝑖: 𝑇𝑖 = 1 ෍ 𝑖:𝑇𝑖=1 𝑌𝑖 − 1 𝑖: 𝑇𝑖 = 0 ෍ 𝑖:𝑇𝑖=0 𝑌𝑖 ↓ E 𝑌(1) 𝑇 = 1 ↓ E 𝑌(0) 𝑇 = 0 E 𝑌(1) 𝑇 = 1 − E 𝑌 0 𝑇 = 0 ≠ E[𝑌 1 ] − E[𝑌(0)] セレクションバイアス一般的に

Slide 23

Slide 23 text

ランダム化比較試験 AI・データ利活用研究会 23 • 𝑇𝑖 が𝑌 𝑖 (0), 𝑌 𝑖 (1)と独立の場合： E 𝑌(1) 𝑇 = 1 = E[𝑌 1 ] E 𝑌 0 𝑇 = 0 = E[𝑌(0)] プリミティブな推定方法で（𝑛が十分大きければ）ATEの推定が可能 • 𝑇𝑖 を他の変数とは無関係なランダムな確率変数とすれば，𝑌 𝑖 (0), 𝑌 𝑖 (1)とは独立になる – 例えば，コインを投げて表が出たら𝑇𝑖 = 0，裏が出たら𝑇𝑖 = 1とする • このような𝑇𝑖 の割り当ての方法をランダム化比較試験（RCT）という

Slide 24

Slide 24 text

ランダム化比較試験 AI・データ利活用研究会 24 • ランダム化比較試験は統計的因果推論において強力な方法 • 実際にはコスト的・倫理的な理由により実施できない場合も多い – 例1：広告メールをランダムに送るということは，広告メールを送っても購入額が増えそうにない顧客にもメールを送ることになり，コスト増につながる – 例2：有害な可能性の高い行動を被験者に強要することは，倫理的に許されない（例：喫煙の強要）ランダム化比較試験ができない場合にATEを推定するには？

Slide 25

Slide 25 text

共変量 • 多くの場合，処置変数𝑇と結果変数𝑌以外にも，これらと関係があると考えられる変数が存在する AI・データ利活用研究会 25 例 • 広告メールの有無と使用額ユーザー No. メールの有無 𝑻 昨年度の購入額 𝑿𝟏 直近購入日からの経過月数 𝑿𝟐 𝒀(𝟎) 𝒀(𝟏) 1 1 5000 3 0 10000 2 0 15000 10 15000 20000 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 𝑛 1 10000 1 5000 7500 • 本講演では，このような変数を共変量とよぶ – 全ての共変量をまとめて𝑿と書く

Slide 26

Slide 26 text

強い意味での無視可能性 • 処置変数𝑇が以下の条件を満たすとき，𝑇は強い意味で無視可能であるという（他にもUnconfoundedness仮定と言ったりする） AI・データ利活用研究会 26 𝑿が与えられた元で，𝑇と(𝑌 0 , 𝑌(1))が条件付き独立確率密度関数でいうと確率変数の独立性を表す記号 • 処置の割付けは観測される共変量𝑿のみに依存するという仮定 • 𝑝(𝑡|𝒙)を傾向スコアという

Slide 27

Slide 27 text

強い意味での無視可能性 • 強い意味での無視可能性条件が満たされていると以下が成り立つ． AI・データ利活用研究会 27 潜在反応を含まないので，原理的にはデータから推定可能 • 条件付き期待値がwell-definedであるためには以下が必要（Positivity条件） 0 < 𝑝 𝑇 = 1 𝒙 < 1, ∀𝒙 s. t. 𝑝 𝒙 > 0

Slide 28

Slide 28 text

その他の因果的な量 • ATEは処置変数𝑇が結果変数𝑌に与える平均的な効果の大きさ • 𝑇が𝑌に与える効果が共変量𝑿に依存する場合，以下のような量も興味の対象 AI・データ利活用研究会 28 定義（条件付き平均処置効果(CATE)）： CATE 𝒙 = E 𝑌 1 − 𝑌 0 |𝑿 = 𝒙 • 𝑇が強い意味で無視可能な割り当てならば，潜在反応を含まないので，原理的にはデータから推定可能 ※ E 𝑌 𝑖 (1) − 𝑌 𝑖 0 |𝑿 = 𝒙 をITEと呼ぶ人もいる（が、査読でツッコミが入ることが多い）

Slide 29

Slide 29 text

潜在反応モデルのまとめ • (𝑌 𝑖 0 , 𝑌 𝑖 1 , 𝑇, 𝑿)はi.i.d.で𝑝(𝑦 0 , 𝑦 1 , 𝑡, 𝒙)に従う • 𝑌𝑖 = 𝑇𝑖 𝑌 𝑖 (1) + (1 − 𝑇𝑖 )𝑌 𝑖 (0) • 強い意味での無視可能性： • Positivity：0 < 𝑝 𝑇 = 1 𝒙 < 1, ∀𝒙 s. t. 𝑝 𝒙 > 0 AI・データ利活用研究会 29 仮定 • ATE： • CATE：推定対象

Slide 30

Slide 30 text

講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル – 2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 30

Slide 31

Slide 31 text

Pearlの構造的因果モデル AI・データ利活用研究会 31 因果ダイアグラム構造方程式モデル 𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 はそれぞれ独立な平均0の確率変数（錯乱項） 𝑔𝑋1 , 𝑔𝑋2 , 𝑔𝑇 , 𝑔𝑌 は何らかの関数

Slide 32

Slide 32 text

Pearlの構造的因果モデル AI・データ利活用研究会 32 因果ダイアグラム構造方程式モデル非巡回有向グラフであることを仮定 𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 はそれぞれ独立な平均0の確率変数（錯乱項） 𝑔𝑋1 , 𝑔𝑋2 , 𝑔𝑇 , 𝑔𝑌 は何らかの関数左辺の確率変数は右辺の式に従って『生成される』と考える（等号の代わりに←を使うこともある）構造方程式モデルでは変数間の局所的な因果関係が仮定に入っている

Slide 33

Slide 33 text

Pearlの構造的因果モデル AI・データ利活用研究会 33 因果ダイアグラム構造方程式モデル因果ダイアグラムは非巡回有向グラフ（DAG）であることを仮定 𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 はそれぞれ独立な平均0の確率変数（錯乱項） 𝑔𝑋1 , 𝑔𝑋2 , 𝑔𝑇 , 𝑔𝑌 は何らかの関数左辺の変数の親ノードに相当する変数が右辺の関数の引数

Slide 34

Slide 34 text

Pearlの構造的因果モデル AI・データ利活用研究会 34 因果ダイアグラム構造方程式モデル非巡回有向グラフであることを仮定 𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 はそれぞれ独立な平均0の確率変数（錯乱項） 𝑔𝑋1 , 𝑔𝑋2 , 𝑔𝑇 , 𝑔𝑌 は何らかの関数因果ダイアグラムは同時分布の因子分解構造を与える： 𝑝 𝑢, 𝑥1 , 𝑥2 , 𝑡, 𝑦 = 𝑝 𝑢 𝑝 𝑥1 𝑢 𝑝 𝑥2 𝑢 𝑝 𝑡 𝑥1 , 𝑥2 𝑝(𝑦|𝑥1 , 𝑥2 , 𝑡) 各因子の分布は関数𝑔𝑋1 , 𝑔𝑋2 , 𝑔𝑇 , 𝑔𝑌 や錯乱項𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 の分布により決まる

Slide 35

Slide 35 text

Pearlの構造的因果モデル • 注意：構造方程式モデルにより確率分布が規定されるが，確率分布から構造方程式は一意に定まらない AI・データ利活用研究会 35 違うモデル確率分布： 𝑋 𝑌

Slide 36

Slide 36 text

Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる • 因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない（自律性） AI・データ利活用研究会 36

Slide 37

Slide 37 text

Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる • 因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない（自律性） AI・データ利活用研究会 37 介入後の分布： 𝑡の親ノード

Slide 38

Slide 38 text

Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる • 因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない（自律性） AI・データ利活用研究会 38 介入後の分布： do記法を含まない

Slide 39

Slide 39 text

Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる • 因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない（自律性） AI・データ利活用研究会 39 介入後の分布：傾向スコア

Slide 40

Slide 40 text

Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる • 因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない（自律性） AI・データ利活用研究会 40 介入後の分布：定義（平均因果効果(ACE)）：通常の確率分布の周辺化と同様，

Slide 41

Slide 41 text

Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる • 因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない（自律性） AI・データ利活用研究会 41 介入後の分布：定義（平均因果効果(ACE)）：通常の確率分布の周辺化と同様， do記法を含まない形で書ける

Slide 42

Slide 42 text

Pearlの構造的因果モデル • 系の外からの介入により𝑇 = 𝑡としたときに以下が起こることを仮定 – 構造方程式における𝑇の式が𝑇 = 𝑡となる • 因果ダイアグラムにおいて𝑇のノードに向かう矢線が消失 – 𝑇以外の式に変化は生じない（自律性） AI・データ利活用研究会 42 介入後の分布：定義（平均因果効果(ACE)）：通常の確率分布の周辺化と同様， Remark • 文献によって𝑝do 𝑇=𝑡 (𝑦)を因果効果や介入効果と言ったりする • Pearl自身がそのように書いている • 個人的には介入分布（interventional distribution）とかのほうが分かりやすいように思う

Slide 43

Slide 43 text

Pearlの構造的因果モデル • 𝑝do(𝑇=𝑡) (𝑦)を定義どおり計算するためには、すべての変数間の関係性を知っている必要がある AI・データ利活用研究会 43 変数集合𝒁が(𝑇, 𝑌)についてバックドア基準を満たすならば 𝑝do 𝑇=𝑡 𝑦 = ∫ 𝑝 𝒛 𝑝 𝑦 𝑡, 𝒛 𝑑𝒛 定理（[Pearl, 1995]） • 𝑇, 𝑌, 𝒁の間の関係性のみから計算（推定）可能 • バックドア基準を満たす変数の集合は複数存在 • 𝑇の親ノードの集合はバックドア基準を満たす • 本講演ではバックドア基準の詳細は割愛 • 直感的な考え方 ⇒ 林岳彦「はじめての統計的因果推論」(岩波書店) • 詳細な理論 ⇒ Pearlら(訳: 落海浩)「入門統計的因果推論」(朝倉書店)、宮川雅巳「統計的因果推論：回帰分析の新しい枠組み」(朝倉書店)、黒木学「構造的因果モデルの基礎」(共立出版)

Slide 44

Slide 44 text

構造的因果モデルのまとめ • 𝑌𝑖 , 𝑇𝑖 , 𝑿𝑖 は仮定した構造方程式モデルにより生成される • 自律性：介入により𝑇を固定したときに，系の𝑇以外の部分に変化は生じない • Positivity：0 < 𝑝 𝑡 𝒙 < 1, ∀𝑡, ∀𝒙, s. t. 𝑝 𝒙 > 0 AI・データ利活用研究会 44 仮定 • ACE： • 𝑇が連続型の場合：推定対象

Slide 45

Slide 45 text

講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル – 2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 45

Slide 46

Slide 46 text

構造的因果モデルにおける潜在反応 AI・データ利活用研究会 46 𝑌は𝜺 = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 )から確定的に決まる ⇒ 𝑌(𝜺)と書く 𝑌は𝜺′ = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑌 )と𝑡から確定的に決まる ⇒ 𝑌 𝑡 (𝜺′)と書く 𝑌(𝑡)の分布は𝜺′の分布から決まるもし𝑇 = 𝑡だったら・・・

Slide 47

Slide 47 text

構造的因果モデルにおける潜在反応 AI・データ利活用研究会 47 𝑌は𝜺 = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 )から確定的に決まる ⇒ 𝑌(𝜺)と書く 𝑌は𝜺′ = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑌 )と𝑡から確定的に決まる ⇒ 𝑌 𝑡 (𝜺′)と書く 𝑌(𝑡)の分布は𝜺′の分布から決まるもし𝑇 = 𝑡だったら・・・ • 𝑇 = 𝑡となるような𝜺に対して、定義から以下が成り立つ： 𝑌 𝜺 = 𝑌 𝑡 (𝜺′) ⇒ 構造的因果モデルにおける一致性

Slide 48

Slide 48 text

構造的因果モデルにおける潜在反応 AI・データ利活用研究会 48 𝑌は𝜺 = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑇 , 𝜀𝑌 )から確定的に決まる ⇒ 𝑌(𝜺)と書く 𝑌は𝜺′ = (𝜀𝑈 , 𝜀𝑋1 , 𝜀𝑋2 , 𝜀𝑌 )と𝑡から確定的に決まる ⇒ 𝑌 𝑡 (𝜺′)と書く 𝑌(𝑡)の分布は𝜺′の分布から決まるもし𝑇 = 𝑡だったら・・・ • 𝑇 = 𝑡となるような𝜺に対して、定義から以下が成り立つ： 𝑌 𝜺 = 𝑌 𝑡 (𝜺′) ⇒ 構造的因果モデルにおける一致性 • 潜在反応モデルにおける一致性は仮定 • 構造的因果モデルにおける一致性は構造方程式と自律性から導かれる定理

Slide 49

Slide 49 text

構造的因果モデルにおける潜在反応 AI・データ利活用研究会 49 変数集合𝒁が(𝑇, 𝑌)についてバックドア基準を満たすならば定理（[Pearl, 2000]） • 構造的因果モデルにおいては、強い無視可能性も、構造方程式と自律性から導かれる定理 • この定理を拠り所に、傾向スコアを用いた因果効果推定（後述）で、傾向スコアのモデルの変数選択にバックドア基準を用いるというアプローチが考えられる • Morgan, Winship(訳: 落海浩)「反事実と因果推論」(朝倉書店)では社会科学への応用について詳しく書かれている

Slide 50

Slide 50 text

講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル – 2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 50

Slide 51

Slide 51 text

メタな視点から見た統計的因果推論 AI・データ利活用研究会 51 母集団分布 𝑝(𝒗) 𝒗1 , 𝒗2 , … , 𝒗𝑛 i.i.d. 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) Ψ(𝑝) 分布の特徴量：推定

Slide 52

Slide 52 text

メタな視点から見た統計的因果推論 AI・データ利活用研究会 52 潜在反応モデルにおけるATE推定母集団分布 𝑝(𝒗) 𝒗1 , 𝒗2 , … , 𝒗𝑛 i.i.d. 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) Ψ(𝑝) 分布の特徴量：推定

Slide 53

Slide 53 text

メタな視点から見た統計的因果推論 AI・データ利活用研究会 53 構造的因果モデルにおけるACE推定母集団分布 𝑝(𝒗) 𝒗1 , 𝒗2 , … , 𝒗𝑛 i.i.d. 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) Ψ(𝑝) 分布の特徴量：推定

Slide 54

Slide 54 text

メタな視点から見た統計的因果推論 AI・データ利活用研究会 54 母集団分布 𝑝(𝒗) 𝒗1 , 𝒗2 , … , 𝒗𝑛 i.i.d. 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) Ψ(𝑝) 分布の特徴量：推定 • 一般的な統計的推測の話と同じ • Ψ(𝑝)が『因果的な量』と見なせるかどうかは仮定（と哲学）による

Slide 55

Slide 55 text

プラグイン型の推定 AI・データ利活用研究会 55 母集団分布 𝑝(𝒗; 𝜽) 𝒗1 , 𝒗2 , … , 𝒗𝑛 i.i.d. 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) Ψ(𝑝) 分布の特徴量：推定 • 分布𝑝(𝒗)をパラメトリックな分布𝑝(𝒗; 𝜽)によりモデル化 • 𝜽を何らかの方法（例：最尤推定）により推定し෡ 𝜽を得る • Ψ(𝑝(𝒗; ෡ 𝜽))により推定するすぐに考えられる推定方法分布のクラスが複雑な場合や，𝜽が高次元・無限次元のときなどに望ましい性質（例えば不偏性）を持たないことがある

Slide 56

Slide 56 text

ATEの推定量 AI・データ利活用研究会 56 • （強い意味での無視可能性が成り立つときの）ATE：回帰による推定量 • 条件付き期待値をE[𝑌|𝑿, 𝑇] = 𝜇(𝑿, 𝑇; 𝝃)によりモデル化例えば線形回帰ならば，𝜇 𝑿, 𝑇; 𝝃 = 𝜃𝑇 + 𝜷⊤𝑿 適当な条件のもとで最小二乗推定量がATEの不偏推定量

Slide 57

Slide 57 text

ATEの推定量 AI・データ利活用研究会 57 • 傾向スコア𝑝(𝑇 = 1|𝑿)が既知ならばはATEの不偏推定量 • 実際には𝑝(𝑇 = 1|𝑿)は未知なので，何らかのモデル（例えばロジスティック回帰モデル） 𝑝(𝑇 = 1|𝑿, 𝝎)を仮定して𝝎を推定 – 𝝎の推定量ෝ 𝝎が一致性を持てば，IPW推定量はATEの一致推定量 IPW推定量 [Horvits and Thompson, 1952]

Slide 58

Slide 58 text

ATEの推定量 AI・データ利活用研究会 58 • 回帰による推定量 ⇒ E[𝑌|𝑿, 𝑇]をモデリング・推定 • IPW推定量 ⇒ 𝑝 𝑇 = 1 𝑿 = E[𝑇|𝑿]をモデリング・推定 AIPW推定量（Doubly Robust 推定量）いずれも，条件付き期待値の一致推定量が必要 • E 𝑌 𝑿, 𝑇 , E[𝑇|𝑿]のいずれかの推定量が一致性を持っていればAIPW推定量はATEの一致推定量 • AIPW推定量は局所セミパラメトリック有効性を持つ [Robins+, 1994]

Slide 59

Slide 59 text

ATEの推定量 AI・データ利活用研究会 59 • 回帰による推定量 ⇒ E[𝑌|𝑿, 𝑇]をモデリング・推定 • IPW推定量 ⇒ 𝑝 𝑇 = 1 𝑿 = E[𝑇|𝑿]をモデリング・推定一方がどちらかより優れているという訳では無い • 傾向スコアを使った手法が好まれるのは、E[𝑌|𝑿, 𝑇]よりもE[𝑇|𝑿]の方が推定しやすいと考えられているから？（個人的な推測） • 例えばノンパラメトリック推定をするならば、関数が滑らかな方が推定しやすい Remark

Slide 60

Slide 60 text

ATEの推定量 AI・データ利活用研究会 60 Double/Debiased Machine Learning (DML) • 𝑌, 𝑿, 𝑇の間の関係を次のようにモデル化 𝑓, 𝑔は未知の非線形関数 • 詳細は後述するが，E[𝑌|𝑿]とE[𝑇|𝑿]を（機械学習アルゴリズムを用いて）推定し，𝜃を推定する • 𝜃を𝑿の関数𝜃(𝑿)としてCATEを推定する研究も存在（後述） [Chernozhukov+, 2018]

Slide 61

Slide 61 text

ACEの推定量 AI・データ利活用研究会 61 • 構造方程式が線形の場合： 𝑌を𝑇, 𝒁で線形回帰したときの𝑇の回帰係数がACEと等しい（左図では𝒁 = {𝑋1 , 𝑋2 }） 𝑋𝑖 の親ノードの変数の集合因果ダイアグラム上での𝑇から𝑌への有向パスの集合 [Pearl, 2000] バックドア基準の定理を適用

Slide 62

Slide 62 text

講演内容 • 統計的因果推論とは • 統計的因果推論の代表的なフレームワーク – 潜在反応モデル – 構造的因果モデル – 2つのフレームワークの関係性 • 代表的な因果効果推定手法 • 因果効果推定の決定理論的定式化とベイズ推定 AI・データ利活用研究会 62

Slide 63

Slide 63 text

推定量の分類 AI・データ利活用研究会 63 母集団分布 𝑝(𝒗; 𝜽) i.i.d. 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) Ψ(𝑝) 分布の特徴量：推定 • 𝑝(𝒗; 𝜽)のモデリング • 推定量の評価基準 – 一致性 – （漸近）不偏性 – 推定量の漸近正規性 – 推定量の分散 – ・・・分類の軸

Slide 64

Slide 64 text

統計的決定理論による定式化 AI・データ利活用研究会 64 母集団分布 𝑝(𝒗; 𝜽) i.i.d. Ψ(𝑝) 分布の特徴量：推定 ⇒ 決定関数 • 損失関数： ℓ(Ψ 𝑃 , 𝑑(𝒟𝑛)) • 危険関数： 𝑅 𝑑, 𝜽 = E𝒟𝑛[ℓ(Ψ 𝑃 , 𝑑(𝒟𝑛))] • ベイズ危険関数： 𝐵𝑅 𝑑 = E𝜽 [𝑅 𝑑, 𝜽 ] 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) ※ 統計的決定理論についてもう少し詳しく知りたい方は「データ科学入門シリーズ」（サイエンス社）を是非！より詳しく知りたい方はBerger, “Statistical Decision Theory and Bayesian Analysis” (Springer)がお勧め。

Slide 65

Slide 65 text

統計的決定理論による定式化 AI・データ利活用研究会 65 母集団分布 𝑝(𝒗; 𝜽) i.i.d. Ψ(𝑝) 分布の特徴量：推定の鍵 Ψ(𝑝)の事後分布 𝑝(Ψ(𝑝)|𝒟𝑛) 例：二乗誤差損失⇒事後平均がベイズ最適ベイズ的アプローチの利点： • 興味の対象外の母数（局外母数）を周辺化により消去可能 • 推定の不確実性の定量化 𝒗𝑖 = (𝑡𝑖 , 𝒙𝑖 , 𝑦𝑖 ) 推定 ⇒ 決定関数

Slide 66

Slide 66 text

統計的決定理論による定式化 AI・データ利活用研究会 66 • 推定の不確実性評価の重要性 – 因果推論に限った話ではないが… • どちらの施策を選びますか？

Slide 67

Slide 67 text

潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 67 • （強い意味での無視可能性が成り立つときの）ATE：線形回帰によるATEのベイズ推定 • 条件付き分布を𝑝(𝑦|𝒙, 𝑡)をモデル化線形回帰ならば，𝑦 = 𝜃𝑇 + 𝜷⊤𝑿 + 𝜀, 𝜀 ∼ 𝑁(0, 𝜎𝜀 2) 𝑇, 𝑿を説明変数とした重回帰モデルを考えたときの𝑇の回帰係数の事後分布が ATEの事後分布

Slide 68

Slide 68 text

潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 68 • （強い意味での無視可能性が成り立つときの）CATE：線形回帰によるCATEのベイズ推定単純な重回帰モデルでは、因果効果の異質性を表現できない（因果効果に異質性がないことを仮定している） • 条件付き分布を𝑝(𝑦|𝒙, 𝑡)をモデル化線形回帰ならば，𝑦 = 𝜃𝑇 + 𝜷⊤𝑿 + 𝜀, 𝜀 ∼ 𝑁(0, 𝜎𝜀 2)

Slide 69

Slide 69 text

潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 69 線形回帰によるCATEのベイズ推定方策1 • 𝑝(𝑦|𝒙, 𝑡 = 0)と𝑝(𝑦|𝒙, 𝑡 = 1)を別々にモデル化 𝑇 = 0のとき 𝑇 = 1のとき (𝜷1 − 𝜷0 )⊤𝒙の事後分布がCATEの事後分布 • T-Learnerと近い – E[𝑌|𝑿 = 𝒙, 𝑇 = 1]とE[𝑌|𝑿 = 𝒙, 𝑇 = 0]を学習

Slide 70

Slide 70 text

潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 70 ノンパラメトリックモデル（ガウス過程）に拡張推定対象の分布損失関数との間のKL距離（ノンパラメトリックベイズモデル） [Alaa and Schaar, 2018] がベイズ最適 𝑇 = 0のとき 𝑇 = 1のとき • ミニマックスレートに関する理論解析 – 最適なレートが𝑓0 , 𝑓1 のうち複雑な方の関数の複雑さに依存

Slide 71

Slide 71 text

潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 71 線形回帰によるCATEのベイズ推定方策2 • 𝑇と𝑿の交互作用項を入れる 𝜸⊤𝒙の事後分布がCATEの事後分布 • S-Learnerと近い – E[𝑌|𝑿 = 𝒙, 𝑇 = 𝑡]を学習

Slide 72

Slide 72 text

潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 72 非線形に拡張(1) 推定対象 CATE 損失関数 CATEとの間の二乗誤差損失（Bayesian Additive Regression Tree 事前分布）の平均がベイズ最適 • MCMCにより事後分布に従うサンプルを近似的に生成 [Hahn et al., 2020] (Bayesian Causal Forest: BCF)

Slide 73

Slide 73 text

潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 73 非線形に拡張(2) 推定対象 CATE 損失関数 CATEとの間の二乗誤差損失（ガウス過程事前分布） [Horii, 2022][Horii and Chikahara, 2024] の平均がベイズ最適 • 事後分布が解析的に計算可能 • 事後分布に関する理論解析を少し https://github.com/holyshun/GP-PLM

Slide 74

Slide 74 text

潜在反応モデルにおけるベイズ的アプローチ • 半人工データによる実験 – Linked Birth and Infant Death Data (LBIDD) – 人工的に生成された潜在反応を含んでいる（ITEが分かる） – ITEをCATEで推定したときの誤差を評価 AI・データ利活用研究会 74

Slide 75

Slide 75 text

潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 75 方策1と方策2の比較方策1 𝑇 = 0のとき 𝑇 = 1のとき方策2 • 方策1では連続な処置変数が扱えない • 方策1では「因果効果に影響のある変数が𝑿の一部である」というような事前情報を入れるのが難しい – 方策2では𝜃(𝑾)のようにすれば良い（𝑾は𝑿の一部） • 逆に、𝑇 = 0, 1のときの𝑌のモデルに事前情報があるなら方策1のほうが良い

Slide 76

Slide 76 text

潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 76 Double/Debiased Machine Learningとの関係性モデル何らかの方法（機械学習など）で推定

Slide 77

Slide 77 text

潜在反応モデルにおけるベイズ的アプローチ AI・データ利活用研究会 77 Double/Debiased Machine Learningとの関係性モデル従来研究の分類 • 𝜃(𝑿)が定数または（低次元）線形関数：[Chernozhukov, 2016] • 𝜃(𝑿)が再生核ヒルベルト空間：[Nie, 2017] • 𝜃(𝑿)が高次元スパース線形関数：[Chernozhukov, 2017] • [Horii, 2022][Horii and Chikahara, 2024]は[Nie, 2017]に対するベイズ版のようなものと考えられる

Slide 78

Slide 78 text

潜在反応モデルにおけるベイズ的アプローチにおける傾向スコア AI・データ利活用研究会 78 • ATE、CATE推定、いずれにしてもベイズ推定を行うときに傾向スコアは出てこない – (参考)：Bayesian Causal Inferenceでは傾向スコアは不要？（https://horiilab.com/2023/03/27/bayesian-causal- inference%E3%81%A7%E3%81%AF%E5%82%BE%E5%90%91%E3%82%B9%E3%82%B3%E 3%82%A2%E3%81%AF%E4%B8%8D%E8%A6%81/） • ATEやCATEは𝑝(𝑦|𝒙, 𝑡)の関数 • ATEやCATEの事後分布計算に𝑝(𝑡|𝒙)は現れない • BCFでは傾向スコアの推定値が特徴量として使われている – データの二度漬け • 𝑝(𝑦|𝒙, 𝑡)と𝑝(𝑡|𝒙)のパラメータの事前分布が独立でないときは、この限りではない

Slide 79

Slide 79 text

構造的因果モデルにおけるベイズ的アプローチ AI・データ利活用研究会 79 因果ダイアグラムを確率変数と考えるモデル化 [Horii and Suko 2019], [Horii 2021] 𝐺1 𝐺2 𝐺3 𝐺4 推定対象 ACE 損失関数 ACEとの間の二乗誤差損失がベイズ最適 ※因果ダイアグラムの探索 ⇒ 因果探索計算が大変．．．

Slide 80

Slide 80 text

構造的因果モデルにおけるベイズ的アプローチ AI・データ利活用研究会 80 観察データと実験データを結びつける [Horii and Chikahara, 2024] 観察データ：𝐷0 実験データ（do(𝐴 = 𝑎)）：𝐷𝑎 [V. Aglietti et al., 2020] • 従来研究：変数集合𝑿に介入したときの平均因果効果𝔼do(𝑿=𝒙) [𝑌]をガウス過程でモデル化してマルチタスク学習 • 提案手法：自律性を根拠に、観察データと実験データのもとでの事後分布を計算

Slide 81

Slide 81 text

まとめ • 統計的因果推論 ⇒ 統計的推測問題の一種 – 様々な仮定を置くことで，推定対象が因果的な量としてみなせる – 「何を推定対象と考えるか」と「推定対象をどのように推定するか」は別の話 • モデリング，評価基準により様々なアプローチが可能 – ベイズ統計的アプローチ ⇒ 推定対象の事後分布が鍵 – モデルと推定対象が決まれば、論理的にはベイズ推定は自動的に決まる • 何を推定対象とするかについてコンセンサスが取れてしまえば、因果推論を特別視する理由はない（なので、本講演のタイトルはタイトル詐欺かも） AI・データ利活用研究会 81

Slide 82

Slide 82 text

参考文献 • D. Horvitz and D. Thompson, “A generalization of sampling without replacement from a finite universe,” Journal of the American Statistical Association, 47(260):663-685, 1952. • J. Robins, A. Rotnitzky, and L. P. Zhao, “Estimation of regression coefficients when some regressors are not always observed,” Journal of the American Statistical Association, 89(427):846-866, 1994. • V. Chernozhukov, D. Chetverikov, M. Demirer, E. Duflo, C. Hansen, W. Newey, and J. Robins, “Double/debiased machine learning for treatment and structural parameters,” The Econometrics Journal, 21(1), 2018. • J. Pearl, “Causality: Models, Reasoning, and Inference,” Cambridge University press, 2000. • A. Alaa and M. Van der Schaar, “Bayesian nonparametric causal inference: Information rates and learning algorithms,” IEEE Journal of Selected Topics in Signal Processing, 12(5):1031-1046, 2018. • Hahn, P. Richard, Jared S. Murray, and Carlos M. Carvalho. "Bayesian regression tree models for causal inference: Regularization, confounding, and heterogeneous effects (with discussion)." Bayesian Analysis 15.3 (2020): 965-1056. • Nie, Xinkun, and Stefan Wager. "Quasi-oracle estimation of heterogeneous treatment effects." Biometrika 108.2 (2021): 299-319. • V. Aglietti, T. Damoulas, M. A. Alvarez, J. Gonzalez, “Multi-task causal learning with Gaussian processes,” In Proc. of the 34th International Conference on Neural Information Processing Systems (NeurIPS 2020). AI・データ利活用研究会 82

Slide 83

Slide 83 text

参考文献 • S. Horii, Heterogeneous treatment effect estimation based on a partially linear nonparametric bayes model, arXiv preprint arXiv:2201.12016 (2022). • S. Horii and T. Suko, “A Note on the estimation method of intervention effects based on statistical decision theory,” Proc. of 53rd Annual Conference on Information Sciences and Systems (CISS), 2019. • S. Horii, “Bayesian model averaging for causality estimation and its approximation based on gaussian scale mixture distributions,” Proc. of International Conference on Artificial Intelligence and Statistics (AISTATS), 955-963, PMLR, 2021. • S. Horii, Y. Chikahara, "Uncertainty Quantification in Heterogeneous Treatment Effect Estimation with Gaussian-Process-Based Partially Linear Model," 38th AAAI Conference on Artificial Intelligence (AAAI-24). AI・データ利活用研究会 83

Slide 84

Slide 84 text

参考文献 • G. Imbens, D. Rubin, “Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction,” Cambridge University Press, 2015. • J. Pearl, “Causality: Models, Reasoning, and Inference,” Cambridge University Press, 2000. • A. Tsiatis, “Semiparametric Theory and Missing Data,” Springer, 2006. • M. van der Laan, S. Rose, “Targeted Learning: Causal Inference for Observational and Experimental Data,” Springer, 2011. AI・データ利活用研究会 84

Slide 85

Slide 85 text

参考文献 • 安井翔太, 「効果検証入門」, 技術評論社, 2020. • 林岳彦, 「はじめての統計的因果推論」, (岩波書店), 2024. • Judea Pearl, Madelyn Glymour, Nicholas P. Jewell, (落海浩訳), 「入門統計的因果推論」, (朝倉書店), 2019. • 宮川雅巳, 「統計的因果推論：回帰分析の新しい枠組み」, （朝倉書店）, 2004. • 黒木学, 「構造的因果モデルの基礎」, (共立出版), 2017. • S. L. Morgan, C. Winship, (落海浩訳), 「反事実と因果推論」, (朝倉書店), 2024. • G. W. インベンス, D. B., ルービン, (星野崇宏 (監修, 翻訳), 繁桝算男 (監修, 翻訳)), 「統計的因果推論(上・下)」, (朝倉書店), 2023. AI・データ利活用研究会 85