Slide 1

Slide 1 text

統計的因果探索: 背景知識とデータにより因果仮説を探索する 清水 昌平 滋賀大学 データサイエンス学系 理化学研究所 革新知能統合研究センター 清水, 統計的因果探索, 講談社, 2017 Shimizu, Statistical Causal Discovery: LiNGAM approach, Springer, 2022

Slide 2

Slide 2 text

◼因果関係についてデータから推測する方法論 ◼「何かを変化させて、何か他のものが変化したら」 前者が原因で、後者が結果 ◼中心的な話題 • ランダム化実験ができなくても、因果を調べられるか? 2 統計的因果推論とは

Slide 3

Slide 3 text

ここでの因果とは?: 反事実 (反実仮想) ◼もし○○だとしたらどうなる? • もし薬を飲ませた場合と飲ませない場合を比較 • 治癒の割合に差があれば、薬から治癒に因果あり 3 薬 治癒の割合 治癒の割合 なし 分析対象の 集団 観測できるのはどちらか一方、しかし工夫することで推定可能 ≠?

Slide 4

Slide 4 text

ランダム化実験 ◼分析対象の集団をランダムにふたつに分ける 4 薬 治癒の割合 治癒の割合 なし などなど たくさん 違いは、薬の有無のみ ≠?

Slide 5

Slide 5 text

ランダム化実験しない時に起きる問題 ◼「重症度に着目して薬を出すか決めている」とする 5 薬 治癒の割合 治癒の割合 なし などなど たくさん ≠? 重症多め 少なめ 薬の有無以外にも重症度が違う: 交絡がある・重症度は交絡変数

Slide 6

Slide 6 text

ランダム化実験しない時の対処法 ◼重症度(交絡変数)の高低で分ける(層別/調整) 6 薬 治癒の割合 治癒の割合 なし などなど たくさん ≠? みな重症 違いは、薬の有無のみ

Slide 7

Slide 7 text

◼背景知識を基に交絡変数間の関係を図示: 因果グラフ ◼グラフ構造を基にどの変数で調整すべきかを判定 • バックドア基準 (Pearl, 1993) など • 十分条件の例: xの親をすべて観測して調整 • できない場合もある 7 交絡変数の見つけ方 x:薬 y:治癒 z: 重症度 交絡変数 (共通原因)

Slide 8

Slide 8 text

因果グラフを描く「支援」 統計的因果探索 ◼データを用いて因果グラフを推測するための方法論 ◼背景知識以外の手段 (定説がない場合) 8 Maeda and Shimizu (2020) 仮定(+背景知識) 推測 • 未観測交絡変数の有無 • 非巡回 or 巡回 • 関数形 • 分布など データ 因果グラフ 探索スペースを決める データと照らし合わせる 残った候補

Slide 9

Slide 9 text

◼構造的因果モデル (Pearl, 2001) ◼このモデルで仮定を表現し、 その中でデータとつじつまの合うモデルを探す 9 因果探索のフレームワーク (Spirtes+2001) x3 x1 e3 e1 x2 e2 𝑥𝑖 = 𝑓𝑖 (𝑥𝑖 の親, 𝑒𝑖 ) 誤差変数 因果グラフ

Slide 10

Slide 10 text

因果探索の基本アイデア 1. 因果モデルに仮定をおく • 非巡回有向グラフ • 未観測の交絡変数(共通原因)なし 2. 仮定を満たすグラフの中で、データとつじつまの合うグラフ を残す 10 「データでxとyが独立」なら、(c)を残す 「データでxとyが従属」なら、 (a)と(b)を残す 3つの候補 (a) (b) (c) x y x y x y (a)と(b)の区別はつかない(どんなにサンプルサイズを増やしても): 同値類

Slide 11

Slide 11 text

◼識別性: どんな仮定の下で どこまで因果グラフを復元できるか ◼例えば、さらに「未観測交絡変数の存在」を許すと 11 因果探索の中心的話題: 識別性 「データでxとyが独立」なら、(c)を残す 「データでxとyが従属」なら、 (c)以外を残す: 同値類 “6”つの候補 (a) (b) (c) x y x y x y (d) (e) (f) x y x y x y U U U

Slide 12

Slide 12 text

関数形や分布に仮定を入れる ◼非巡回有向グラフ・未観測交絡変数なし ◼線形性+非ガウス連続分布: LiNGAM (Shimizu+2006) ◼一意に因果グラフを推定可能 ◼𝑥𝑖 の親と誤差𝑒𝑖 の独立性も利用 12 𝑥𝑖 = σ 𝑥𝑖 の親 𝑏𝑖𝑗 𝑥𝑗 +𝑒𝑖 3つの候補から一つに絞れる (a) (b) (c) x y x y x y

Slide 13

Slide 13 text

◼行列形式で書き直すとICA ◼独立成分分析をかけて 混合行列のどこがゼロ非ゼロかチェック 13 独立成分分析(ICA)との関係 𝑥1 𝑥2 𝑒1 𝑒2 𝑥1 = 𝑒1 𝑥2 = 𝑏21 𝑥1 + 𝑒2 𝑥1 𝑥2 = 1 0 𝑏21 1 𝑒1 𝑒2 𝑥1 𝑥2 𝑒1 𝑒2 𝑥1 = 𝑏12 𝑥2 + 𝑒1 𝑥2 = 𝑒2 𝑥1 𝑥2 = 1 𝑏12 0 1 𝑒1 𝑒2

Slide 14

Slide 14 text

◼条件付き独立性の判定を検定で ◼情報量基準で探索 • ただし、一つ選ぶというより同値類を列挙 ◼連続最適化 • DAG制約項 (Zheng+2020) • 未観測交絡変数を許す“DAG制約項” (Bhattacharya+2021) 14 推定法

Slide 15

Slide 15 text

◼時間情報は背景知識として利用 (e.g., Hyvarinen+2010, Maeda+2024) ◼ここまでの因果探索は同時点(瞬時)のモデルとして利用 • 巡回モデル (Richardson1996, Lacerda+2008) 15 時間情報も使う 𝑥2 (𝑡 − 1) 𝑥1 (𝑡 − 1) 𝑥𝑖 (𝑡) = ෍ 𝑗,𝜏: 𝑥𝑖 の親 𝑓 𝑖𝑗 𝜏 (𝑥𝑗 𝑡 − 𝜏 ) + ෍ 𝑘, 𝜔: 𝑥𝑖 の親 𝑔 𝑖𝑘 𝜔 (𝑢𝑘 (𝑡 − 𝜔)) + 𝑒𝑖 (𝑡) 向き・交絡の「存在」 が識別可能 𝑥2 (𝑡) 𝑥1 (𝑡)

Slide 16

Slide 16 text

◼LiNGAM Python package (Ikeuchi+2023) • Github: https://github.com/cdt15/lingam ◼Causal-learn (Zheng+2024) • Github: https://github.com/py-why/causal-learn ◼Tigramite • Github: https://github.com/jakobrunge/tigramite ◼Causalas • プログラム書かずに クリックで 16 ソフトウェア

Slide 17

Slide 17 text

◼「保健指導による介入」が「翌年度以降の健診結果」 に与える影響 (Okuda+in prep.) ◼全国規模の保険者データベース ◼先行研究: 回帰不連続デザイン (Fukuma+2020) 17 適用例: 予防医学 健康アウトカム 翌年度 翌々年度 翌々年度 BMI -0.206 [-0.215, -0.196] -0.163 [-0.175, -0.153] -0.144 [-0.157, -0.130] 収縮期血圧 -0.293 [-0.399, -0.180] -0.040 [-0.168, 0.071] -0.030 [-0.149, 0.082] ヘモグロビンA1c -0.035 [-0.039, -0.032] -0.031 [-0.035, -0.027] -0.031 [-0.035, -0.026] LDLコレステロール 0.582 [0.423, 0.751] 0.636 [0.456, 0.804] 0.459 [0.238, 0.661] 背景知識+データ

Slide 18

Slide 18 text

◼各政策要因による博士課程進学者数への 因果メカニズムの定量的理解へ (高山+2024: 研究イノベーション学会) ◼公開データを基に大学別のデータセットを構築 • 国立86大学 x 11か年度 18 適用例: 政策研究 変数名 内容 M_graduate 修士課程等修了者数 D_entrance 博士課程進学者数 Ph.D_grauduate 博士課程修了者数 PosDoc 博士課程修了直後のポスドク就職者数 AcaPos 博士課程修了直後の大学教員就職者数 Basic_income 運営費交付金収益額 Students_per_teacher 教員一人当たり学生数 DC1 DC1採択者数 【重点支援3の16大学】

Slide 19

Slide 19 text

大規模言語モデル (LLM) ◼Causal parrots (Zečević+2023) : オウム返し ◼LLMによる背景知識抽出 統計的因果探索 (Takayama+2024) ◼Causal-Copilot (https://github.com/Lancelot39/Causal-Copilot) • アルゴリズムの選択を支援 19 リークのない (LLMが知らない) 健康診断データで評価

Slide 20

Slide 20 text

◼因果探索は背景知識とデータから因果グラフを推測 • 因果グラフは因果モデルの核 • 因果の大きさなど因果的量の計算に必要 ◼参考: 変数の定義を支援 • Abstraction (e.g., Chalupka+2017; Xia+2024) • Causal representation learning (e.g., Schölkopf+2021; Morioka+23) 20 まとめ Chalupka+2017 Schölkopf+2021 背景知識 + データ Maeda and Shimizu (2020)