Slide 1

Slide 1 text

統計的因果探索: セミパラメトリックアプローチを中心に 清水昌平 滋賀大学データサイエンス学系 理化学研究所革新知能統合研究センター 電子情報通信学会 パターン認識・メディア理解(PRMU)研究会

Slide 2

Slide 2 text

統計的因果探索とは • データを用いて因果グラフを推測するための方法論 2 Maeda and Shimizu (2020) 仮定 推測 • 関数形 • 分布 • 未観測共通原因の有無 • 非巡回 or 巡回 など データ 因果グラフ

Slide 3

Slide 3 text

因果探索の適用例: ターゲットの原因候補の探索 https://www.shimizulab.org/lingam/lingampapers/applications-and-tailor-made-methods • 生命科学 (Maathuis et al., 2010) • 医学 (Kotoku et al., 2020) • 化学 (Campomanes et al., 2014) • 材料 (Nelson et al., 2021) • 気候学 (Liu et al., 2020) • 経済学 (Moneta et al., 2013) • 心理学 (von Eye et al., 2012) • 政策 (高山ら, 2021) • ネットワークデータ (Jarry et al., 2021) 3 Kotoku et al. (2020) Moneta et al. (2013) OpInc.gr(t) Empl.gr(t) Sales.gr(t) R&D.gr(t) Empl.gr(t+1) Sales.gr(t+1) R&D(.grt+1) OpInc.gr(t+1) Empl.gr(t+2) Sales.gr(t+2) R&D.gr(t+2) OpInc.gr(t+2)

Slide 4

Slide 4 text

統計的因果推論の出発点 相関があるからと言って 因果関係があるとは限らない

Slide 5

Slide 5 text

相関があるからと言って 因果関係があるとは限らない 5 Messerli, (2012), New England Journal of Medicine ! " # $ 賞 受 賞 者 ( 数 相関係数: 0.79 P値 < 0.0001 チョコレート消費量

Slide 6

Slide 6 text

相関関係と因果関係のギャップ 6 チョコ 賞 ? チョコ 賞 or GDP GDP チョコ 賞 or GDP 相関係数 0.79 P値 < 0.0001 複数の因果関係が 同じ相関関係を与える 賞 未観測共通原因 未観測共通原因 未観測共通原因 ギャップ チョコ

Slide 7

Slide 7 text

ランダム化実験 最も解析がシンプルになる方法 • (患者)集団をランダムにふたつに分ける 7 薬 治癒の 割合 治癒の 割合 なし などなどたくさん 違いは、投薬の有無のみ ≠? Hernan (2004)の例を基に

Slide 8

Slide 8 text

ランダム化実験しないとき • 重症な患者に投薬する傾向 8 薬 治癒の 割合 治癒の 割合 なし などなどたくさん ≠? 重症多め 少なめ 投薬の有無以外にも重症度が違う: 交絡がある

Slide 9

Slide 9 text

重症度の高低で分ける(層別) • 重症の人のみ集める (軽症の人のみ集める) 9 薬 治癒の 割合 治癒の 割合 なし などなどたくさん ≠? みな重症 違いは、投薬の有無のみ

Slide 10

Slide 10 text

重症度は共通原因 • 重症かで投薬するかが決まり • 重症かで治癒するかも決まる • 相関関係と因果関係のギャップを生み出す • 共通原因で層別 (調整) – ランダム化実験をなんとか模擬したい 10 薬 治癒 重症度 共通原因

Slide 11

Slide 11 text

ワクチンの効果推定のために 共通原因で調整 (Dagan et al., 2020) • ワクチン接種とCovid-19の感染(or 重症化)の共通原因となりそうな変数で調整 – 年齢、性別、セクター(一般ユダヤ人、アラブ人、超正統派ユダヤ人) – 居住地域 – 過去5年間のインフルエンザワクチン接種歴 – 妊娠 – 重症化の危険因子として特定されている併存疾患の合計数 11 ワクチン接種 Covid-19 共通原因 年齢 性別 セクター 居住地域 インフル 接種歴 妊娠 併存疾患

Slide 12

Slide 12 text

どの変数で調整? • 構造的因果モデルで領域知識・仮定を表現 (Pearl, 2001) • 非巡回有向グラフであれば、 十分条件: 𝑥の親すべて, 𝑥の先祖すべて等 – バックドア基準など 12 構造方程式 因果グラフ 𝑦 = 𝑓! (𝑥, 𝑧, 𝑒! ) 𝑥 = 𝑓"(𝑧, 𝑒") x y z w u v q 薬 ! 治癒 " 重症度 # 共通原因 !! !"

Slide 13

Slide 13 text

因果グラフが不明なことが多い • 事前知識が足りない • 仮説が十分ない • データから因果グラフを推測: 因果探索 – 分析者の判断を補助 13 データ⾏列X 観測 変 数 推測 x4 x1 x5 x6 x3 x2 +仮定

Slide 14

Slide 14 text

因果推論と機械学習との関わり 14

Slide 15

Slide 15 text

効果の分解と公平性 • 直接効果: 性別は女から男に変えるが、 適性は変えないとき、 雇用される確率はどのくらい変わるか? – これが大きいと、性差別がある • z (雇用)を機械学習の予測に置き換え • 「公平」な機械学習モデルの構築 (Kusner et al., 2017) – 因果モデルに基づき公平性を定義 15 x (性別) y (適性) z (雇用) (Pearl, 2001) 公平にしたい変数Aの非子孫を説明変数にすればよい

Slide 16

Slide 16 text

原因の確率(Pearl, 1999; 黒木, 2014) と説明性 • 必要性の確率 – 現実には放射能を浴びて疾患を発症した対象者が 放射能を浴びなかったならば疾患を発症しなかったであろう確率 • 十分性の確率 – 現実には放射能を浴びず疾患を発症しなかった対象者が 放射能を浴びたならば疾患を発症したであろう確率 • 必要十分性の確率 – 「放射能を浴びなかったならば疾患を発症しなかったであろうし、 放射能を浴びたならば疾患を発症したであろう」確率 • 放射能が疾患の必要かつ十分な原因である程度 • 高いほど、実際の原因(actual cause)と考える • 放射能: ある説明変数, 疾患: 予測結果へ置き換え (Galhotra et al., 2021) 16 16 Galhotra et al. (2021)

Slide 17

Slide 17 text

機械学習のための因果推論でも要 (かなめ) • 公平性 (Kusner et al., 2017) • 説明性 – 原因の確率 (Galhotra et al., 2021) – 予測メカニズム解析 (Blobaum et al., 2017; Sani et al., 2020) • 個体レベルの最適介入 (Kiritoshi et al., 2021) • 転移学習 (Zhang et al., 2013; Zhang et al., 2020; Bareinboim et al., 2016) • 科学的知識の取り込み (Teshima et al., 2021) • 上記のさまざまな因果に関するクエリーに答えられるかを判 定するために因果グラフが必要 17

Slide 18

Slide 18 text

統計的因果探索の方法 18

Slide 19

Slide 19 text

フレームワーク • 構造的因果モデル (Pearl, 2001) • 因果モデルに仮定をおき、 その中でデータとつじつまの合うモデルを探す – 典型例1: • 非巡回有向グラフ • 未観測共通原因なし(すべて観測されている) – 典型例2: • 非巡回有向グラフ • 未観測共通原因あり 19 x3 x1 e3 e1 x2 e2 𝑥! = 𝑓! (𝑥! の親, 𝑒! ) 誤差変数

Slide 20

Slide 20 text

関数形や分布には仮定をおかないアプローチ 1. 因果グラフに仮定をおく – 非巡回有向グラフ – 未観測の!"#$なし(すべて観測されている) 2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ 20 x y x y x y 「データでxとyが独立」なら、一番右の(c)を選ぶ (a)と(b)の区別はつかない(一意に決まらない): 同値類 3つの候補 (a) (b) (c)

Slide 21

Slide 21 text

拡張など • 潜在(未観測)共通原因を含めた同値類 (Spirtes et al., 1995) • 時間情報の利用 (Malinsky & Spirtes, 2018) • 巡回グラフを含めた同値類 (Richardson, 1996) 21 x y f w z x y w z x y f1 w z f2 F. Eberhardt CRM Workshop 2016より (Malinsky and Spirtes, 2018)

Slide 22

Slide 22 text

関数形や分布にも仮定を入れてみる「と」 • 条件付き独立性以外にも利用可能な情報がある • 例えば、線形性+非ガウス連続分布 22 x y 観測変数x1,x2の 分布が違う (条件付き独立性に違いはない) x y

Slide 23

Slide 23 text

具体的には、非ガウス性と独立性をどう使うか? 23 x1 x2 e1 e2 正しいモデル 結果x2を原因x1に回帰 原因x1を結果x2に回帰 2 1 21 2 1 1 1 2 2 ) 1 ( 2 ) var( ) , cov( e x b x x x x x x r = - = - = は独立 と ) 1 ( 2 1 1 ) ( r e x = 残差 ( ) ) var( var ) var( ) , cov( 1 ) var( ) , cov( 2 1 21 1 2 2 1 21 2 2 2 1 1 ) 2 ( 1 x x b e x x x b x x x x x r - þ ý ü î í ì - = - = は と ) 2 ( 1 2 1 21 2 ) ( r e e b x + = 2 e 従属 ガウスだと 無相関=独立 𝑥! = 𝑒! 𝑥" = 𝑏"! 𝑥! + 𝑒" 𝑏!" ≠ 0

Slide 24

Slide 24 text

DirectLiNGAMアルゴリズム (Shimizu et al., 2011) • 潜在共通原因なし (すべて観測されている) • 回帰分析と独立性の評価を繰り返す • Guaranteed to converge in finite steps (変数の数) • p>nの場合への拡張 (Wang & Drton, 2020) • 並列化+GPUで高速化 (Shahbazinia et al., 2021) • 数百から数千変数くらい 24 関連論文: https://www.shimizulab.org/lingam

Slide 25

Slide 25 text

推測された因果グラフを評価 統計的信頼性評価 • 有向道や有向辺のブートストラップ確率 – 例えば、閾値0.05を越えるものを解釈 – LiNGAM Python package モデル仮定の評価 (崩れの検出) • 誤差(残差)の独立性評価 – 例えば、HSIC (Gretton et al., 2005) • マルコフ境界による予測の良さで評価 (Biza et al., 2020) • 複数のデータセットでの結果を比較 • 領域知識による評価 25 Wikipediaより x3 x1 … … 総合効果: 20.9 x3 x1 x2 x3 x1 46% 10%

Slide 26

Slide 26 text

他の識別可能なモデル • 非線形 + “加法” 誤差 (Hoyer et al., 2008; Zhang et al., 2009; Peters et al., 2014) • 𝑥# = 𝑓#(par(𝑥#)) + 𝑒# • 𝑥# = 𝑔# $"(𝑓#(par(𝑥#)) + 𝑒#) • 離散: ポワソンDAGモデルと拡張 (Park+18JMLR) • 離散と連続の混在: LiNGAM + ロジスティック型モデル (切片に条件必要) (Wei et al. 2018) • 時系列モデル (Hyvarinen et al, 2010) • 巡回モデル(Lacerda et al., 2008) は識別可能でない場合も 26

Slide 27

Slide 27 text

非線形回帰して説明変数と残差が独立か調べる 27 x1 x2 e1 e2 正しいモデル 結果𝑥# を原因𝑥$ に非線形回帰 原因𝑥$ を結果𝑥# に非線形回帰 説明変数𝑥! (= 𝑒! )と残差は独立 ガウスだと 無相関=独立 𝑥! = 𝑒! 𝑥" = 𝑓(𝑥! ) + 𝑒" 𝑏!" ≠ 0 説明変数𝑥" と残差は従属

Slide 28

Slide 28 text

潜在共通原因ありの場合 • 潜在共通原因のあるペアがどれか (Maeda & Shimizu, 2020) • 潜在共通原因のあるペアの間を推測 (Hoyer et al. 2008; Salehkaleybar et al., 2020) 28 𝑥# 𝑥$ 𝑓$ 𝑥% Original 出力 𝑥& 𝑥# 𝑥$ 𝑥% 𝑥& 𝑓# 𝑥# 𝑥$ 𝑓$ 𝑒$ 𝑒# 𝑏!" 𝜆!" 𝜆"" 𝑥# 𝑥$ 𝑓$ 𝑒$ 𝑒# 𝑏"! 𝜆!" 𝜆"" or

Slide 29

Slide 29 text

潜在因子間の因果探索 (Shimizu et al., 2007) • Causal representationと呼ばれることも (Adams et al., 2021) • 因果グラフは不変な特徴という主張 (Schölkopf et al., 2021) • 目的関数 = 尤度+スパース正則化項 s.t. DAG制約 29 𝒇 = 𝐵𝒇+𝝐 𝒙 = 𝐺𝒇+𝒆 DAGである ⟺ ℎ 𝐵 = tr 𝑒'∘' −変数の数=0 (Zheng et al., 2018)

Slide 30

Slide 30 text

他の話題: 変数をどうとるか • マクロ変数とミクロ変数 – 国レベルと個人レベル – 結果は一致するのか • 領域知識の利用 – (論文)テキストデータ等から抽出 • より一般に、データによる支援は可能? – 介入によるアルゴリズム (Chalupka et al. 2017) 30 Messerli, (2012) Chalupka et al. (2017)

Slide 31

Slide 31 text

まとめ 31

Slide 32

Slide 32 text

まとめ • 統計的因果推論: 因果クエリーに答えるための方法論 – 仮定+データ+因果クエリー -> 回答 (ができれば) • 因果クエリーを式で表す • 因果クエリーに回答可能か判定 (識別性) • 実際に推定 • 仮定の崩れの検出方法 • 識別性を重視 (推定の技術は機械学習と共通) 32 仮定 領域知識 識別性 推定 評価 データ 実験・調査の 計画に生かす 変数・データの追加/仮定の変更 分析者 文献