Slide 1

Slide 1 text

セミパラメトリックアプローチ による因果探索 清水昌平 滋賀大学データサイエンス学系 理化学研究所革新知能統合研究センター

Slide 2

Slide 2 text

統計的因果探索とは • データを用いて因果グラフを推測するための方法論 2 Maeda and Shimizu (2020) 仮定 推測 • 関数形 • 分布 • 未観測共通原因の有無 • 非巡回 or 巡回 など データ 因果グラフ

Slide 3

Slide 3 text

The Seven Tools of Causal Inference, with Reflections on Machine Learning (Pearl, 2019) 1. Encoding causal assumptions: Transparency and testability 2. Do-calculus and the control of confounding 3. The algorithmitization of counterfactuals 4. Mediation analysis and the assessment of direct and indirect effects 5. Adaptability, external validity, and sample selection bias 6. Recovering from missing data 7. Causal discovery 3 ノンパラ因果探索 セミパラ因果探索

Slide 4

Slide 4 text

統計的因果推論では因果グラフが要(かなめ) • データから介入効果を推定 – チョコ消費量を変えると ノーベル賞受賞者の数は どのくらい増えるのか(減るのか) • 介入効果を推定するために調整 – 調整すべき変数の選択に 因果グラフが必要 (e.g., バックドア基準) 4 Messerli, (2012), New England Journal of Medicine チョコ 賞 GDP ! " # $ 賞 受 賞 者 ( 数 チョコレート消費量

Slide 5

Slide 5 text

因果グラフをどう描くか • 現状: 分析者が領域知識を基に描く • これから: 領域知識とデータを両方使って因果グラフを描く • 因果探索: データから描く 5 チョコ 賞 GDP チョコ 賞 ? チョコ 賞 or GDP GDP チョコ 賞 or GDP

Slide 6

Slide 6 text

因果探索の適用例 https://www.shimizulab.org/lingam/lingampapers/applications-and-tailor-made-methods 6 疫学 経済学 Sleep problems Depression mood Sleep problems Depression mood ? or OpInc.gr(t) Empl.gr(t) Sales.gr(t) R&D.gr(t) Empl.gr(t+1) Sales.gr(t+1) R&D(.grt+1) OpInc.gr(t+1) Empl.gr(t+2) Sales.gr(t+2) R&D.gr(t+2) OpInc.gr(t+2) (Moneta et al., 2013) (Rosenstrom et al., 2012) 神経科学 化学 (Campomanes et al., 2014) (Boukrina & Graves, 2013)

Slide 7

Slide 7 text

因果探索は因果推論におけるチャレンジ • 古典的な方法は条件付き独立性を利用 (Pearl 2001; Spirtes 1993) – 関数形に仮定をおかない – 同値類を見つけることが限界 • 限界を超えるには、追加の仮定が必要 – 関数形や分布に仮定 – 一意に識別可能 or より小さい同値類 • LiNGAMは一例 (Shimizu et al., 2006; Shimizu, 2014) – 独立性を利用するための非ガウス連続分布の仮定 – 同値類を超えて一意に識別可能 7

Slide 8

Slide 8 text

統計的因果探索の方法 8

Slide 9

Slide 9 text

フレームワーク • 構造的因果モデル (Pearl, 2001) • 因果モデルに仮定をおき、 その中でデータとつじつまの合うモデルを探す – 典型例1: • 非巡回有向グラフ • 潜在共通原因なし(すべて観測されている) – 典型例2: • 非巡回有向グラフ • 潜在共通原因あり 9 x3 x1 e3 e1 x2 e2 𝑥! = 𝑓! (𝑥! の親, 𝑒! ) 誤差変数

Slide 10

Slide 10 text

因果探索の方法その1: ノンパラメトリックアプローチ 関数形や分布に仮定をおかずに どこまでいけるか? 10 Spirtes, Glymour, Shceines, 2001 (2nd ed)

Slide 11

Slide 11 text

関数形や分布には仮定をおかないアプローチ 1. 因果グラフに仮定をおく – 非巡回有向グラフ – 未観測の!"#$なし(すべて観測されている) 2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ 11 x y x y x y 「データでxとyが独立」なら、一番右の(c)を選ぶ (a)と(b)の区別はつかない(一意に決まらない): 同値類 3つの候補 (a) (b) (c)

Slide 12

Slide 12 text

ノンパラアプローチの推定原理 • 因果的マルコフ条件 (Pearl & Verma, 1991) – 各変数 𝑥! は、親で条件づけると非子孫と独立 • 忠実性 – 変数間の独立性・条件付き独立性の有無は、 グラフ構造のみによって決まる(ことにするための仮定) 12 x3 x1 e3 e1 x2 e2 「𝑥" と𝑥# が独立 | 𝑥! 」 のみ

Slide 13

Slide 13 text

2種類の探索アプローチ • 制約ベースの探索 – 制約: 観測変数の条件付き独立性 • 仮説検定で有無 – 制約を満たす因果グラフを探索 • PCアルゴリズム (Spirtes & Glymour, 1991) • SATソルバー (Triantafillou et al., 2010) • スコアベースの探索 – 制約を全体的に最も満たす 因果グラフを探索 • 情報量基準(BICなど)で評価 – 貪欲法 (Chickering, 2002) – 非巡回制約と連続最適化 (Zheng et al., 2018) 13 • 目的:正しい因果グラフを含む同値類を見つける • ノンパラではあるが、検定や情報量規準を使うために線形ガウスを仮定することが多い

Slide 14

Slide 14 text

拡張など • 潜在(未観測)共通原因を含めた同値類 (Spirtes et al., 1995) • 時間情報の利用 (Malinsky & Spirtes, 2018) • 巡回グラフを含めた同値類 (Richardson, 1996) • 介入効果の「下限」 (Maathuis et al., 2009; Malinsky & Spirtes, 2017) 14 x y f w z x y w z x y f1 w z f2 F. Eberhardt CRM Workshop 2016より

Slide 15

Slide 15 text

因果探索の方法その2: セミパラメトリックアプローチ 一意に識別できる条件は? 15

Slide 16

Slide 16 text

関数形や分布にも仮定を入れてみる「と」 • 条件付き独立性以外にも利用可能な情報がある • 例えば、線形性+非ガウス連続分布 16 x1 x2 x1 x2 観測変数x1,x2の 分布が違う (条件付き独立性に違いはない)

Slide 17

Slide 17 text

LiNGAMモデル (Shimizu, Hyvarinen, Hoyer & Kerminen, 2006) • Linear Non-Gaussian Acyclic Model (線形非ガウス非巡回モデル): ここで – 𝑘 𝑖 : 𝑥" の因果的(半)順序 (topological order) – 誤差変数 𝑒" は • 非ガウス連続 • 互いに独立 • データ𝑋から係数𝑏!$ と順序𝑘 𝑖 が識別可能(一意に推定可能) 17 or 𝑥! 𝑥# 𝑥$ 因果グラフ 𝑥! = ' % $ &%(!) 𝑏!$ 𝑥$ + 𝑒$ 𝒙 = 𝐵𝒙 + 𝒆 𝑒$ 𝑒! 𝑒# 𝑏#! 𝑏#$ 𝑏!$

Slide 18

Slide 18 text

具体的には、非ガウス性と独立性をどう使うか? 18 x1 x2 e1 e2 正しいモデル 結果x2を原因x1に回帰 原因x1を結果x2に回帰 2 1 21 2 1 1 1 2 2 ) 1 ( 2 ) var( ) , cov( e x b x x x x x x r = - = - = は独立 と ) 1 ( 2 1 1 ) ( r e x = 残差 ( ) ) var( var ) var( ) , cov( 1 ) var( ) , cov( 2 1 21 1 2 2 1 21 2 2 2 1 1 ) 2 ( 1 x x b e x x x b x x x x x r - þ ý ü î í ì - = - = は と ) 2 ( 1 2 1 21 2 ) ( r e e b x + = 2 e 従属 ガウスだと 無相関=独立 𝑥) = 𝑒) 𝑥" = 𝑏") 𝑥) + 𝑒" 𝑏!" ≠ 0

Slide 19

Slide 19 text

LiNGAMモデルの推定 19

Slide 20

Slide 20 text

DirectLiNGAMアルゴリズム (Shimizu et al., 2011) • 因果的順序𝑘(𝑖)の上から下へ順に推定 – 1番上を見つけて、残差を計算 – 残差もLiNGAMモデル: 因果関係は変わらない • p>nの場合への拡張 (Wang & Drton, 2020) • 並列化+GPUで高速化 (Shahbazinia et al., 2021) 20 ú ú ú û ù ê ê ê ë é + ú ú ú û ù ê ê ê ë é ú ú ú û ù ê ê ê ë é - = ú ú ú û ù ê ê ê ë é 2 1 3 2 1 3 2 1 3 0 3 . 1 0 0 0 5 . 1 0 0 0 e e e x x x x x x 0 0 0 0 0 0 0 0 ú û ù ê ë é + ú û ù ê ë é ú û ù ê ë é - = ú û ù ê ë é 2 1 ) 3 ( 2 ) 3 ( 1 ) 3 ( 2 ) 3 ( 1 0 3 . 1 0 0 e e r r r r 0 0 ) 3 ( 2 r ) 3 ( 1 r x3 x1 x2 0

Slide 21

Slide 21 text

• 𝑥" は最初(𝑘 𝑥" = 1): どの変数の子にもならない • どの回帰残差とも独立な変数が最初の変数 因果的順序が最初の変数の同定 21 定理1: 「 は その残差 のどれとも独立 (𝑖は𝑗以外全部)」⟺ 「𝑥$ は最初」 ( ) j j j i i j i x x x x x r ) var( ) cov( , - = j x x3 x1 x2 x3 x1 x2

Slide 22

Slide 22 text

相互情報量の差=非ガウス性の差 (Hyvarinen & Smith, 2013) • どちらの向きの方が、説明変数と残差が独立か • 相互情報量の代わりに,1次元のエントロピーを計算 • 𝐻を最大エントロピー近似 (Hyvarinen, 1999) 22 ÷ ÷ ø ö ç ç è æ ÷ ÷ ø ö ç ç è æ + - ÷ ÷ ø ö ç ç è æ + = - ) ( ) ( ) ( ) ( ) , ( ) , ( ) 2 ( 1 ) 2 ( 1 2 ) 1 ( 2 ) 1 ( 2 1 ) 2 ( 1 2 ) 1 ( 2 1 r sd r H x H r sd r H x H r x I r x I 𝐻(𝑢) ≈ 𝐻 𝑣 − 𝑘# [𝐸 log cosh 𝑢 − 𝛾]$−𝑘$ [𝐸 𝑢 exp (−𝑢$/2 ]$

Slide 23

Slide 23 text

推測された因果グラフを評価する 23

Slide 24

Slide 24 text

モデル仮定の評価 • 分析前 – Gaussianity test – ヒストグラム • 連続変数? – 多重共線性 – 領域知識 • 分析後 – 誤差(残差)の独立性評価 • 例えば、HSIC (Gretton et al., 2005) – マルコフバウンダリーによる予測の良さで評価 (Biza et al., 2020) – 複数のデータセットでの結果を比較 – 領域知識による評価 24 Wikipediaより

Slide 25

Slide 25 text

統計的信頼性評価 • 有向道や有向辺のブートストラップ確率 • 例えば、閾値0.05を越えるものを解釈 25 x3 x1 … … x3 x1 x0 x3 x1 x2 x3 x1 99% 96% 総合効果: 20.9 10% LiNGAM Python package: https://github.com/cdt15/lingam

Slide 26

Slide 26 text

モデルの仮定を緩める 26

Slide 27

Slide 27 text

他の識別可能なモデル • 非線形 + “加法” 誤差 (Hoyer+08NIPS, Zhang+09UAI, Peters+14JMLR) • 𝑥# = 𝑓#(par(𝑥#)) + 𝑒# • 𝑥# = 𝑔# $"(𝑓#(par(𝑥#)) + 𝑒#) • 離散: ポワソンDAGモデルと拡張 (Park+18JMLR) • 離散と連続の混在: LiNGAM + ロジスティック“回帰”型モデル – 2変数の識別性の議論 (Wenjuan+18IJCAI) – 数値実験では多変数でも 27 𝑥# = 7 1 ∑%&'()!) 𝑏#+𝑥+ + 𝑒# > 𝑐 0 otherwise , 𝑒#~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(0,1)

Slide 28

Slide 28 text

未観測共通原因 28

Slide 29

Slide 29 text

未観測共通原因の存在を許すLiNGAM (Maeda & Shimizu, AISTATS2020) • 未観測共通原因のありそうな変数ペア • 未観測共通原因がない変数ペアの因果の向き 29 𝑥# 𝑥! 𝑓! 𝑥$ 真 出力 𝑥% 𝑥# 𝑥! 𝑥$ 𝑥% 𝑓#

Slide 30

Slide 30 text

非ガウス性と独立性を利用 • 未観測共通原因があると、説明変数と残差は従属 (Tashiro et al., 2014, NECO) – 共通原因をすべて含めていれば、独立になる • 鍵となる結果 (Maeda & Shimizu, AISTATS2020) – サブセットも含めてその変数セットを説明変数にすると 残差と独立になるような変数セットを探す – そのような変数セットがあれば、そのセットの変数は祖先であり 未観測共通原因もない • 非線形加法の場合は、未観測「中間変数」があっても従属 (Maeda & Shimizu, UAI2021) 30 𝑥# 𝑥! 𝑓! !! !" "" !# !$ "! !! 𝑥# 𝑥! 𝑓$

Slide 31

Slide 31 text

未観測共通原因のある場合 (Hoyer, Shimizu, Kerminen & Palviainen, 2008; Salehkaleybar et al., 2020) • 未観測共通原因ありのLiNGAMもICA (独立成分分析) • ICAをかけて 31 𝒙 = 𝐵𝒙 + 𝛬𝒇 + 𝒆 𝒙 = (𝐼 − 𝐵)%# (𝐼 − 𝐵)%#𝛬 𝒆 𝒇 ICA 𝑥" 𝑥! = 1 0 𝜆"" 𝑏!" 1 𝜆!" 𝑒" 𝑒! 𝑓" 𝑥# 𝑥! 𝑓! 𝑒! 𝑒# 𝑏"# 𝜆"# 𝜆## 𝑥" 𝑥! = 1 𝑏"! 𝜆"" 0 1 𝜆!" 𝑒" 𝑒! 𝑓" 𝑥# 𝑥! 𝑓! 𝑒! 𝑒# 𝑏#" 𝜆"# 𝜆## 𝑥" 𝑥! = 1 0 𝜆"" 0 1 𝜆!" 𝑒" 𝑒! 𝑓" 𝑥# 𝑥! 𝑓! 𝑒! 𝑒# 𝜆"# 𝜆## 独立成分

Slide 32

Slide 32 text

潜在因子のLiNGAM 32

Slide 33

Slide 33 text

潜在因子のLiNGAM (Shimizu et al., 2009) • モデル: – 測定モデルの識別のために各潜在因子に 2つは“ピュア”な観測変数が必要 (Silva et al., 2006; Xie et al., 2020) – このような潜在因子モデルをCausal representationと呼ぶ人もいる • “因子得点”を推定して因果グラフを推測 33 𝒇 = 𝐵𝒇+𝝐 𝒙 = 𝐺𝒇+𝒆 𝑥# 𝑥" $ 𝑓# $ 𝑓" 𝑥$ 𝑥% ? 𝑥# 𝑥" $ 𝑓# $ 𝑓" 𝑥$ 𝑥% 𝑦 ' 𝒇 = 𝒈(𝒙) それっぽい??

Slide 34

Slide 34 text

複数データセットに共通な因子を見つける (Zeng et al., IJCAI2021) • モデル • 目的関数 = 尤度+スパース正則化項 s.t. 非巡回制約 • 複数データセットからの特徴抽出と 潜在因子の因果グラフ推測 34 𝒇(') = 𝐵(') 𝒇(')+ 𝝐(') 𝒙(') = 𝐺(') 𝒇(')+ 𝒆(') 𝑚 = 1, … , 𝑀 ! " ! (#) ! ! (!) ! $ (!) ! % (!) ! & (!) ? ! ! ($) ! $ ($) ! " ! (!) ! % (%) ! & (&) ? ! " # (!) ! " # (#) ! " # (#) = ! " ! (!)? 非巡回制約 (Zheng et al., NeurIPS2018): ℎ 𝐵 = tr 𝑒,∘, − 因子数 を用いて連続最適化で解く

Slide 35

Slide 35 text

時系列モデルと巡回モデル 35

Slide 36

Slide 36 text

時系列 • サブサンプリング: 「低解像度」データ – SVAR: 構造型自己回帰モデル (Swanson & Granger, 1997) – 非ガウス独立なら識別可能 (Hyvarinen et al., 2010) – サブサンプリングの「間」の復元 (Gong et al., 2015) • 未観測共通原因ありのSVAR – Malinsky and Spirtes (2018) – ノンパラ 36 ) ( ) ( ) ( 0 t t t k e x B x + - = å = t t t x1(t) x1(t-1) x2(t-1) x2(t) e1(t-1) e2(t-1) e1(t) e2(t)

Slide 37

Slide 37 text

巡回性のあるLiNGAMモデル (Lacerda et al., 2008) • モデル: • 必ず識別できるとは限らない • 識別性の条件 – B=[bij]の固有値の絶対値が1以下 (平衡状態にある) – ループ(閉路)が交わらない – 自己ループなし 37 i i j j ij i e x b x + = å ¹ x1 x2 e1 e2 x5 e5 x4 e4 x3 e3 or 𝒙 = 𝐵𝒙 + 𝒆 あまり論文は出てない。これからか

Slide 38

Slide 38 text

変数をどうとるか 38

Slide 39

Slide 39 text

変数をどうとるか • マクロ変数とミクロ変数 – 国レベルと個人レベル – 結果は一致するのか • 領域知識の利用 – (論文)テキストデータ等から抽出? • より一般に、データによる支援は可能?? – 介入によるアルゴリズム (Chalupka et al. 2017) 39 Messerli, (2012) Chalupka et al. (2017)

Slide 40

Slide 40 text

まとめ 40

Slide 41

Slide 41 text

まとめ • 統計的因果推論 – 因果グラフが領域知識で描ける場合はかなり成熟 – 描けない場合のデータによる支援が今後の鍵: 統計的因果探索 • 今後 – データ解析ツールとして • データによる支援はどこまでできるか – さまざまな仮定でどこまでできるか – 仮定の吟味 • 変数をどうとるか – Causal AIとして?? • 仮定+データ+Query -> 回答 (ができれば) 41 関連論文: https://www.shimizulab.org/lingam