セミパラメトリックアプローチによる因果探索

セミパラメトリックアプローチによる因果探索清水昌平滋賀大学データサイエンス学系理化学研究所革新知能統合研究センター

統計的因果探索とは • データを用いて因果グラフを推測するための方法論 2 Maeda and Shimizu (2020) 仮定推測
• 関数形 • 分布 • 未観測共通原因の有無 • 非巡回 or 巡回などデータ因果グラフ

The Seven Tools of Causal Inference, with Reflections on Machine
Learning (Pearl, 2019) 1. Encoding causal assumptions: Transparency and testability 2. Do-calculus and the control of confounding 3. The algorithmitization of counterfactuals 4. Mediation analysis and the assessment of direct and indirect effects 5. Adaptability, external validity, and sample selection bias 6. Recovering from missing data 7. Causal discovery 3 ノンパラ因果探索セミパラ因果探索

統計的因果推論では因果グラフが要(かなめ) • データから介入効果を推定 – チョコ消費量を変えるとノーベル賞受賞者の数はどのくらい増えるのか(減るのか) • 介入効果を推定するために調整 –
調整すべき変数の選択に因果グラフが必要 (e.g., バックドア基準) 4 Messerli, (2012), New England Journal of Medicine チョコ賞 GDP ! " # $ 賞受賞者 ( 数チョコレート消費量

因果グラフをどう描くか • 現状: 分析者が領域知識を基に描く • これから: 領域知識とデータを両方使って因果グラフを描く • 因果探索: データから描く
5 チョコ賞 GDP チョコ賞 ? チョコ賞 or GDP GDP チョコ賞 or GDP

因果探索の適用例 https://www.shimizulab.org/lingam/lingampapers/applications-and-tailor-made-methods 6 疫学経済学 Sleep problems Depression mood Sleep
problems Depression mood ? or OpInc.gr(t) Empl.gr(t) Sales.gr(t) R&D.gr(t) Empl.gr(t+1) Sales.gr(t+1) R&D(.grt+1) OpInc.gr(t+1) Empl.gr(t+2) Sales.gr(t+2) R&D.gr(t+2) OpInc.gr(t+2) (Moneta et al., 2013) (Rosenstrom et al., 2012) 神経科学化学 (Campomanes et al., 2014) (Boukrina & Graves, 2013)

因果探索は因果推論におけるチャレンジ • 古典的な方法は条件付き独立性を利用 (Pearl 2001; Spirtes 1993) – 関数形に仮定をおかない –
同値類を見つけることが限界 • 限界を超えるには、追加の仮定が必要 – 関数形や分布に仮定 – 一意に識別可能 or より小さい同値類 • LiNGAMは一例 (Shimizu et al., 2006; Shimizu, 2014) – 独立性を利用するための非ガウス連続分布の仮定 – 同値類を超えて一意に識別可能 7

統計的因果探索の方法 8

フレームワーク • 構造的因果モデル (Pearl, 2001) • 因果モデルに仮定をおき、その中でデータとつじつまの合うモデルを探す – 典型例1:
• 非巡回有向グラフ • 潜在共通原因なし(すべて観測されている) – 典型例2: • 非巡回有向グラフ • 潜在共通原因あり 9 x3 x1 e3 e1 x2 e2 𝑥! = 𝑓! (𝑥! の親, 𝑒! ) 誤差変数

因果探索の方法その1: ノンパラメトリックアプローチ関数形や分布に仮定をおかずにどこまでいけるか？ 10 Spirtes, Glymour, Shceines, 2001 (2nd
ed)

関数形や分布には仮定をおかないアプローチ 1. 因果グラフに仮定をおく – 非巡回有向グラフ – 未観測の!"#$なし(すべて観測されている) 2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ 11
x y x y x y 「データでxとyが独立」なら、一番右の(c)を選ぶ (a)と(b)の区別はつかない(一意に決まらない): 同値類 3つの候補 (a) (b) (c)

ノンパラアプローチの推定原理 • 因果的マルコフ条件 (Pearl & Verma, 1991) – 各変数 𝑥!
は、親で条件づけると非子孫と独立 • 忠実性 – 変数間の独立性・条件付き独立性の有無は、グラフ構造のみによって決まる(ことにするための仮定) 12 x3 x1 e3 e1 x2 e2 「𝑥" と𝑥# が独立 | 𝑥! 」のみ

2種類の探索アプローチ • 制約ベースの探索 – 制約: 観測変数の条件付き独立性 • 仮説検定で有無 – 制約を満たす因果グラフを探索
• PCアルゴリズム (Spirtes & Glymour, 1991) • SATソルバー (Triantafillou et al., 2010) • スコアベースの探索 – 制約を全体的に最も満たす因果グラフを探索 • 情報量基準(BICなど)で評価 – 貪欲法 (Chickering, 2002) – 非巡回制約と連続最適化 (Zheng et al., 2018) 13 • 目的:正しい因果グラフを含む同値類を見つける • ノンパラではあるが、検定や情報量規準を使うために線形ガウスを仮定することが多い

拡張など • 潜在(未観測)共通原因を含めた同値類 (Spirtes et al., 1995) • 時間情報の利用 (Malinsky
& Spirtes, 2018) • 巡回グラフを含めた同値類 (Richardson, 1996) • 介入効果の「下限」 (Maathuis et al., 2009; Malinsky & Spirtes, 2017) 14 x y ｆ w z x y w z x y ｆ1 w z ｆ2 F. Eberhardt CRM Workshop 2016より

因果探索の方法その2: セミパラメトリックアプローチ一意に識別できる条件は？ 15

関数形や分布にも仮定を入れてみる「と」 • 条件付き独立性以外にも利用可能な情報がある • 例えば、線形性＋非ガウス連続分布 16 x1 x2 x1 x2
観測変数x1,x2の分布が違う (条件付き独立性に違いはない)

LiNGAMモデル (Shimizu, Hyvarinen, Hoyer & Kerminen, 2006) • Linear Non-Gaussian
Acyclic Model (線形非ガウス非巡回モデル): ここで – 𝑘 𝑖 : 𝑥" の因果的(半)順序 (topological order) – 誤差変数 𝑒" は • 非ガウス連続 • 互いに独立 • データ𝑋から係数𝑏!$ と順序𝑘 𝑖 が識別可能(一意に推定可能) 17 or 𝑥! 𝑥# 𝑥$ 因果グラフ 𝑥! = ' % $ &%(!) 𝑏!$ 𝑥$ + 𝑒$ 𝒙 = 𝐵𝒙 + 𝒆 𝑒$ 𝑒! 𝑒# 𝑏#! 𝑏#$ 𝑏!$

具体的には、非ガウス性と独立性をどう使うか？ 18 x1 x2 e1 e2 正しいモデル結果x2を原因x1に回帰原因x1を結果x2に回帰 2
1 21 2 1 1 1 2 2 ) 1 ( 2 ) var( ) , cov( e x b x x x x x x r = - = - = は独立と ) 1 ( 2 1 1 ) ( r e x = 残差 ( ) ) var( var ) var( ) , cov( 1 ) var( ) , cov( 2 1 21 1 2 2 1 21 2 2 2 1 1 ) 2 ( 1 x x b e x x x b x x x x x r - þ ý ü î í ì - = - = はと ) 2 ( 1 2 1 21 2 ) ( r e e b x + = 2 e 従属ガウスだと無相関＝独立 𝑥) = 𝑒) 𝑥" = 𝑏") 𝑥) + 𝑒" 𝑏!" ≠ 0

LiNGAMモデルの推定 19

DirectLiNGAMアルゴリズム (Shimizu et al., 2011) • 因果的順序𝑘(𝑖)の上から下へ順に推定 – １番上を見つけて、残差を計算 –
残差もLiNGAMモデル: 因果関係は変わらない • p>nの場合への拡張 (Wang & Drton, 2020) • 並列化+GPUで高速化 (Shahbazinia et al., 2021) 20 ú ú ú û ù ê ê ê ë é + ú ú ú û ù ê ê ê ë é ú ú ú û ù ê ê ê ë é - = ú ú ú û ù ê ê ê ë é 2 1 3 2 1 3 2 1 3 0 3 . 1 0 0 0 5 . 1 0 0 0 e e e x x x x x x 0 0 0 0 0 0 0 0 ú û ù ê ë é + ú û ù ê ë é ú û ù ê ë é - = ú û ù ê ë é 2 1 ) 3 ( 2 ) 3 ( 1 ) 3 ( 2 ) 3 ( 1 0 3 . 1 0 0 e e r r r r 0 0 ) 3 ( 2 r ) 3 ( 1 r x3 x1 x2 0

• 𝑥" は最初(𝑘 𝑥" = 1): どの変数の子にもならない • どの回帰残差とも独立な変数が最初の変数因果的順序が最初の変数の同定
21 定理1: 「はその残差のどれとも独立 (𝑖は𝑗以外全部)」⟺ 「𝑥$ は最初」 ( ) j j j i i j i x x x x x r ) var( ) cov( , - = j x x3 x1 x2 x3 x1 x2

相互情報量の差=非ガウス性の差 (Hyvarinen & Smith, 2013) • どちらの向きの方が、説明変数と残差が独立か • 相互情報量の代わりに，1次元のエントロピーを計算 •
𝐻を最大エントロピー近似 (Hyvarinen, 1999) 22 ÷ ÷ ø ö ç ç è æ ÷ ÷ ø ö ç ç è æ + - ÷ ÷ ø ö ç ç è æ + = - ) ( ) ( ) ( ) ( ) , ( ) , ( ) 2 ( 1 ) 2 ( 1 2 ) 1 ( 2 ) 1 ( 2 1 ) 2 ( 1 2 ) 1 ( 2 1 r sd r H x H r sd r H x H r x I r x I 𝐻(𝑢) ≈ 𝐻 𝑣 − 𝑘# [𝐸 log cosh 𝑢 − 𝛾]$−𝑘$ [𝐸 𝑢 exp (−𝑢$/2 ]$

推測された因果グラフを評価する 23

モデル仮定の評価 • 分析前 – Gaussianity test – ヒストグラム • 連続変数？
– 多重共線性 – 領域知識 • 分析後 – 誤差(残差)の独立性評価 • 例えば、HSIC (Gretton et al., 2005) – マルコフバウンダリーによる予測の良さで評価 (Biza et al., 2020) – 複数のデータセットでの結果を比較 – 領域知識による評価 24 Wikipediaより

統計的信頼性評価 • 有向道や有向辺のブートストラップ確率 • 例えば、閾値0.05を越えるものを解釈 25 x3 x1 … …
x3 x1 x0 x3 x1 x2 x3 x1 99% 96% 総合効果: 20.9 10% LiNGAM Python package: https://github.com/cdt15/lingam

モデルの仮定を緩める 26

他の識別可能なモデル • 非線形 + “加法” 誤差 (Hoyer+08NIPS, Zhang+09UAI, Peters+14JMLR) •
𝑥# = 𝑓#(par(𝑥#)) + 𝑒# • 𝑥# = 𝑔# $"(𝑓#(par(𝑥#)) + 𝑒#) • 離散: ポワソンDAGモデルと拡張 (Park+18JMLR) • 離散と連続の混在: LiNGAM + ロジスティック“回帰”型モデル – ２変数の識別性の議論 (Wenjuan+18IJCAI) – 数値実験では多変数でも 27 𝑥# = 7 1 ∑%&'()!) 𝑏#+𝑥+ + 𝑒# > 𝑐 0 otherwise , 𝑒#~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(0,1)

未観測共通原因 28

未観測共通原因の存在を許すLiNGAM (Maeda & Shimizu, AISTATS2020) • 未観測共通原因のありそうな変数ペア • 未観測共通原因がない変数ペアの因果の向き 29
𝑥# 𝑥! 𝑓! 𝑥$ 真出力 𝑥% 𝑥# 𝑥! 𝑥$ 𝑥% 𝑓#

非ガウス性と独立性を利用 • 未観測共通原因があると、説明変数と残差は従属 (Tashiro et al., 2014, NECO) – 共通原因をすべて含めていれば、独立になる
• 鍵となる結果 (Maeda & Shimizu, AISTATS2020) – サブセットも含めてその変数セットを説明変数にすると残差と独立になるような変数セットを探す – そのような変数セットがあれば、そのセットの変数は祖先であり未観測共通原因もない • 非線形加法の場合は、未観測「中間変数」があっても従属 (Maeda & Shimizu, UAI2021) 30 𝑥# 𝑥! 𝑓! !! !" "" !# !$ "! !! 𝑥# 𝑥! 𝑓$

未観測共通原因のある場合 (Hoyer, Shimizu, Kerminen & Palviainen, 2008; Salehkaleybar et al.,
2020) • 未観測共通原因ありのLiNGAMもICA (独立成分分析) • ICAをかけて 31 𝒙 = 𝐵𝒙 + 𝛬𝒇 + 𝒆 𝒙 = (𝐼 − 𝐵)%# (𝐼 − 𝐵)%#𝛬 𝒆 𝒇 ICA 𝑥" 𝑥! = 1 0 𝜆"" 𝑏!" 1 𝜆!" 𝑒" 𝑒! 𝑓" 𝑥# 𝑥! 𝑓! 𝑒! 𝑒# 𝑏"# 𝜆"# 𝜆## 𝑥" 𝑥! = 1 𝑏"! 𝜆"" 0 1 𝜆!" 𝑒" 𝑒! 𝑓" 𝑥# 𝑥! 𝑓! 𝑒! 𝑒# 𝑏#" 𝜆"# 𝜆## 𝑥" 𝑥! = 1 0 𝜆"" 0 1 𝜆!" 𝑒" 𝑒! 𝑓" 𝑥# 𝑥! 𝑓! 𝑒! 𝑒# 𝜆"# 𝜆## 独立成分

潜在因子のLiNGAM 32

潜在因子のLiNGAM (Shimizu et al., 2009) • モデル: – 測定モデルの識別のために各潜在因子に 2つは“ピュア”な観測変数が必要
(Silva et al., 2006; Xie et al., 2020) – このような潜在因子モデルをCausal representationと呼ぶ人もいる • “因子得点”を推定して因果グラフを推測 33 𝒇 = 𝐵𝒇+𝝐 𝒙 = 𝐺𝒇+𝒆 𝑥# 𝑥" $ 𝑓# $ 𝑓" 𝑥$ 𝑥% ? 𝑥# 𝑥" $ 𝑓# $ 𝑓" 𝑥$ 𝑥% 𝑦 ' 𝒇 = 𝒈(𝒙) それっぽい？？

複数データセットに共通な因子を見つける (Zeng et al., IJCAI2021) • モデル • 目的関数 =
尤度+スパース正則化項 s.t. 非巡回制約 • 複数データセットからの特徴抽出と潜在因子の因果グラフ推測 34 𝒇(') = 𝐵(') 𝒇(')+ 𝝐(') 𝒙(') = 𝐺(') 𝒇(')+ 𝒆(') 𝑚 = 1, … , 𝑀 ! " ! (#) ! ! (!) ! $ (!) ! % (!) ! & (!) ? ! ! ($) ! $ ($) ! " ! (!) ! % (%) ! & (&) ? ! " # (!) ! " # (#) ! " # (#) = ! " ! (!)? 非巡回制約 (Zheng et al., NeurIPS2018): ℎ 𝐵 = tr 𝑒,∘, − 因子数を用いて連続最適化で解く

時系列モデルと巡回モデル 35

時系列 • サブサンプリング: 「低解像度」データ – SVAR: 構造型自己回帰モデル (Swanson & Granger,
1997) – 非ガウス独立なら識別可能 (Hyvarinen et al., 2010) – サブサンプリングの「間」の復元 (Gong et al., 2015) • 未観測共通原因ありのSVAR – Malinsky and Spirtes (2018) – ノンパラ 36 ) ( ) ( ) ( 0 t t t k e x B x + - = å = t t t x1(t) x1(t-1) x2(t-1) x2(t) e1(t-1) e2(t-1) e1(t) e2(t)

巡回性のあるLiNGAMモデル (Lacerda et al., 2008) • モデル: • 必ず識別できるとは限らない •
識別性の条件 – B=[bij]の固有値の絶対値が１以下 (平衡状態にある) – ループ(閉路)が交わらない – 自己ループなし 37 i i j j ij i e x b x + = å ¹ x1 x2 e1 e2 x5 e5 x4 e4 x3 e3 or 𝒙 = 𝐵𝒙 + 𝒆 あまり論文は出てない。これからか

変数をどうとるか 38

変数をどうとるか • マクロ変数とミクロ変数 – 国レベルと個人レベル – 結果は一致するのか • 領域知識の利用 –
(論文)テキストデータ等から抽出？ • より一般に、データによる支援は可能？？ – 介入によるアルゴリズム (Chalupka et al. 2017) 39 Messerli, (2012) Chalupka et al. (2017)

まとめ 40

まとめ • 統計的因果推論 – 因果グラフが領域知識で描ける場合はかなり成熟 – 描けない場合のデータによる支援が今後の鍵: 統計的因果探索 • 今後
– データ解析ツールとして • データによる支援はどこまでできるか – さまざまな仮定でどこまでできるか – 仮定の吟味 • 変数をどうとるか – Causal AIとして？？ • 仮定+データ+Query -> 回答 (ができれば) 41 関連論文: https://www.shimizulab.org/lingam

セミパラメトリックアプローチによる因果探索

セミパラメトリックアプローチによる因果探索

More Decks by Shohei SHIMIZU

Other Decks in Science

Featured

Transcript