Upgrade to Pro — share decks privately, control downloads, hide ads and more …

セミパラメトリックアプローチによる因果探索

Shohei SHIMIZU
October 07, 2021

 セミパラメトリックアプローチによる因果探索

2021年度知能情報学専攻コロキウム

Shohei SHIMIZU

October 07, 2021
Tweet

More Decks by Shohei SHIMIZU

Other Decks in Science

Transcript

  1. 統計的因果探索とは • データを用いて因果グラフを推測するための方法論 2 Maeda and Shimizu (2020) 仮定 推測

    • 関数形 • 分布 • 未観測共通原因の有無 • 非巡回 or 巡回 など データ 因果グラフ
  2. The Seven Tools of Causal Inference, with Reflections on Machine

    Learning (Pearl, 2019) 1. Encoding causal assumptions: Transparency and testability 2. Do-calculus and the control of confounding 3. The algorithmitization of counterfactuals 4. Mediation analysis and the assessment of direct and indirect effects 5. Adaptability, external validity, and sample selection bias 6. Recovering from missing data 7. Causal discovery 3 ノンパラ因果探索 セミパラ因果探索
  3. 統計的因果推論では因果グラフが要(かなめ) • データから介入効果を推定 – チョコ消費量を変えると ノーベル賞受賞者の数は どのくらい増えるのか(減るのか) • 介入効果を推定するために調整 –

    調整すべき変数の選択に 因果グラフが必要 (e.g., バックドア基準) 4 Messerli, (2012), New England Journal of Medicine チョコ 賞 GDP ! " # $ 賞 受 賞 者 ( 数 チョコレート消費量
  4. 因果探索の適用例 https://www.shimizulab.org/lingam/lingampapers/applications-and-tailor-made-methods 6 疫学 経済学 Sleep problems Depression mood Sleep

    problems Depression mood ? or OpInc.gr(t) Empl.gr(t) Sales.gr(t) R&D.gr(t) Empl.gr(t+1) Sales.gr(t+1) R&D(.grt+1) OpInc.gr(t+1) Empl.gr(t+2) Sales.gr(t+2) R&D.gr(t+2) OpInc.gr(t+2) (Moneta et al., 2013) (Rosenstrom et al., 2012) 神経科学 化学 (Campomanes et al., 2014) (Boukrina & Graves, 2013)
  5. 因果探索は因果推論におけるチャレンジ • 古典的な方法は条件付き独立性を利用 (Pearl 2001; Spirtes 1993) – 関数形に仮定をおかない –

    同値類を見つけることが限界 • 限界を超えるには、追加の仮定が必要 – 関数形や分布に仮定 – 一意に識別可能 or より小さい同値類 • LiNGAMは一例 (Shimizu et al., 2006; Shimizu, 2014) – 独立性を利用するための非ガウス連続分布の仮定 – 同値類を超えて一意に識別可能 7
  6. フレームワーク • 構造的因果モデル (Pearl, 2001) • 因果モデルに仮定をおき、 その中でデータとつじつまの合うモデルを探す – 典型例1:

    • 非巡回有向グラフ • 潜在共通原因なし(すべて観測されている) – 典型例2: • 非巡回有向グラフ • 潜在共通原因あり 9 x3 x1 e3 e1 x2 e2 𝑥! = 𝑓! (𝑥! の親, 𝑒! ) 誤差変数
  7. ノンパラアプローチの推定原理 • 因果的マルコフ条件 (Pearl & Verma, 1991) – 各変数 𝑥!

    は、親で条件づけると非子孫と独立 • 忠実性 – 変数間の独立性・条件付き独立性の有無は、 グラフ構造のみによって決まる(ことにするための仮定) 12 x3 x1 e3 e1 x2 e2 「𝑥" と𝑥# が独立 | 𝑥! 」 のみ
  8. 2種類の探索アプローチ • 制約ベースの探索 – 制約: 観測変数の条件付き独立性 • 仮説検定で有無 – 制約を満たす因果グラフを探索

    • PCアルゴリズム (Spirtes & Glymour, 1991) • SATソルバー (Triantafillou et al., 2010) • スコアベースの探索 – 制約を全体的に最も満たす 因果グラフを探索 • 情報量基準(BICなど)で評価 – 貪欲法 (Chickering, 2002) – 非巡回制約と連続最適化 (Zheng et al., 2018) 13 • 目的:正しい因果グラフを含む同値類を見つける • ノンパラではあるが、検定や情報量規準を使うために線形ガウスを仮定することが多い
  9. 拡張など • 潜在(未観測)共通原因を含めた同値類 (Spirtes et al., 1995) • 時間情報の利用 (Malinsky

    & Spirtes, 2018) • 巡回グラフを含めた同値類 (Richardson, 1996) • 介入効果の「下限」 (Maathuis et al., 2009; Malinsky & Spirtes, 2017) 14 x y f w z x y w z x y f1 w z f2 F. Eberhardt CRM Workshop 2016より
  10. LiNGAMモデル (Shimizu, Hyvarinen, Hoyer & Kerminen, 2006) • Linear Non-Gaussian

    Acyclic Model (線形非ガウス非巡回モデル): ここで – 𝑘 𝑖 : 𝑥" の因果的(半)順序 (topological order) – 誤差変数 𝑒" は • 非ガウス連続 • 互いに独立 • データ𝑋から係数𝑏!$ と順序𝑘 𝑖 が識別可能(一意に推定可能) 17 or 𝑥! 𝑥# 𝑥$ 因果グラフ 𝑥! = ' % $ &%(!) 𝑏!$ 𝑥$ + 𝑒$ 𝒙 = 𝐵𝒙 + 𝒆 𝑒$ 𝑒! 𝑒# 𝑏#! 𝑏#$ 𝑏!$
  11. 具体的には、非ガウス性と独立性をどう使うか? 18 x1 x2 e1 e2 正しいモデル 結果x2を原因x1に回帰 原因x1を結果x2に回帰 2

    1 21 2 1 1 1 2 2 ) 1 ( 2 ) var( ) , cov( e x b x x x x x x r = - = - = は独立 と ) 1 ( 2 1 1 ) ( r e x = 残差 ( ) ) var( var ) var( ) , cov( 1 ) var( ) , cov( 2 1 21 1 2 2 1 21 2 2 2 1 1 ) 2 ( 1 x x b e x x x b x x x x x r - þ ý ü î í ì - = - = は と ) 2 ( 1 2 1 21 2 ) ( r e e b x + = 2 e 従属 ガウスだと 無相関=独立 𝑥) = 𝑒) 𝑥" = 𝑏") 𝑥) + 𝑒" 𝑏!" ≠ 0
  12. DirectLiNGAMアルゴリズム (Shimizu et al., 2011) • 因果的順序𝑘(𝑖)の上から下へ順に推定 – 1番上を見つけて、残差を計算 –

    残差もLiNGAMモデル: 因果関係は変わらない • p>nの場合への拡張 (Wang & Drton, 2020) • 並列化+GPUで高速化 (Shahbazinia et al., 2021) 20 ú ú ú û ù ê ê ê ë é + ú ú ú û ù ê ê ê ë é ú ú ú û ù ê ê ê ë é - = ú ú ú û ù ê ê ê ë é 2 1 3 2 1 3 2 1 3 0 3 . 1 0 0 0 5 . 1 0 0 0 e e e x x x x x x 0 0 0 0 0 0 0 0 ú û ù ê ë é + ú û ù ê ë é ú û ù ê ë é - = ú û ù ê ë é 2 1 ) 3 ( 2 ) 3 ( 1 ) 3 ( 2 ) 3 ( 1 0 3 . 1 0 0 e e r r r r 0 0 ) 3 ( 2 r ) 3 ( 1 r x3 x1 x2 0
  13. • 𝑥" は最初(𝑘 𝑥" = 1): どの変数の子にもならない • どの回帰残差とも独立な変数が最初の変数 因果的順序が最初の変数の同定

    21 定理1: 「 は その残差 のどれとも独立 (𝑖は𝑗以外全部)」⟺ 「𝑥$ は最初」 ( ) j j j i i j i x x x x x r ) var( ) cov( , - = j x x3 x1 x2 x3 x1 x2
  14. 相互情報量の差=非ガウス性の差 (Hyvarinen & Smith, 2013) • どちらの向きの方が、説明変数と残差が独立か • 相互情報量の代わりに,1次元のエントロピーを計算 •

    𝐻を最大エントロピー近似 (Hyvarinen, 1999) 22 ÷ ÷ ø ö ç ç è æ ÷ ÷ ø ö ç ç è æ + - ÷ ÷ ø ö ç ç è æ + = - ) ( ) ( ) ( ) ( ) , ( ) , ( ) 2 ( 1 ) 2 ( 1 2 ) 1 ( 2 ) 1 ( 2 1 ) 2 ( 1 2 ) 1 ( 2 1 r sd r H x H r sd r H x H r x I r x I 𝐻(𝑢) ≈ 𝐻 𝑣 − 𝑘# [𝐸 log cosh 𝑢 − 𝛾]$−𝑘$ [𝐸 𝑢 exp (−𝑢$/2 ]$
  15. モデル仮定の評価 • 分析前 – Gaussianity test – ヒストグラム • 連続変数?

    – 多重共線性 – 領域知識 • 分析後 – 誤差(残差)の独立性評価 • 例えば、HSIC (Gretton et al., 2005) – マルコフバウンダリーによる予測の良さで評価 (Biza et al., 2020) – 複数のデータセットでの結果を比較 – 領域知識による評価 24 Wikipediaより
  16. 統計的信頼性評価 • 有向道や有向辺のブートストラップ確率 • 例えば、閾値0.05を越えるものを解釈 25 x3 x1 … …

    x3 x1 x0 x3 x1 x2 x3 x1 99% 96% 総合効果: 20.9 10% LiNGAM Python package: https://github.com/cdt15/lingam
  17. 他の識別可能なモデル • 非線形 + “加法” 誤差 (Hoyer+08NIPS, Zhang+09UAI, Peters+14JMLR) •

    𝑥# = 𝑓#(par(𝑥#)) + 𝑒# • 𝑥# = 𝑔# $"(𝑓#(par(𝑥#)) + 𝑒#) • 離散: ポワソンDAGモデルと拡張 (Park+18JMLR) • 離散と連続の混在: LiNGAM + ロジスティック“回帰”型モデル – 2変数の識別性の議論 (Wenjuan+18IJCAI) – 数値実験では多変数でも 27 𝑥# = 7 1 ∑%&'()!) 𝑏#+𝑥+ + 𝑒# > 𝑐 0 otherwise , 𝑒#~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(0,1)
  18. 非ガウス性と独立性を利用 • 未観測共通原因があると、説明変数と残差は従属 (Tashiro et al., 2014, NECO) – 共通原因をすべて含めていれば、独立になる

    • 鍵となる結果 (Maeda & Shimizu, AISTATS2020) – サブセットも含めてその変数セットを説明変数にすると 残差と独立になるような変数セットを探す – そのような変数セットがあれば、そのセットの変数は祖先であり 未観測共通原因もない • 非線形加法の場合は、未観測「中間変数」があっても従属 (Maeda & Shimizu, UAI2021) 30 𝑥# 𝑥! 𝑓! !! !" "" !# !$ "! !! 𝑥# 𝑥! 𝑓$
  19. 未観測共通原因のある場合 (Hoyer, Shimizu, Kerminen & Palviainen, 2008; Salehkaleybar et al.,

    2020) • 未観測共通原因ありのLiNGAMもICA (独立成分分析) • ICAをかけて 31 𝒙 = 𝐵𝒙 + 𝛬𝒇 + 𝒆 𝒙 = (𝐼 − 𝐵)%# (𝐼 − 𝐵)%#𝛬 𝒆 𝒇 ICA 𝑥" 𝑥! = 1 0 𝜆"" 𝑏!" 1 𝜆!" 𝑒" 𝑒! 𝑓" 𝑥# 𝑥! 𝑓! 𝑒! 𝑒# 𝑏"# 𝜆"# 𝜆## 𝑥" 𝑥! = 1 𝑏"! 𝜆"" 0 1 𝜆!" 𝑒" 𝑒! 𝑓" 𝑥# 𝑥! 𝑓! 𝑒! 𝑒# 𝑏#" 𝜆"# 𝜆## 𝑥" 𝑥! = 1 0 𝜆"" 0 1 𝜆!" 𝑒" 𝑒! 𝑓" 𝑥# 𝑥! 𝑓! 𝑒! 𝑒# 𝜆"# 𝜆## 独立成分
  20. 潜在因子のLiNGAM (Shimizu et al., 2009) • モデル: – 測定モデルの識別のために各潜在因子に 2つは“ピュア”な観測変数が必要

    (Silva et al., 2006; Xie et al., 2020) – このような潜在因子モデルをCausal representationと呼ぶ人もいる • “因子得点”を推定して因果グラフを推測 33 𝒇 = 𝐵𝒇+𝝐 𝒙 = 𝐺𝒇+𝒆 𝑥# 𝑥" $ 𝑓# $ 𝑓" 𝑥$ 𝑥% ? 𝑥# 𝑥" $ 𝑓# $ 𝑓" 𝑥$ 𝑥% 𝑦 ' 𝒇 = 𝒈(𝒙) それっぽい??
  21. 複数データセットに共通な因子を見つける (Zeng et al., IJCAI2021) • モデル • 目的関数 =

    尤度+スパース正則化項 s.t. 非巡回制約 • 複数データセットからの特徴抽出と 潜在因子の因果グラフ推測 34 𝒇(') = 𝐵(') 𝒇(')+ 𝝐(') 𝒙(') = 𝐺(') 𝒇(')+ 𝒆(') 𝑚 = 1, … , 𝑀 ! " ! (#) ! ! (!) ! $ (!) ! % (!) ! & (!) ? ! ! ($) ! $ ($) ! " ! (!) ! % (%) ! & (&) ? ! " # (!) ! " # (#) ! " # (#) = ! " ! (!)? 非巡回制約 (Zheng et al., NeurIPS2018): ℎ 𝐵 = tr 𝑒,∘, − 因子数 を用いて連続最適化で解く
  22. 時系列 • サブサンプリング: 「低解像度」データ – SVAR: 構造型自己回帰モデル (Swanson & Granger,

    1997) – 非ガウス独立なら識別可能 (Hyvarinen et al., 2010) – サブサンプリングの「間」の復元 (Gong et al., 2015) • 未観測共通原因ありのSVAR – Malinsky and Spirtes (2018) – ノンパラ 36 ) ( ) ( ) ( 0 t t t k e x B x + - = å = t t t x1(t) x1(t-1) x2(t-1) x2(t) e1(t-1) e2(t-1) e1(t) e2(t)
  23. 巡回性のあるLiNGAMモデル (Lacerda et al., 2008) • モデル: • 必ず識別できるとは限らない •

    識別性の条件 – B=[bij]の固有値の絶対値が1以下 (平衡状態にある) – ループ(閉路)が交わらない – 自己ループなし 37 i i j j ij i e x b x + = å ¹ x1 x2 e1 e2 x5 e5 x4 e4 x3 e3 or 𝒙 = 𝐵𝒙 + 𝒆 あまり論文は出てない。これからか
  24. 変数をどうとるか • マクロ変数とミクロ変数 – 国レベルと個人レベル – 結果は一致するのか • 領域知識の利用 –

    (論文)テキストデータ等から抽出? • より一般に、データによる支援は可能?? – 介入によるアルゴリズム (Chalupka et al. 2017) 39 Messerli, (2012) Chalupka et al. (2017)
  25. まとめ • 統計的因果推論 – 因果グラフが領域知識で描ける場合はかなり成熟 – 描けない場合のデータによる支援が今後の鍵: 統計的因果探索 • 今後

    – データ解析ツールとして • データによる支援はどこまでできるか – さまざまな仮定でどこまでできるか – 仮定の吟味 • 変数をどうとるか – Causal AIとして?? • 仮定+データ+Query -> 回答 (ができれば) 41 関連論文: https://www.shimizulab.org/lingam