Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2021年度日本計量生物学会年会チュートリアル「因果探索」の出だし

 2021年度日本計量生物学会年会チュートリアル「因果探索」の出だし

2021年度日本計量生物学会年会チュートリアル「因果探索」の出だし

Shohei SHIMIZU

April 23, 2021
Tweet

More Decks by Shohei SHIMIZU

Other Decks in Science

Transcript

  1. 統計的因果探索の基礎 清水昌平 滋賀大学データサイエンス学系 理化学研究所革新知能統合研究センター 2021年度日本計量生物学会年会・チュートリアル 「因果探索」

  2. チュートリアル 「因果探索」 1. 清水: 統計的因果探索の基礎 70分 2. 前田: 未観測共通原因が存在するときの因果グラフ推定 40分

    3. 井元: LiNGAMモデルに基づく遺伝子制御ネットワーク推定 40分 2 -- 休憩10分 -- -- 休憩10分 -- 各パートで質疑の時間(約10分)を設けます
  3. 統計的因果探索の役割 3

  4. 統計的因果探索とは • データを用いて因果グラフを推測するための方法論 4 Maeda and Shimizu (2020) 仮定 推測

    • 関数形 • 分布 • 未観測共通原因の有無 • 非巡回 or 巡回 など データ 因果グラフ
  5. 統計的因果推論では因果グラフが要(かなめ) • データから介入効果を推定 – チョコ消費量を変えると ノーベル賞受賞者の数は どのくらい増えるのか(減るのか) • 介入効果を推定するために調整 –

    調整すべき変数の選択に 因果グラフが必要 (e.g., バックドア基準) 5 Messerli, (2012), New England Journal of Medicine チョコ 賞 GDP ! " # $ 賞 受 賞 者 ( 数 チョコレート消費量
  6. 因果グラフをどう描くか • 現状: 分析者が領域知識を基に描く • これから: 領域知識とデータを両方使って因果グラフを描く • 因果探索: データから描く

    6 チョコ 賞 GDP チョコ 賞 ? チョコ 賞 or GDP GDP チョコ 賞 or GDP
  7. 因果探索の適用例 https://sites.google.com/view/sshimizu06/lingam/lingampapers/applications-and-tailor-made-methods 7 疫学 経済学 Sleep problems Depression mood Sleep

    problems Depression mood ? or OpInc.gr(t) Empl.gr(t) Sales.gr(t) R&D.gr(t) Empl.gr(t+1) Sales.gr(t+1) R&D(.grt+1) OpInc.gr(t+1) Empl.gr(t+2) Sales.gr(t+2) R&D.gr(t+2) OpInc.gr(t+2) (Moneta et al., 2013) (Rosenstrom et al., 2012) 神経科学 化学 (Campomanes et al., 2014) (Boukrina & Graves, 2013)
  8. 因果グラフが描けると他にもいろいろできる • 「公平」な機械学習モデルの構築 (Kusner et al., 2017) 8 公平にしたい変数Aの非子孫を説明変数にすればよい 反事実的に公平:

    公平にしたい変数Aに介入しても予測結果が変わらない
  9. 機械学習モデルの予測メカニズムの解析 (Blobaum & Shimizu, 2017) • 介入して説明変数X1の値を変えると機械学習モデルの予測! 𝑌はどう変わる? – X1を変えればX2,

    X3, X4も変わる – X1だけ違う値を入力してもダメ • 原因の確率などによる機械学習モデルの説明性 (Galhotra et al., 2021) 9 𝑥! 𝑥" " 𝑌 𝑥# 𝑥$ 𝑥! 𝑥" 𝑥# 𝑥$ 𝑦 予測モデル % 𝑦 予測メカニズムのモデル 𝑥! 𝑥" 𝑥# 𝑥$ 因果モデル 𝑥! = 𝑓!(𝑥! の親, 𝑒!) ( 𝑦 = 𝑓 (𝑥", 𝑥#, 𝑥$, 𝑥%) 𝐸(( 𝑦|𝑑𝑜 𝑥! = 𝑐 )
  10. 因果探索は因果推論におけるチャレンジ • 古典的な方法は条件付き独立性を利用 (Pearl 2001; Spirtes 1993) – 関数形に仮定をおかない –

    同値類を見つけることが限界 • 限界を超えるには、追加の仮定が必要 – 関数形や分布に仮定 – 一意に識別可能 or より小さい同値類 • LiNGAMは一例 (Shimizu et al., 2006; Shimizu, 2014) – 独立性を利用するための非ガウス連続分布の仮定 – 同値類を超えて一意に識別可能 10
  11. 統計的因果探索の方法 11

  12. フレームワーク • 構造的因果モデル (Pearl, 2001) • 因果モデルに仮定をおき、 その中でデータとつじつまの合うモデルを探す – 典型例1:

    • 非巡回有向グラフ • 潜在共通原因なし(すべて観測されている) – 典型例2: • 非巡回有向グラフ • 潜在共通原因あり 12 x3 x1 e3 e1 x2 e2 𝑥! = 𝑓! (𝑥! の親, 𝑒! ) 誤差変数
  13. 因果探索の方法その1: 条件付き独立性を利用する方法 関数形や分布に仮定をおかずに どこまでいけるか? 13 Spirtes, Glymour, Shceines, 2001 (2nd

    ed)
  14. 関数形や分布には仮定をおかないアプローチ 1. 因果グラフに仮定をおく – 非巡回有向グラフ – 未観測の!"#$なし(すべて観測されている) 2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ 14

    x y x y x y 「データでxとyが独立」なら、一番右の(c)を選ぶ (a)と(b)の区別がつかない(一意に決まらない): 同値類 3つの候補 (a) (b) (c)
  15. 因果的マルコフ条件 (Pearl & Verma, 1991) • 各変数 𝑥! は、親で条件づけると非子孫と独立 –

    (親がいない場合は空集合で条件づける) • 因果グラフの構造と条件付き独立性の対応 15 x3 x1 e3 e1 x2 e2 条件付き独立性 「𝑥/ と𝑥0 が独立 | 𝑥& 」 のみ 因果グラフ
  16. 忠実性 • 変数間の独立性・条件付き独立性の有無は、 グラフ構造のみによって決まる(ことにするための仮定) • 「因果的マルコフ条件から導かれる独立性」のみが 成り立つことを保証: 「例外」を排除して考える 16 𝑥&

    𝑥' 𝑥( 1 -1 1 ガウス分布だとすると、 パラメータの値によっては独立に 𝑥( = 𝑥& + 𝑥' + 𝑒( 𝑥& = 𝑒& 𝑥' = −𝑥& + 𝑒' cov(𝑥& , 𝑥( ) = 0
  17. 条件付き独⽴性を⽤いて探索 17 x3 x1 x2 データで成り⽴つ条件付き 独⽴性 「𝑥/ と𝑥0 が独立

    | 𝑥& 」 データXが ⽣成される x3 x1 x2 x3 x1 x2 x3 x1 x2 x3 x1 x2 正 同じ条件付き独⽴性を 与える因果グラフを列挙 まとめる 復元できない (識別できない) ここまで が限界 のみ 同値類
  18. 拡張など • 未観測共通原因を含めた同値類 (Spirtes et al., 1995) • 時間情報の利用 (Malinsky

    & Spirtes, 2018) • 巡回グラフを含めた同値類 (Richardson, 1996) • 介入効果の「下限」 (Maathuis et al., 2009; Malinsky & Spirtes, 2017) 18 x y f w z x y w z x y f1 w z f2 F. Eberhardt CRM Workshop 2016より
  19. 因果探索の方法その2: 関数形や分布に追加の仮定をする方法 一意に識別できる条件は? 19

  20. 関数形や分布にも仮定を入れてみる「と」 • 条件付き独立性以外にも利用可能な情報がある • 例えば、線形性+非ガウス連続分布 20 x1 x2 x1 x2

    観測変数x1,x2の 分布が違う (条件付き独立性に違いはない)
  21. LiNGAMモデル (Shimizu, Hyvarinen, Hoyer & Kerminen, 2006) • Linear Non-Gaussian

    Acyclic Model (線形非ガウス非巡回モデル): ここで – 𝑘 𝑖 : 𝑥) の因果的(半)順序 (topological order) – 誤差変数 𝑒) は • 非ガウス連続 • 互いに独立 • データ𝑋から係数𝑏12 と順序𝑘 𝑖 が識別可能(一意に推定可能) 21 or 𝑥& 𝑥' 𝑥( 因果グラフ 𝑥1 = ' 3 2 43(1) 𝑏12 𝑥2 + 𝑒2 𝒙 = 𝐵𝒙 + 𝒆 𝑒( 𝑒& 𝑒' 𝑏'& 𝑏'( 𝑏&(
  22. 具体的には、非ガウス性と独立性をどう使うか? 22 x1 x2 e1 e2 正しいモデル 結果x2を原因x1に回帰 原因x1を結果x2に回帰 2

    1 21 2 1 1 1 2 2 ) 1 ( 2 ) var( ) , cov( e x b x x x x x x r = - = - = は独立 と ) 1 ( 2 1 1 ) ( r e x = 残差 ( ) ) var( var ) var( ) , cov( 1 ) var( ) , cov( 2 1 21 1 2 2 1 21 2 2 2 1 1 ) 2 ( 1 x x b e x x x b x x x x x r - þ ý ü î í ì - = - = は と ) 2 ( 1 2 1 21 2 ) ( r e e b x + = 2 e 従属 ガウスだと 無相関=独立 𝑥5 = 𝑒5 𝑥/ = 𝑏/5 𝑥5 + 𝑒/ 𝑏#" ≠ 0
  23. • 観測変数ベクトルxのデータ生成過程: ここで独立成分 𝑠) は非ガウスかつ独立 • 混合行列Aは(列の置換とスケーリングを除いて)識別可能 • LiNGAMの非ガウス独立誤差変数=独立成分 別の説明:

    独立成分分析 (ICA) モデルによる説明 (Jutten & Herault, 1991; Comon, 1994) As x = 23 å = = p j j ij i s a x 1 or Ae e B I x e Bx x = - = Û + = -1 ) (
  24. ICAをかけて混合行列Aをみる • 向きが違えば、Aのゼロ非ゼロパターン異なる (LiNGAMでは対角にゼロないから列置換が定まる) 24 ! ! ú û ù

    ê ë é ú û ù ê ë é = ú û ù ê ë é 2 1 21 2 1 1 0 1 e e b x x " # " $ % 2 1 21 2 1 1 e x b x e x + = = A s x ! ! ú û ù ê ë é ú û ù ê ë é = ú û ù ê ë é 2 1 12 2 1 1 0 1 e e b x x " # " $ % A s x 2 2 1 2 12 1 e x e x b x = + = x1 x2 e1 e2 x1 x2 e1 e2
  25. LiNGAMモデルの推定 25

  26. DirectLiNGAMアルゴリズム (Shimizu et al., 2011) • 因果的順序𝑘(𝑖)の上から下へ順に推定 – 1番上を見つけて、残差を計算 –

    残差もLiNGAMモデル: 因果関係は変わらない 26 ú ú ú û ù ê ê ê ë é + ú ú ú û ù ê ê ê ë é ú ú ú û ù ê ê ê ë é - = ú ú ú û ù ê ê ê ë é 2 1 3 2 1 3 2 1 3 0 3 . 1 0 0 0 5 . 1 0 0 0 e e e x x x x x x 0 0 0 0 0 0 0 0 ú û ù ê ë é + ú û ù ê ë é ú û ù ê ë é - = ú û ù ê ë é 2 1 ) 3 ( 2 ) 3 ( 1 ) 3 ( 2 ) 3 ( 1 0 3 . 1 0 0 e e r r r r 0 0 ) 3 ( 2 r ) 3 ( 1 r x3 x1 x2 0
  27. • 𝑥" は最初(𝑘 𝑥" = 1): どの変数の子にもならない • どの残差とも独立な変数が最初の変数 因果的順序が最初の変数の同定

    27 定理1: 「 は その残差 のどれとも独立 (𝑖は𝑗以外全部)」⟺ 「𝑥2 は最初」 ( ) j j j i i j i x x x x x r ) var( ) cov( , - = j x x3 x1 x2 x3 x1 x2
  28. 相互情報量の差=非ガウス性の差 (Hyvarinen & Smith, 2013) • どちらの向きの方が、説明変数と残差が独立か • 相互情報量の代わりに,1次元のエントロピーを計算 •

    𝐻を最大エントロピー近似 (Hyvarinen, 1999) 28 ÷ ÷ ø ö ç ç è æ ÷ ÷ ø ö ç ç è æ + - ÷ ÷ ø ö ç ç è æ + = - ) ( ) ( ) ( ) ( ) , ( ) , ( ) 2 ( 1 ) 2 ( 1 2 ) 1 ( 2 ) 1 ( 2 1 ) 2 ( 1 2 ) 1 ( 2 1 r sd r H x H r sd r H x H r x I r x I 𝐻(𝑢) ≈ 𝐻 𝑣 − 𝑘# [𝐸 log cosh 𝑢 − 𝛾]$−𝑘$ [𝐸 𝑢 exp (−𝑢$/2 ]$
  29. 因果的順序𝑘 𝑖 を見つけてしまえば • スパース回帰を使って枝刈り • 例: 𝑥1 より順番の早い変数を親候補にしてadaptive lasso

    (Zou, 2006) 29 x2 x3 x1 x2 x3 x1 枝刈り å å + - の親候補 の親候補 i i x j ij ij x j j ij i ols b b x b x : 2 : ) ( ˆ l
  30. 背景知識の利用 • 因果的(半)順序の推定における利用 – 例: 背景知識が 𝑘 𝑥1 < 𝑘

    𝑥2 なら𝑥1 が選ばれるまで𝑥2 は選ばない • 枝刈りにおける利用 – 𝑘 𝑥1 < 𝑘 𝑥2 なら 𝑥2 を𝑥1 の親候補にしない 30 å å + - の親候補 の親候補 i i x j ij ij x j j ij i ols b b x b x : 2 : ) ( ˆ l ) 3 ( 2 r ) 3 ( 1 r x3 x1 x2
  31. 非線形モデル

  32. 非線形+加法の外生変数 • 非線形+「加法の誤差」のモデル (非線形関数は微分可能と仮定) • 誤差の独立性を利用 • 非線形性と誤差変数の分布のいくつかの組み合わせを除いて、一意 に推定可能(Zhang &

    Hyvarinen, 2009; Peters et al., 2014) 32 ( ) ( ) ( ) i i i i i i i i i e x f f x e x f x + = + = - !親 !親 1 , 1 2 , -- Hoyer et al. (2008) -- Zhang et al. (2009) 1. 2.
  33. 非線形回帰して説明変数と残差が独立か調べる 33 x1 x2 e1 e2 正しいモデル 結果𝑥' を原因𝑥& に非線形回帰

    原因𝑥& を結果𝑥' に非線形回帰 説明変数𝑥5 (= 𝑒5 )と残差は独立 ガウスだと 無相関=独立 𝑥5 = 𝑒5 𝑥/ = 𝑓(𝑥5 ) + 𝑒/ 𝑏#" ≠ 0 説明変数𝑥/ と残差は従属
  34. 因果的順序を下から推定: 終点変数の同定 • 終点変数: (モデル内に)子を持たない変数 • 終点変数を目的変数にしたときのみ、説明変数と残差が独立になる 34 x2 x3

    x1 x2 x3 因果的順序を 下から推定 真 x3 因果的順序を 下から推定 𝑥$ = 𝑒$ 𝑥# = 𝑓#(𝑥$ )+ 𝑒# 𝑥" = 𝑓"(𝑥#, 𝑥$ )+ 𝑒" 見つけた終点変数 𝑥! は分析から除く 見つけた終点変数 𝑥" は分析から除く 一つだけ残ったので終了 𝑥$ = 𝑒$ 𝑥# = 𝑓#(𝑥$ )+ 𝑒# 𝑥$ = 𝑒$ 𝑟& = 𝑥& − 𝑔& (𝑥' , 𝑥( )と𝑥' , 𝑥( は独立だが、 𝑟' = 𝑥' − 𝑔' (𝑥& , 𝑥( )と𝑥& , 𝑥( は独立でない… 𝑘 𝑥! < 𝑘 𝑥" < 𝑘 𝑥#
  35. 背景知識の利用 • 因果的順序に関する背景知識の利用 • 背景情報+データから因果グラフを推測 – 製造業 • 製造条件 •

    その中間の特性 • 最終的な特性: 不良率など – 農業やマーケティングなどでも • 介入効果の異質性 (Athey & Imbens, 2016) 35 最終特性 条件1 条件10 中間特性1 中間特性100 … 中間特性82 中間特性8 中間特性66 中間特性66 中間特性16 … … … … 因果探索
  36. 時系列モデルと巡回モデル 36

  37. 時系列 • サブサンプリング: 「低解像度」データ – SVAR: 構造型自己回帰モデル (Swanson & Granger,

    1997) – 非ガウス独立なら識別可能 (Hyvarinen et al., 2010) • 非定常 – 差分が定常と仮定 (Moneta et al., 2013) – 平均や係数が時間的に滑らかに変化 (Huang et al., 2015) 37 ) ( ) ( ) ( 0 t t t k e x B x + - = å = t t t 井元さんのパートでも! x1(t) x1(t-1) x2(t-1) x2(t) e1(t-1) e2(t-1) e1(t) e2(t)
  38. 巡回性のあるLiNGAMモデル (Lacerda et al., 2008) • モデル: • 必ず識別できるとは限らない •

    識別性の条件 – B=[bij]の固有値の絶対値が1以下 (平衡状態にある) – ループ(閉路)が交わらない – 自己ループなし 38 i i j j ij i e x b x + = å ¹ x1 x2 e1 e2 x5 e5 x4 e4 x3 e3 or 𝒙 = 𝐵𝒙 + 𝒆 あまり論文は出てない。これからか
  39. 未観測共通原因 39

  40. 未観測共通原因のある場合 (Hoyer, Shimizu, Kerminen & Palviainen, 2008) • 未観測共通原因ありのLiNGAMもICA •

    ICAをかけて 40 𝒙 = 𝐵𝒙 + 𝛬𝒇 + 𝒆 𝒙 = (𝐼 − 𝐵)%# (𝐼 − 𝐵)%#𝛬 𝒆 𝒇 ICA 𝑥" 𝑥# = 1 0 𝜆"" 𝑏#" 1 𝜆#" 𝑒" 𝑒# 𝑓" 𝑥' 𝑥& 𝑓& 𝑒& 𝑒' 𝑏"# 𝜆"# 𝜆## 𝑥" 𝑥# = 1 𝑏"# 𝜆"" 0 1 𝜆#" 𝑒" 𝑒# 𝑓" 𝑥' 𝑥& 𝑓& 𝑒& 𝑒' 𝑏#" 𝜆"# 𝜆## 𝑥" 𝑥# = 1 0 𝜆"" 0 1 𝜆#" 𝑒" 𝑒# 𝑓" 𝑥' 𝑥& 𝑓& 𝑒& 𝑒' 𝜆"# 𝜆## 独立成分
  41. 識別性 (Salehkaleybar et al., 2020) • 観測変数の子孫と未観測共通原因に対応する混合行列Wの列の ゼロ非ゼロパターンにオーバーラップがなければ、 因果的順序も介入効果も識別可能 •

    もしオーバーラップがあれば、因果順序のみが識別可能 41 𝑥" 𝑥# = 1 0 𝜆"" 𝑏#" 1 𝜆#" 𝑒" 𝑒# 𝑓" 𝑥' 𝑥& 𝑓& 𝑒& 𝑒' 𝑏"# 𝜆"# 𝜆## 𝑥" 𝑥# 𝑥$ = 1 0 0 𝜆"" 𝑏#" 1 0 𝜆#" 0 0 1 𝜆$" 𝑒# 𝑒" 𝑒! 𝑓 # 𝑥' 𝑥& 𝑓& 𝑒& 𝑒' 𝑏"# 𝜆"# 𝜆## Overlap No overlap 𝑥( 𝑒( 𝜆!#
  42. 未観測共通原因のありそうな変数ペアを探す (Maeda & Shimizu, 2020) • 未観測共通原因のありそうな変数ペア • 未観測共通原因がない変数ペアの因果の向き 42

    𝑥' 𝑥& 𝑓& 𝑥( 真 出力 𝑥* 𝑥' 𝑥& 𝑥( 𝑥* 𝑓' 詳しくは前田さんのパートで!
  43. 関連の話題

  44. 連続と離散が混在 • 従来 – 連続変数のみか離散変数のみ • 連続変数を離散化してから離散変数用の方法を使う • 情報のロス •

    離散化の仕方の恣意性 • 最近 – 条件付き独立独立性に基づく方法 (e.g., Tsagris et al., 2018) – LiNGAM + (特定の) Logistic model (Wenjuan et al., 2018) 44
  45. 仮定の評価と統計的信頼性評価 • 仮定の評価 – 誤差変数の独立性 (Entner et al., 2011) –

    変数の(誤差の)ガウス性の検定 (Moneta et al., 2013) • 統計的信頼性の評価 (Komatsu et al., 2010) 45 x2 x3 x1 x3 x1 ブートストラップ確率=0.23 ブートストラップ確率=0.18 例えば、 ブートストラップ確率>0.05 を残す
  46. 推定結果の評価 (Biza et al., 2020) • 真の因果グラフはわからないが(ので)、評価したい • アイデア: –

    「因果グラフがうまく推定できる」→ 「Markov blanketがうまく推定できる」 → 「Markov blanketだけでうまく予測できる」 – 「うまく予測できない」→「DAGがうまく推定できてない」と考える – 交差確認 • 課題: – Markov blanketの変数を見逃すと予測が悪くなるが – 余分な変数が含まれていても機械学習が自動的にカットしてしまう 46 Wikipediaより
  47. まとめ 47

  48. まとめ • 統計的因果推論 – 因果グラフが領域知識で描ける場合はかなり成熟 – 描けない場合のデータによる支援が今後の鍵: 統計的因果探索 • 課題

    – 未観測共通原因 – 離散と連続の混在 – データによる支援はどこまでできるか • 関連論文: https://sites.google.com/view/sshimizu06/lingam/lingampapers 48 DirectLiNGAM.IPYNB - Colaboratory https://colab.research.google.com/drive/1HpYSJWbigGo4rMDr_UD5D1jyG1ZTCxh8?hl=ja JNQPSUOVNQZBTOQ JNQPSUQBOEBTBTQE JNQPSUMJOHBN GSPNHSBQIWJ[JNQPSU%JHSBQI OQTFU@QSJOUPQUJPOT QSFDJTJPO TVQQSFTT5SVF TFFE FQTF σʔλΛ࡞੒ EFGNBLF@HSBQI EBH  E%JHSBQI FOHJOFEPU JGDPFGJOEBH GPSGSPN@ UP DPFGJO[JQ EBH<GSPN> EBH<UP> EBH<DPFG>  EFEHF GY\GSPN@^ GY\UP^ MBCFMG\DPFGG^ FMTF GPSGSPN@ UPJO[JQ EBH<GSPN> EBH<UP>  EFEHF GY\GSPN@^ GY\UP^ MBCFM SFUVSOE x3 x0 3.00 x2 6.00 x5 4.00 x4 8.00 x1 3.00 1.00 2.00 EBH\ GSPN<      > UP<      > DPFG<      > ^ NBLF@HSBQI EBH Python toolbox https://github.com/cdt15/lingam
  49. References • T. N. Maeda, S. Shimizu. RCD: Repetitive causal

    discovery of linear non-Gaussian acyclic models with latent confounders. In Proc. 23rd International Conference on Artificial Intelligence and Statistics (AISTATS2020), 2020 • F. H. Messerli, Chocolate Consumption, Cognitive Function, and Nobel Laureates. New England Journal of Medicine, 2012. • T. Rosenström, M. Jokela, S. Puttonen, M. Hintsanen, L. Pulkki-Råback, J. S. Viikari, O. T. Raitakari and L. Keltikangas- Järvinen. Pairwise measures of causal direction in the epidemiology of sleep problems and depression. PLoS ONE, 7(11): e50841, 2012 • A. Moneta, D. Entner, P. O. Hoyer and A. Coad. Causal inference by independent component analysis: Theory and applications. Oxford Bulletin of Economics and Statistics, 75(5): 705-730, 2013. • O. Boukrina and W. W. Graves. Neural networks underlying contributions from semantics in reading aloud. Frontiers in Human Neuroscience, 7:518, 2013. • P. Campomanes, M. Neri, B. A.C. Horta, U. F. Roehrig, S. Vanni, I. Tavernelli and U. Rothlisberger. Origin of the spectral shifts among the early intermediates of the rhodopsin photocycle. Journal of the American Chemical Society, 136(10): 3842-3851, 2014. • M. J. Kusner, J. Loftus, C. Russell, R. Silva. Counterfactual Fairness. In Advances in Neural Information Processing Systems 30 (NIPS 2017), 2017 • P. Blöbaum and S. Shimizu. Estimation of interventional effects of features on prediction. In Proc. 2017 IEEE International Workshop on Machine Learning for Signal Processing (MLSP2017), pp. xx--xx, Tokyo, Japan, 2017. 49
  50. References • S. Galhotra, R. Pradhan, B. Salimi. Explaining Black-Box

    Algorithms Using Probabilistic Contrastive Counterfactuals. In Proc. the 2021 International Conference on Management of Data (SIGMOD2021), 2021 • J. Pearl. Causality. Cambridge University Press, 2001. • P. Spirtes, C. Glymour, R. Scheines. Causation, Prediction, and Search. Springer, 1993. • S. Shimizu, P. O. Hoyer, A. Hyvärinen and A. Kerminen. A linear non-gaussian acyclic model for causal discovery. Journal of Machine Learning Research, 7: 2003--2030, 2006 • S. Shimizu. LiNGAM: Non-Gaussian methods for estimating causal structures. Behaviormetrika, 41(1): 65--98, 2014 • J. Pearl and T. Verma. In Proc. 2nd International Conference on Principles of Knowledge Representation and Reasoning, 1991 • P. Spirtes and C. Glymour. Social Science Computer Review, 1991 • D. M. Chickering. Journal of Machine Learning Research, 2002 • P. Spirtes, C. Meek, T. S. Richardson. Causal Inference in the Presence of Latent Variables and Selection Bias. In Proc. 11th Conf. on Uncertainty in Artificial Intelligence (UAI1995), 1995. • D. Malinsky and P. Spirtes. Causal Structure Learning from Multivariate Time Series in Settings with Unmeasured Confounding. In Proc. 2018 ACM SIGKDD Workshop on Causal Discovery (KDD-CD), 2018. • T. S. Richardson. A Discovery Algorithm for Directed Cyclic Graphs. In Proc. 12th Conf. on Uncertainty in Artificial Intelligence (UAI1996), 1996. 50
  51. References • S. Shimizu, P. O. Hoyer, A. Hyvärinen and

    A. Kerminen. A linear non-gaussian acyclic model for causal discovery. Journal of Machine Learning Research, 7: 2003--2030, 2006 • M. H. Maathuis, M. Kalisch, and P. Bühlmann. Estimating high-dimensional intervention effects from observational data. Annals of Statistics, 2009 • D. Malinsky and P. Spirtes, Estimating bounds on causal effects in high-dimensional and possibly confounded systems. International J. Approximate Reasoning, 2017 • G. Darmois. Analyse generale des liaisons stochastiques. Rev.Inst.Intern.Stat, 1953 • V. P. Skitivic. On a property of the normal distribution. Dokl. Akad. Nauk SSSR, 1953 • C. Jutten and J. Herault, Blind separation of sources, part I: An adaptive algorithm based on neuromimetic architecture. Signal processing, 1991. • P. Comon, Independent component analysis, a new concept?. Signal processing, 1994. • S. Shimizu, T. Inazumi, Y. Sogawa, A. Hyvärinen, Y. Kawahara, T. Washio, P. O. Hoyer and K. Bollen. DirectLiNGAM: A direct method for learning a linear non-Gaussian structural equation model. Journal of Machine Learning Research, 12(Apr): 1225--1248, 2011. • A. Hyvärinen and S. M. Smith. Pairwise likelihood ratios for estimation of non-Gaussian structural equation models. Journal of Machine Learning Research, 14(Jan): 111--152, 2013. • A. Hyvarinen. New approximations of differential entropy for independent component analysis and projection pursuit, In Advances in Neural Information Processing Systems 12 (NIPS1999), 1999 51
  52. References • H. Zhou. The adaptive lasso and its oracle

    properties. Journal of the American Statistical Association, 2006. • J. Peters and P. Bühlmann. Identifiability of Gaussian structural equation models with equal error variances. Biometrika, 101(1): 219--228, 2014. • K. Genin, C. Mayo-Wilson. Statistical Decidability in Linear, Non-Gaussian Causal Models, The 2020 NeurIPS Workshop on Causal Discovery and Causality-Inspired Machine Learning, 2020. • Y. S. Wang and M. Drton. High-dimensional causal discovery under non-Gaussianity. Biometrika, 2020. • P. O. Hoyer, D. Janzing, J. Mooij, J. Peters and B. Schölkopf. Nonlinear causal discovery with additive noise models. In Advances in Neural Information Processing Systems 21 (NIPS2008), pp. 689-696, 2009. • K. Zhang and A. Hyvärinen. Distinguishing causes from effects using nonlinear acyclic causal models. In JMLR Workshop and Conference Proceedings, Causality: Objectives and Assessment (Proc. NIPS2008 workshop on causality), 6: 157-164, 2010. • J. Peters, J. Mooij, D. Janzing and B. Schölkopf. Causal discovery with continuous additive noise models. Journal of Machine Learning Research, 15: 2009--2053, 2014. • S. Athey, and G. Imbens. Recursive partitioning for heterogeneous causal effects. Proceedings of the National Academy of Sciences, 2016. • Swanson, Norman R and Granger, Clive WJ. Impulse response functions based on a causal approach to residual orthogonalization in vector autoregressions. Journal of the American Statistical Association, 1997. 52
  53. References • H. Zhou. The adaptive lasso and its oracle

    properties. Journal of the American Statistical Association, 2006. • A. Hyvärinen, K. Zhang, S. Shimizu, P. O. Hoyer. Estimation of a structural vector autoregressive model using non- Gaussianity. Journal of Machine Learning Research, 11(May): 1709−1731, 2010. • B. Huang, K. Zhang, and B. Schölkopf. Identification of time-dependent causal model: a Gaussian process treatment. In Proc. 24th International Joint Conference on Artificial Intelligence (IJCAI2015), pp. xx-xx, Buenos Aires, Argentina, 2015. • M. Gong, K. Zhang, B. Schölkopf, D. Tao, and P. Geiger. Discovering temporal causal relations from subsampled data. In Proc. 32nd International Conference on Machine Learning (ICML2015), pp. xx-xx, Lille, France, 2015. • M. Gong, K. Zhang, B. Schölkopf, C. Glymour, and D. Tao. Causal discovery from temporally aggregated time series. In Proc. 33rd Conference on Uncertainty in Artificial Intelligence (UAI2017), pp. xx-xx, Sydney, Australia, 2017. • G. Lacerda, P. Spirtes, J. Ramsey and P. O. Hoyer. Discovering cyclic causal models by independent components analysis. In Proc. 24th Conf. on Uncertainty in Artificial Intelligence (UAI2008), pp. 366-374, Helsinki, Finland, 2008. • P. O. Hoyer, S. Shimizu, A. Kerminen and M. Palviainen. Estimation of causal effects using linear non-gaussian causal models with hidden variables. International Journal of Approximate Reasoning, 49(2): 362-378, 2008. • S. Salehkaleybar, A. Ghassami, N. Kiyavash, K. Zhang. Learning Linear Non-Gaussian Causal Models in the Presence of Latent Variables. Journal of Machine Learning Research, 21:1-24, 2020. 53
  54. References • S. Shimizu, P. O. Hoyer and A. Hyvärinen.

    Estimation of linear non-Gaussian acyclic models for latent factors. Neurocomputing, 72: 2024-2027, 2009. • Y. Zeng, S. Shimizu, R. Cai, F. Xie, M. Yamamoto, Z. Hao. Causal Discovery with Multi-Domain LiNGAM for Latent Factors. Arxiv preprint arXiv:2009.09176, 2020. • Zheng, Xun and Aragam, Bryon and Ravikumar, Pradeep K and Xing, Eric P. DAGs with NO TEARS: Continuous Optimization for Structure Learning, Part of Advances in Neural Information Processing Systems 31 (NeurIPS 2018), 2018 • S. Shimizu and A. Hyvärinen. Discovery of linear non-gaussian acyclic models in the presence of latent classes. In Proc. 14th Int. Conf. on Neural Information Processing (ICONIP2007), pp. 752-761, Kitakyushu, Japan, 2008. • R. Cai, J. Qiao, K. Zhang, Z. Zhang, Z. Hao. Causal Discovery with Cascade Nonlinear Additive Noise Models. In Proc. 28th International Joint Conference on Artificial Intelligence (IJCAI 2019), pp. xx--xx, Macao, China, 2019. • K. Zhang, J. Zhang, B. Huang, B. Schölkopf, and C. Glymour. On the identifiability and estimation of functional causal models in the presence of outcome-dependent selection. In Proc. 32nd Conf. on Uncertainty in Artificial Intelligence (UAI2016), New York City, NY, USA, 2016. • J. D. Ramsey, S. J. Hanson and C. Glymour. Multi-subject search correctly identifies causal connections and most causal directions in the DCM models of the Smith et al. simulation study. NeuroImage, 58(3): 838--848, 2011. • S. Shimizu. Joint estimation of linear non-Gaussian acyclic models. Neurocomputing, 81: 104-107, 2012. 54
  55. References • M. Tsagris, G. Borboudakis, V. Lagani, I. Tsamardinos.

    Constraint-based causal discovery with mixed data. International Journal of Data Science and Analytics, 2018. • W. Wenjuan, F. Lu, and L. Chunchen. Mixed Causal Structure Discovery with Application to Prescriptive Pricing. In Proc. 27th International Joint Conference on Artificial Intelligence (IJCAI2018), pp. xx--xx, Stockholm, Sweden, 2018. • D. Entner and P. O. Hoyer. Discovering unconfounded causal relationships using linear non-Gaussian models. New Frontiers in Artificial Intelligence, Lecture Notes in Computer Science, 6797: 181-195, 2011. • Y. Komatsu, S. Shimizu and H. Shimodaira. Assessing statistical reliability of LiNGAM via multiscale bootstrap. In Proc. International Conference on Artificial Neural Networks (ICANN2010), pp.309-314, Thessaloniki, Greece, 2010. • K. Biza, I. Tsamardinos, S. Triantafillou. Tuning causal discovery algorithms. In Proc. Probabilistic Graphical Models (PGM2020), 2020. • K. Chalupka, F. Eberhardt, and P. Perona. Causal feature learning: an overview. Behaviormetrika, 44(1): 137–164, 2017 55
  56. おまけ 56

  57. 統計的因果探索の方法 57

  58. 基本アイデア • 因果グラフの構造に仮定をおく – 非巡回有向グラフ !"#$%&'なし(すべて観測されている) • その場合に、観測変数の分布に成り立つはずの特性を理論 的に導く •

    実際にデータで成り立つ特性と照らし合わせて、つじつまの (最も)合うグラフを推測 58
  59. 因果探索の方法その1: 条件付き独立性を利用する方法 関数形や分布に仮定をおかずに どこまでいけるか? 59 Spirtes, Glymour, Shceines, 2001 (2nd

    ed)
  60. 非巡回有向グラフを探索 • 3変数の場合の因果グラフ候補 • 識別性 – データから正しいグラフを見つけられるのか? • 計算 –

    総当たりで探すのは困難(8変数ぐらいで不可能に) 60
  61. 同じ条件付き独立性を与える 因果グラフの集合: 同値類 • 非巡回有向グラフ • 有向辺の有無は共通 • V字合流は共通 61

    x3 x1 x2 x3 x1 x2 x3 x1 x2 x3 x2 x1 V字合流 x2とx3は独立 しかし, x1で条件づける と従属 x3 x1 x2
  62. ⼀意に決まる例: V字合流がある場合 62 x3 x1 x2 データXが ⽣成される 正 復元できる

    (識別できる) x3 x1 x2 ひとつだけ データで成り⽴つ 条件付き独⽴性 のみ 同じ条件付き独⽴性を 与える因果グラフを列挙 V字合流 「𝑥' と𝑥( は独立」
  63. 2種類の探索アプローチ • 制約ベースの探索 – 制約: 観測変数の条件付き独立性 • 仮説検定で有無 – 制約を満たす因果グラフ

    • スコアベースの探索 – 制約を全体的に最も満たす因果グラフ – 情報量基準(BICなど)で評価 • 目的 – 正しい因果グラフを含む同値類を見つける 63
  64. 制約ベースの推定法 • PCアルゴリズム (Spirtes & Glymour, 1991) – スケルトンの推定 •

    𝑥と𝑦が独立 | S となるような変数集合S(空ok)があれば辺なし – 残った辺に向きをつける • V字合流 – 構造から示唆される有向辺 (Meek, 1995): これ以上は無理 • 例: 非巡回になるように 64 𝑥 𝑦 𝑧 𝑥 𝑦 𝑧 初期グラフ 𝑥と𝑦独立 | 空 𝑥 𝑦 𝑧 𝑧で条件づけると𝑥と𝑦 が独立でない 検定で 独立性を 判定 V字合流
  65. スコアベースの推定法 • GESアルゴリズム (Chickering, 2002) • 貪欲法 – 改善しなくなるまで有向辺を一本ずつ足していく –

    改善しなくなるまで有向辺を一本ずつ減らしていく • 同値類ごとに評価: BICなど • 大域的最適解に達する 65
  66. 因果探索の方法その2: 関数形や分布に追加の仮定をする方法 一意に識別できる条件は? 66

  67. 識別可能: 方向が違えば分布が違う 67 𝑒& , 𝑒' がガウス 𝑒& , 𝑒'

    が非ガウス (一様分布) モデル1: モデル2: x1 x2 𝑥" 𝑥# e1 e2 𝑥" 𝑥# e1 e2 x1 x2 x1 x2 x1 x2 相関係数は どれも0.8 𝑥5 = 𝑒5 𝑥/ = 0.8𝑥5 + 𝑒/ 𝑥5 = 0.8𝑥/ + 𝑒5 𝑥/ = 𝑒/ var(𝑥" ) = var(𝑥# )=1
  68. ( ) ) var( var ) var( ) , cov(

    1 ) var( ) , cov( , 1 2 12 2 1 1 2 12 1 1 1 2 2 ) 1 ( 2 1 2 x x b x x x x b x x x x x r x x - þ ý ü î í ì - = - = !回帰$ % & ' 2 1 21 2 1 1 1 2 2 ) 1 ( 2 1 2 ) var( ) , cov( , e x b x x x x x x r x x = - = - = !回帰$ % & 因果的順序の同定 (2変数の場合) ii) は外生変数でない i) は外生変数 ( ) 0 21 2 1 21 2 1 1 ¹ + = = b e x b x e x ) ( 1 1 e x = 1 x ( ) 2 2 12 2 12 1 0 e x b x b x = ¹ + = !独立$%& ' ) 1 ( 2 1 r x !独立 $ ) 1 ( 2 1 r x 1 e 1 e 68 残差
  69. ( ) 1 1 2 2 1 1 2 12

    1 1 1 2 2 ) 1 ( 2 1 2 ) var( var ) var( ) , cov( 1 ) var( ) , cov( , e x x x x x x b x x x x x r x x - þ ý ü î í ì - = - = に回帰して を ( ) 2 2 12 1 2 12 1 0 e x b e x b x = ¹ × + = Darmois-Skitovitch theorem: 変数 と を次のように定義する: Darmois-Skitovitch theorem (Darmois, 1953; Skitovitch, 1953) ii) は外生変数でない 1 x !独立$%& ' ) 1 ( 2 1 r x å å = = = = p j j j p j j j e a x e a x 1 2 2 1 1 1 , 1 x ここで𝑒& は独立な確率変数. もし𝑎"!𝑎#! ≠ 0となるような 非ガウスな𝑒! があれば、 𝑥" と𝑥# は独立でない 1 12 b 2 x 69
  70. LiNGAMモデルの推定 70

  71. 非ガウスの仮定を緩める • 誤差変数の分散が既知またはすべて等しければ、誤差変数 がガウス分布でも識別可能 (Peters & Buhlman, 2014) • (識別性については)誤差の分布はガウス以外なら離散でも

    (e.g., ベルヌーイでも)よい (Genin & Mayo-Wilson, 2020) • 「サンプルサイズ > 変数の数」の場合のDirectLiNGAMアルゴ リズム (Wang & Drton, 2020) 71
  72. 時系列モデルと巡回モデル 72

  73. 時系列 • サブサンプリング: 低解像度データ – SVAR: 構造型自己回帰モデル (Swanson & Granger,

    1997) – 誤差が非ガウス独立なら識別可能 (Hyvarinen et al., 2010) • インパルス応答が計算可能なことがうれしい (Moneta et al., 2013) • 非定常 – 差分が定常と仮定 (Moneta et al., 2013) – 平均や係数が時間的に滑らかに変化 (Huang et al., 2015) 73 ) ( ) ( ) ( 0 t t t k e x B x + - = å = t t t
  74. 他にも非ガウス独立だとできること • 仮定 – 平衡状態にある – 誤差の分布がすべて異なる • サブサンプリングの「間」を復元できる十分条件 (Gong

    et al., 2015) – 自分から自分への係数は正 – or 誤差の分布が非対称 • 測定が「和」でも元の関係を復元できる十分条件 (Gong et al., 2017) – 誤差の分布が非対称 74
  75. 未観測共通原因 75

  76. 線形の場合は 独立としても一般性を失わない 76 独立な潜在共通原因 i i j j ij Q

    q q iq i i e x b f x + + + = å å ¹ =1 l µ x1 x2 2 e 1 e 1 f e 2 f e x1 x2 2 e 1 e 1 : 1 f e f 2 : 2 f e f 1 f 2 f 従属な潜在共通原因 ú û ù ê ë é ú û ù ê ë é = ú û ù ê ë é ú û ù ê ë é = ú û ù ê ë é 2 1 22 21 11 22 21 11 2 1 0 0 2 1 f f a a a e e a a a f f f f
  77. 関連の話題

  78. 他の潜在変数モデル • 潜在因子間の因果探索 (Shimizu et al., 2009) – 複数データセット (Zeng

    et al., 2020)に共通する因子と特有の因子を見つける • 潜在クラスがある場合 (Shimizu et al., 2008) • 潜在中間変数 (Cai et al., 2019) : 非線形 • Selection bias (Zhang et al., 2016) 78 目的関数 = 尤度+スパース正則化項目 s.t. 非巡回制約 非巡回制約 (Zheng et al., 2018): ℎ 𝐵 = tr 𝑒'∘' − 因子数 𝒇(,) = 𝐵(,) 𝒇(,)+ 𝝐(,) 𝒙(,) = 𝐺(,) 𝒇(,)+ 𝒆(,) を用いて連続最適化で解く
  79. 複数データセット (含む実験データ) (Ramsey et al. 2011, Shimizu, 2012) • c個の集団に対するモデル:

    – 共通の因果的順序:分布と係数は違ってもよい • 類似性を利用して精度向上 – 「fMRI+脳」の模擬データで精度が大幅に向上 (Ramsey et al., 2011) 79 ( ) c g e x b x g i i k j k g j g ij g i ,..., 1 ) ( ) ( ) ( ) ( ) ( ) ( = + = å < x3 x1 x2 e1 e2 e3 4 -3 2 x3 x1 x2 e1 e2 e3 -0.5 5 集団1 集団2
  80. 仮定の評価 (Entner et al., 2011) • 誤差変数の独立性 – 定理: 「未観測共通原因がない」

    ⟺ 「LiNGAMモデルが成立」 – LiNGAMによって推定される ̂ 𝑒) の独立性検定 • 変数の(誤差の)ガウス性の検定 80 x2 x1 f1 2 1 21 1 21 2 1 1 11 1 e f x b x e f x + + = + = l l e1 e2
  81. 統計的信頼性の評価 • 推定結果の統計的信頼性評価が必要 – 標本変動 – 非ガウス性が小さいとモデルが識別不能に近づく • ブートストラップ法によるアプローチ (Komatsu

    et al., 2010) 81 x2 x3 x1 x3 x1 ブートストラップ確率=0.23 ブートストラップ確率=0.18 例えば、 ブートストラップ確率>0.05 を残す
  82. まとめ 82

  83. 課題1: 未観測共通原因をどう懐柔するか • 現状: 領域知識により特定し観測する • どこまでデータにより支援できるか? – 例: 線形性と非ガウス連続分布

    (Hoyer et al., 2008; Salehkaleybar et al., 2020) • 信号処理の理論: 独立成分分析 • 機械学習の理論: カーネル法 83 チョコ 賞 ? チョコ 賞 or GDP GDP チョコ 賞 or GDP 未観測共通原因 未観測共通原因 未観測共通原因 因果グラフ
  84. 課題2: 変数をどうとるか • マクロ変数とミクロ変数 – 国レベルと個人レベル – 結果は一致するのか • 領域知識の利用

    – (論文)テキストデータ等から抽出 • より一般に、データによる支援は可能? – 介入によるアルゴリズム (Chalupka et al. 2017) 84 Messerli, (2012) Chalupka et al. (2017)