Upgrade to Pro — share decks privately, control downloads, hide ads and more …

セミパラメトリックアプローチによる因果探索

Shohei SHIMIZU
October 07, 2021

 セミパラメトリックアプローチによる因果探索

2021年度知能情報学専攻コロキウム

Shohei SHIMIZU

October 07, 2021
Tweet

More Decks by Shohei SHIMIZU

Other Decks in Science

Transcript

  1. セミパラメトリックアプローチ
    による因果探索
    清水昌平
    滋賀大学データサイエンス学系
    理化学研究所革新知能統合研究センター

    View Slide

  2. 統計的因果探索とは
    • データを用いて因果グラフを推測するための方法論
    2
    Maeda and Shimizu (2020)
    仮定
    推測
    • 関数形
    • 分布
    • 未観測共通原因の有無
    • 非巡回 or 巡回 など
    データ 因果グラフ

    View Slide

  3. The Seven Tools of Causal Inference, with
    Reflections on Machine Learning (Pearl, 2019)
    1. Encoding causal assumptions:
    Transparency and testability
    2. Do-calculus and the control of confounding
    3. The algorithmitization of counterfactuals
    4. Mediation analysis and the assessment of
    direct and indirect effects
    5. Adaptability, external validity, and sample
    selection bias
    6. Recovering from missing data
    7. Causal discovery
    3
    ノンパラ因果探索
    セミパラ因果探索

    View Slide

  4. 統計的因果推論では因果グラフが要(かなめ)
    • データから介入効果を推定
    – チョコ消費量を変えると
    ノーベル賞受賞者の数は
    どのくらい増えるのか(減るのか)
    • 介入効果を推定するために調整
    – 調整すべき変数の選択に
    因果グラフが必要 (e.g., バックドア基準)
    4
    Messerli, (2012), New England Journal of Medicine
    チョコ 賞
    GDP
    !
    "
    #
    $




    (

    チョコレート消費量

    View Slide

  5. 因果グラフをどう描くか
    • 現状: 分析者が領域知識を基に描く
    • これから: 領域知識とデータを両方使って因果グラフを描く
    • 因果探索: データから描く
    5
    チョコ 賞
    GDP
    チョコ 賞
    ?
    チョコ 賞
    or
    GDP GDP
    チョコ 賞
    or
    GDP

    View Slide

  6. 因果探索の適用例
    https://www.shimizulab.org/lingam/lingampapers/applications-and-tailor-made-methods
    6
    疫学 経済学
    Sleep
    problems
    Depression
    mood
    Sleep
    problems
    Depression
    mood ?
    or
    OpInc.gr(t)
    Empl.gr(t)
    Sales.gr(t)
    R&D.gr(t)
    Empl.gr(t+1)
    Sales.gr(t+1)
    R&D(.grt+1)
    OpInc.gr(t+1)
    Empl.gr(t+2)
    Sales.gr(t+2)
    R&D.gr(t+2)
    OpInc.gr(t+2)
    (Moneta et al., 2013)
    (Rosenstrom et al., 2012)
    神経科学 化学
    (Campomanes et al., 2014)
    (Boukrina & Graves, 2013)

    View Slide

  7. 因果探索は因果推論におけるチャレンジ
    • 古典的な方法は条件付き独立性を利用 (Pearl 2001; Spirtes 1993)
    – 関数形に仮定をおかない
    – 同値類を見つけることが限界
    • 限界を超えるには、追加の仮定が必要
    – 関数形や分布に仮定
    – 一意に識別可能 or より小さい同値類
    • LiNGAMは一例 (Shimizu et al., 2006; Shimizu, 2014)
    – 独立性を利用するための非ガウス連続分布の仮定
    – 同値類を超えて一意に識別可能
    7

    View Slide

  8. 統計的因果探索の方法
    8

    View Slide

  9. フレームワーク
    • 構造的因果モデル (Pearl, 2001)
    • 因果モデルに仮定をおき、
    その中でデータとつじつまの合うモデルを探す
    – 典型例1:
    • 非巡回有向グラフ
    • 潜在共通原因なし(すべて観測されている)
    – 典型例2:
    • 非巡回有向グラフ
    • 潜在共通原因あり
    9
    x3
    x1
    e3
    e1
    x2 e2
    𝑥!
    = 𝑓!
    (𝑥!
    の親, 𝑒!
    )
    誤差変数

    View Slide

  10. 因果探索の方法その1:
    ノンパラメトリックアプローチ
    関数形や分布に仮定をおかずに
    どこまでいけるか?
    10
    Spirtes, Glymour, Shceines, 2001 (2nd ed)

    View Slide

  11. 関数形や分布には仮定をおかないアプローチ
    1. 因果グラフに仮定をおく
    – 非巡回有向グラフ
    – 未観測の!"#$なし(すべて観測されている)
    2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ
    11
    x y x y x y
    「データでxとyが独立」なら、一番右の(c)を選ぶ
    (a)と(b)の区別はつかない(一意に決まらない): 同値類
    3つの候補
    (a) (b) (c)

    View Slide

  12. ノンパラアプローチの推定原理
    • 因果的マルコフ条件 (Pearl & Verma, 1991)
    – 各変数 𝑥!
    は、親で条件づけると非子孫と独立
    • 忠実性
    – 変数間の独立性・条件付き独立性の有無は、
    グラフ構造のみによって決まる(ことにするための仮定)
    12
    x3
    x1
    e3
    e1
    x2 e2
    「𝑥"
    と𝑥#
    が独立 | 𝑥!

    のみ

    View Slide

  13. 2種類の探索アプローチ
    • 制約ベースの探索
    – 制約: 観測変数の条件付き独立性
    • 仮説検定で有無
    – 制約を満たす因果グラフを探索
    • PCアルゴリズム (Spirtes & Glymour,
    1991)
    • SATソルバー (Triantafillou et al., 2010)
    • スコアベースの探索
    – 制約を全体的に最も満たす
    因果グラフを探索
    • 情報量基準(BICなど)で評価
    – 貪欲法 (Chickering, 2002)
    – 非巡回制約と連続最適化 (Zheng et
    al., 2018)
    13
    • 目的:正しい因果グラフを含む同値類を見つける
    • ノンパラではあるが、検定や情報量規準を使うために線形ガウスを仮定することが多い

    View Slide

  14. 拡張など
    • 潜在(未観測)共通原因を含めた同値類 (Spirtes et al., 1995)
    • 時間情報の利用 (Malinsky & Spirtes, 2018)
    • 巡回グラフを含めた同値類 (Richardson, 1996)
    • 介入効果の「下限」 (Maathuis et al., 2009; Malinsky & Spirtes, 2017)
    14
    x y

    w z
    x y
    w z
    x y
    f1
    w z
    f2
    F. Eberhardt CRM Workshop 2016より

    View Slide

  15. 因果探索の方法その2:
    セミパラメトリックアプローチ
    一意に識別できる条件は?
    15

    View Slide

  16. 関数形や分布にも仮定を入れてみる「と」
    • 条件付き独立性以外にも利用可能な情報がある
    • 例えば、線形性+非ガウス連続分布
    16
    x1
    x2
    x1
    x2
    観測変数x1,x2の
    分布が違う
    (条件付き独立性に違いはない)

    View Slide

  17. LiNGAMモデル
    (Shimizu, Hyvarinen, Hoyer & Kerminen, 2006)
    • Linear Non-Gaussian Acyclic Model (線形非ガウス非巡回モデル):
    ここで
    – 𝑘 𝑖 : 𝑥"
    の因果的(半)順序 (topological order)
    – 誤差変数 𝑒"

    • 非ガウス連続
    • 互いに独立
    • データ𝑋から係数𝑏!$
    と順序𝑘 𝑖 が識別可能(一意に推定可能)
    17
    or
    𝑥! 𝑥#
    𝑥$
    因果グラフ
    𝑥!
    = '
    % $ &%(!)
    𝑏!$
    𝑥$
    + 𝑒$ 𝒙 = 𝐵𝒙 + 𝒆
    𝑒$
    𝑒! 𝑒#
    𝑏#!
    𝑏#$
    𝑏!$

    View Slide

  18. 具体的には、非ガウス性と独立性をどう使うか?
    18
    x1
    x2
    e1
    e2
    正しいモデル
    結果x2を原因x1に回帰 原因x1を結果x2に回帰
    2
    1
    21
    2
    1
    1
    1
    2
    2
    )
    1
    (
    2 )
    var(
    )
    ,
    cov(
    e
    x
    b
    x
    x
    x
    x
    x
    x
    r
    =
    -
    =
    -
    =
    は独立
    と )
    1
    (
    2
    1
    1
    )
    ( r
    e
    x =
    残差
    ( )
    )
    var(
    var
    )
    var(
    )
    ,
    cov(
    1
    )
    var(
    )
    ,
    cov(
    2
    1
    21
    1
    2
    2
    1
    21
    2
    2
    2
    1
    1
    )
    2
    (
    1
    x
    x
    b
    e
    x
    x
    x
    b
    x
    x
    x
    x
    x
    r
    -
    þ
    ý
    ü
    î
    í
    ì
    -
    =
    -
    =

    と )
    2
    (
    1
    2
    1
    21
    2
    )
    ( r
    e
    e
    b
    x +
    =
    2
    e
    従属
    ガウスだと
    無相関=独立
    𝑥)
    = 𝑒)
    𝑥"
    = 𝑏")
    𝑥)
    + 𝑒" 𝑏!" ≠ 0

    View Slide

  19. LiNGAMモデルの推定
    19

    View Slide

  20. DirectLiNGAMアルゴリズム
    (Shimizu et al., 2011)
    • 因果的順序𝑘(𝑖)の上から下へ順に推定
    – 1番上を見つけて、残差を計算
    – 残差もLiNGAMモデル: 因果関係は変わらない
    • p>nの場合への拡張 (Wang & Drton, 2020)
    • 並列化+GPUで高速化 (Shahbazinia et al., 2021)
    20
    ú
    ú
    ú
    û
    ù
    ê
    ê
    ê
    ë
    é
    +
    ú
    ú
    ú
    û
    ù
    ê
    ê
    ê
    ë
    é
    ú
    ú
    ú
    û
    ù
    ê
    ê
    ê
    ë
    é
    -
    =
    ú
    ú
    ú
    û
    ù
    ê
    ê
    ê
    ë
    é
    2
    1
    3
    2
    1
    3
    2
    1
    3
    0
    3
    .
    1
    0
    0
    0
    5
    .
    1
    0
    0
    0
    e
    e
    e
    x
    x
    x
    x
    x
    x 0
    0
    0 0
    0
    0
    0
    0
    ú
    û
    ù
    ê
    ë
    é
    +
    ú
    û
    ù
    ê
    ë
    é
    ú
    û
    ù
    ê
    ë
    é
    -
    =
    ú
    û
    ù
    ê
    ë
    é
    2
    1
    )
    3
    (
    2
    )
    3
    (
    1
    )
    3
    (
    2
    )
    3
    (
    1
    0
    3
    .
    1
    0
    0
    e
    e
    r
    r
    r
    r 0 0
    )
    3
    (
    2
    r
    )
    3
    (
    1
    r
    x3 x1 x2
    0

    View Slide

  21. • 𝑥"
    は最初(𝑘 𝑥"
    = 1): どの変数の子にもならない
    • どの回帰残差とも独立な変数が最初の変数
    因果的順序が最初の変数の同定
    21
    定理1: 「 は その残差
    のどれとも独立 (𝑖は𝑗以外全部)」⟺ 「𝑥$
    は最初」
    ( )
    j
    j
    j
    i
    i
    j
    i
    x
    x
    x
    x
    x
    r
    )
    var(
    )
    cov(
    ,
    -
    =
    j
    x
    x3 x1 x2 x3 x1 x2

    View Slide

  22. 相互情報量の差=非ガウス性の差 (Hyvarinen & Smith, 2013)
    • どちらの向きの方が、説明変数と残差が独立か
    • 相互情報量の代わりに,1次元のエントロピーを計算
    • 𝐻を最大エントロピー近似 (Hyvarinen, 1999)
    22
    ÷
    ÷
    ø
    ö
    ç
    ç
    è
    æ
    ÷
    ÷
    ø
    ö
    ç
    ç
    è
    æ
    +
    -
    ÷
    ÷
    ø
    ö
    ç
    ç
    è
    æ
    +
    =
    -
    )
    (
    )
    (
    )
    (
    )
    (
    )
    ,
    (
    )
    ,
    (
    )
    2
    (
    1
    )
    2
    (
    1
    2
    )
    1
    (
    2
    )
    1
    (
    2
    1
    )
    2
    (
    1
    2
    )
    1
    (
    2
    1 r
    sd
    r
    H
    x
    H
    r
    sd
    r
    H
    x
    H
    r
    x
    I
    r
    x
    I
    𝐻(𝑢) ≈ 𝐻 𝑣 − 𝑘#
    [𝐸 log cosh 𝑢 − 𝛾]$−𝑘$
    [𝐸 𝑢 exp (−𝑢$/2 ]$

    View Slide

  23. 推測された因果グラフを評価する
    23

    View Slide

  24. モデル仮定の評価
    • 分析前
    – Gaussianity test
    – ヒストグラム
    • 連続変数?
    – 多重共線性
    – 領域知識
    • 分析後
    – 誤差(残差)の独立性評価
    • 例えば、HSIC (Gretton et al., 2005)
    – マルコフバウンダリーによる予測の良さで評価
    (Biza et al., 2020)
    – 複数のデータセットでの結果を比較
    – 領域知識による評価
    24
    Wikipediaより

    View Slide

  25. 統計的信頼性評価
    • 有向道や有向辺のブートストラップ確率
    • 例えば、閾値0.05を越えるものを解釈
    25
    x3
    x1
    … …
    x3
    x1
    x0
    x3
    x1
    x2
    x3
    x1
    99% 96%
    総合効果:
    20.9 10%
    LiNGAM Python package: https://github.com/cdt15/lingam

    View Slide

  26. モデルの仮定を緩める
    26

    View Slide

  27. 他の識別可能なモデル
    • 非線形 + “加法” 誤差 (Hoyer+08NIPS, Zhang+09UAI, Peters+14JMLR)
    • 𝑥# = 𝑓#(par(𝑥#)) + 𝑒#
    • 𝑥# = 𝑔#
    $"(𝑓#(par(𝑥#)) + 𝑒#)
    • 離散: ポワソンDAGモデルと拡張 (Park+18JMLR)
    • 離散と連続の混在: LiNGAM + ロジスティック“回帰”型モデル
    – 2変数の識別性の議論 (Wenjuan+18IJCAI)
    – 数値実験では多変数でも
    27
    𝑥# = 7
    1 ∑%&'()!)
    𝑏#+𝑥+ + 𝑒# > 𝑐
    0 otherwise
    , 𝑒#~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(0,1)

    View Slide

  28. 未観測共通原因
    28

    View Slide

  29. 未観測共通原因の存在を許すLiNGAM
    (Maeda & Shimizu, AISTATS2020)
    • 未観測共通原因のありそうな変数ペア
    • 未観測共通原因がない変数ペアの因果の向き
    29
    𝑥#
    𝑥!
    𝑓!
    𝑥$
    真 出力
    𝑥%
    𝑥#
    𝑥!
    𝑥$
    𝑥%
    𝑓#

    View Slide

  30. 非ガウス性と独立性を利用
    • 未観測共通原因があると、説明変数と残差は従属
    (Tashiro et al., 2014, NECO)
    – 共通原因をすべて含めていれば、独立になる
    • 鍵となる結果 (Maeda & Shimizu, AISTATS2020)
    – サブセットも含めてその変数セットを説明変数にすると
    残差と独立になるような変数セットを探す
    – そのような変数セットがあれば、そのセットの変数は祖先であり
    未観測共通原因もない
    • 非線形加法の場合は、未観測「中間変数」があっても従属
    (Maeda & Shimizu, UAI2021)
    30
    𝑥#
    𝑥!
    𝑓!
    !!
    !"
    ""
    !#
    !$
    "!
    !!
    𝑥# 𝑥!
    𝑓$

    View Slide

  31. 未観測共通原因のある場合
    (Hoyer, Shimizu, Kerminen & Palviainen, 2008; Salehkaleybar et al., 2020)
    • 未観測共通原因ありのLiNGAMもICA (独立成分分析)
    • ICAをかけて
    31
    𝒙 = 𝐵𝒙 + 𝛬𝒇 + 𝒆 𝒙 = (𝐼 − 𝐵)%# (𝐼 − 𝐵)%#𝛬
    𝒆
    𝒇
    ICA
    𝑥"
    𝑥!
    =
    1 0 𝜆""
    𝑏!" 1 𝜆!"
    𝑒"
    𝑒!
    𝑓"
    𝑥#
    𝑥!
    𝑓!
    𝑒!
    𝑒#
    𝑏"#
    𝜆"# 𝜆##
    𝑥"
    𝑥!
    =
    1 𝑏"! 𝜆""
    0 1 𝜆!"
    𝑒"
    𝑒!
    𝑓"
    𝑥#
    𝑥!
    𝑓!
    𝑒!
    𝑒#
    𝑏#"
    𝜆"# 𝜆##
    𝑥"
    𝑥!
    =
    1 0 𝜆""
    0 1 𝜆!"
    𝑒"
    𝑒!
    𝑓"
    𝑥# 𝑥!
    𝑓!
    𝑒!
    𝑒#
    𝜆"# 𝜆##
    独立成分

    View Slide

  32. 潜在因子のLiNGAM
    32

    View Slide

  33. 潜在因子のLiNGAM (Shimizu et al., 2009)
    • モデル:
    – 測定モデルの識別のために各潜在因子に 2つは“ピュア”な観測変数が必要
    (Silva et al., 2006; Xie et al., 2020)
    – このような潜在因子モデルをCausal representationと呼ぶ人もいる
    • “因子得点”を推定して因果グラフを推測
    33
    𝒇 = 𝐵𝒇+𝝐
    𝒙 = 𝐺𝒇+𝒆
    𝑥#
    𝑥"
    $
    𝑓#
    $
    𝑓"
    𝑥$
    𝑥%
    ?
    𝑥#
    𝑥"
    $
    𝑓#
    $
    𝑓"
    𝑥$
    𝑥%
    𝑦
    '
    𝒇 = 𝒈(𝒙)
    それっぽい??

    View Slide

  34. 複数データセットに共通な因子を見つける
    (Zeng et al., IJCAI2021)
    • モデル
    • 目的関数 = 尤度+スパース正則化項 s.t. 非巡回制約
    • 複数データセットからの特徴抽出と
    潜在因子の因果グラフ推測
    34
    𝒇(') = 𝐵(') 𝒇(')+ 𝝐(')
    𝒙(') = 𝐺(') 𝒇(')+ 𝒆(')
    𝑚 = 1, … , 𝑀
    !
    "
    !
    (#)
    !
    !
    (!)
    !
    $
    (!)
    !
    %
    (!)
    !
    &
    (!)
    ?
    !
    !
    ($)
    !
    $
    ($)
    !
    "
    !
    (!)
    !
    %
    (%)
    !
    &
    (&)
    ?
    !
    "
    #
    (!)
    !
    "
    #
    (#)
    !
    "
    #
    (#) = !
    "
    !
    (!)?
    非巡回制約 (Zheng et al., NeurIPS2018): ℎ 𝐵 = tr 𝑒,∘, − 因子数
    を用いて連続最適化で解く

    View Slide

  35. 時系列モデルと巡回モデル
    35

    View Slide

  36. 時系列
    • サブサンプリング: 「低解像度」データ
    – SVAR: 構造型自己回帰モデル (Swanson & Granger, 1997)
    – 非ガウス独立なら識別可能 (Hyvarinen et al., 2010)
    – サブサンプリングの「間」の復元 (Gong et al., 2015)
    • 未観測共通原因ありのSVAR
    – Malinsky and Spirtes (2018)
    – ノンパラ
    36
    )
    (
    )
    (
    )
    (
    0
    t
    t
    t
    k
    e
    x
    B
    x +
    -
    = å
    =
    t
    t
    t
    x1(t)
    x1(t-1)
    x2(t-1) x2(t)
    e1(t-1)
    e2(t-1)
    e1(t)
    e2(t)

    View Slide

  37. 巡回性のあるLiNGAMモデル
    (Lacerda et al., 2008)
    • モデル:
    • 必ず識別できるとは限らない
    • 識別性の条件
    – B=[bij]の固有値の絶対値が1以下
    (平衡状態にある)
    – ループ(閉路)が交わらない
    – 自己ループなし
    37
    i
    i
    j
    j
    ij
    i
    e
    x
    b
    x +
    = å
    ¹
    x1
    x2
    e1
    e2
    x5 e5
    x4
    e4
    x3
    e3
    or 𝒙 = 𝐵𝒙 + 𝒆
    あまり論文は出てない。これからか

    View Slide

  38. 変数をどうとるか
    38

    View Slide

  39. 変数をどうとるか
    • マクロ変数とミクロ変数
    – 国レベルと個人レベル
    – 結果は一致するのか
    • 領域知識の利用
    – (論文)テキストデータ等から抽出?
    • より一般に、データによる支援は可能??
    – 介入によるアルゴリズム (Chalupka et al. 2017)
    39
    Messerli, (2012)
    Chalupka et al. (2017)

    View Slide

  40. まとめ
    40

    View Slide

  41. まとめ
    • 統計的因果推論
    – 因果グラフが領域知識で描ける場合はかなり成熟
    – 描けない場合のデータによる支援が今後の鍵: 統計的因果探索
    • 今後
    – データ解析ツールとして
    • データによる支援はどこまでできるか
    – さまざまな仮定でどこまでできるか
    – 仮定の吟味
    • 変数をどうとるか
    – Causal AIとして??
    • 仮定+データ+Query -> 回答 (ができれば)
    41
    関連論文: https://www.shimizulab.org/lingam

    View Slide