Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2021年度日本計量生物学会年会チュートリアル「因果探索」の出だし

 2021年度日本計量生物学会年会チュートリアル「因果探索」の出だし

2021年度日本計量生物学会年会チュートリアル「因果探索」の出だし

Shohei SHIMIZU

April 23, 2021
Tweet

More Decks by Shohei SHIMIZU

Other Decks in Science

Transcript

  1. 統計的因果探索の基礎
    清水昌平
    滋賀大学データサイエンス学系
    理化学研究所革新知能統合研究センター
    2021年度日本計量生物学会年会・チュートリアル 「因果探索」

    View Slide

  2. チュートリアル 「因果探索」
    1. 清水: 統計的因果探索の基礎 70分
    2. 前田: 未観測共通原因が存在するときの因果グラフ推定 40分
    3. 井元: LiNGAMモデルに基づく遺伝子制御ネットワーク推定 40分
    2
    -- 休憩10分 --
    -- 休憩10分 --
    各パートで質疑の時間(約10分)を設けます

    View Slide

  3. 統計的因果探索の役割
    3

    View Slide

  4. 統計的因果探索とは
    • データを用いて因果グラフを推測するための方法論
    4
    Maeda and Shimizu (2020)
    仮定
    推測
    • 関数形
    • 分布
    • 未観測共通原因の有無
    • 非巡回 or 巡回 など
    データ 因果グラフ

    View Slide

  5. 統計的因果推論では因果グラフが要(かなめ)
    • データから介入効果を推定
    – チョコ消費量を変えると
    ノーベル賞受賞者の数は
    どのくらい増えるのか(減るのか)
    • 介入効果を推定するために調整
    – 調整すべき変数の選択に
    因果グラフが必要 (e.g., バックドア基準)
    5
    Messerli, (2012), New England Journal of Medicine
    チョコ 賞
    GDP
    !
    "
    #
    $




    (

    チョコレート消費量

    View Slide

  6. 因果グラフをどう描くか
    • 現状: 分析者が領域知識を基に描く
    • これから: 領域知識とデータを両方使って因果グラフを描く
    • 因果探索: データから描く
    6
    チョコ 賞
    GDP
    チョコ 賞
    ?
    チョコ 賞
    or
    GDP GDP
    チョコ 賞
    or
    GDP

    View Slide

  7. 因果探索の適用例
    https://sites.google.com/view/sshimizu06/lingam/lingampapers/applications-and-tailor-made-methods
    7
    疫学 経済学
    Sleep
    problems
    Depression
    mood
    Sleep
    problems
    Depression
    mood ?
    or
    OpInc.gr(t)
    Empl.gr(t)
    Sales.gr(t)
    R&D.gr(t)
    Empl.gr(t+1)
    Sales.gr(t+1)
    R&D(.grt+1)
    OpInc.gr(t+1)
    Empl.gr(t+2)
    Sales.gr(t+2)
    R&D.gr(t+2)
    OpInc.gr(t+2)
    (Moneta et al., 2013)
    (Rosenstrom et al., 2012)
    神経科学 化学
    (Campomanes et al., 2014)
    (Boukrina & Graves, 2013)

    View Slide

  8. 因果グラフが描けると他にもいろいろできる
    • 「公平」な機械学習モデルの構築 (Kusner et al., 2017)
    8
    公平にしたい変数Aの非子孫を説明変数にすればよい
    反事実的に公平: 公平にしたい変数Aに介入しても予測結果が変わらない

    View Slide

  9. 機械学習モデルの予測メカニズムの解析
    (Blobaum & Shimizu, 2017)
    • 介入して説明変数X1の値を変えると機械学習モデルの予測!
    𝑌はどう変わる?
    – X1を変えればX2, X3, X4も変わる
    – X1だけ違う値を入力してもダメ
    • 原因の確率などによる機械学習モデルの説明性 (Galhotra et al., 2021)
    9
    𝑥!
    𝑥" "
    𝑌
    𝑥#
    𝑥$
    𝑥!
    𝑥"
    𝑥#
    𝑥$
    𝑦
    予測モデル
    %
    𝑦
    予測メカニズムのモデル
    𝑥!
    𝑥"
    𝑥#
    𝑥$
    因果モデル
    𝑥! = 𝑓!(𝑥!
    の親, 𝑒!)
    (
    𝑦 = 𝑓 (𝑥", 𝑥#, 𝑥$, 𝑥%) 𝐸((
    𝑦|𝑑𝑜 𝑥! = 𝑐 )

    View Slide

  10. 因果探索は因果推論におけるチャレンジ
    • 古典的な方法は条件付き独立性を利用 (Pearl 2001; Spirtes 1993)
    – 関数形に仮定をおかない
    – 同値類を見つけることが限界
    • 限界を超えるには、追加の仮定が必要
    – 関数形や分布に仮定
    – 一意に識別可能 or より小さい同値類
    • LiNGAMは一例 (Shimizu et al., 2006; Shimizu, 2014)
    – 独立性を利用するための非ガウス連続分布の仮定
    – 同値類を超えて一意に識別可能
    10

    View Slide

  11. 統計的因果探索の方法
    11

    View Slide

  12. フレームワーク
    • 構造的因果モデル (Pearl, 2001)
    • 因果モデルに仮定をおき、
    その中でデータとつじつまの合うモデルを探す
    – 典型例1:
    • 非巡回有向グラフ
    • 潜在共通原因なし(すべて観測されている)
    – 典型例2:
    • 非巡回有向グラフ
    • 潜在共通原因あり
    12
    x3
    x1
    e3
    e1
    x2 e2
    𝑥!
    = 𝑓!
    (𝑥!
    の親, 𝑒!
    )
    誤差変数

    View Slide

  13. 因果探索の方法その1:
    条件付き独立性を利用する方法
    関数形や分布に仮定をおかずに
    どこまでいけるか?
    13
    Spirtes, Glymour, Shceines, 2001 (2nd ed)

    View Slide

  14. 関数形や分布には仮定をおかないアプローチ
    1. 因果グラフに仮定をおく
    – 非巡回有向グラフ
    – 未観測の!"#$なし(すべて観測されている)
    2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ
    14
    x y x y x y
    「データでxとyが独立」なら、一番右の(c)を選ぶ
    (a)と(b)の区別がつかない(一意に決まらない): 同値類
    3つの候補
    (a) (b) (c)

    View Slide

  15. 因果的マルコフ条件
    (Pearl & Verma, 1991)
    • 各変数 𝑥!
    は、親で条件づけると非子孫と独立
    – (親がいない場合は空集合で条件づける)
    • 因果グラフの構造と条件付き独立性の対応
    15
    x3
    x1
    e3
    e1
    x2 e2
    条件付き独立性
    「𝑥/
    と𝑥0
    が独立 | 𝑥&

    のみ
    因果グラフ

    View Slide

  16. 忠実性
    • 変数間の独立性・条件付き独立性の有無は、
    グラフ構造のみによって決まる(ことにするための仮定)
    • 「因果的マルコフ条件から導かれる独立性」のみが
    成り立つことを保証: 「例外」を排除して考える
    16
    𝑥& 𝑥'
    𝑥(
    1
    -1
    1
    ガウス分布だとすると、
    パラメータの値によっては独立に
    𝑥( = 𝑥& + 𝑥' + 𝑒(
    𝑥& = 𝑒&
    𝑥' = −𝑥& + 𝑒'
    cov(𝑥&
    , 𝑥(
    ) = 0

    View Slide

  17. 条件付き独⽴性を⽤いて探索
    17
    x3
    x1
    x2
    データで成り⽴つ条件付き
    独⽴性
    「𝑥/
    と𝑥0
    が独立 | 𝑥&

    データXが
    ⽣成される
    x3
    x1
    x2
    x3
    x1
    x2
    x3
    x1
    x2
    x3
    x1
    x2

    同じ条件付き独⽴性を
    与える因果グラフを列挙
    まとめる
    復元できない
    (識別できない)
    ここまで
    が限界
    のみ
    同値類

    View Slide

  18. 拡張など
    • 未観測共通原因を含めた同値類 (Spirtes et al., 1995)
    • 時間情報の利用 (Malinsky & Spirtes, 2018)
    • 巡回グラフを含めた同値類 (Richardson, 1996)
    • 介入効果の「下限」 (Maathuis et al., 2009; Malinsky & Spirtes, 2017)
    18
    x y

    w z
    x y
    w z
    x y
    f1
    w z
    f2
    F. Eberhardt CRM Workshop 2016より

    View Slide

  19. 因果探索の方法その2:
    関数形や分布に追加の仮定をする方法
    一意に識別できる条件は?
    19

    View Slide

  20. 関数形や分布にも仮定を入れてみる「と」
    • 条件付き独立性以外にも利用可能な情報がある
    • 例えば、線形性+非ガウス連続分布
    20
    x1
    x2
    x1
    x2
    観測変数x1,x2の
    分布が違う
    (条件付き独立性に違いはない)

    View Slide

  21. LiNGAMモデル
    (Shimizu, Hyvarinen, Hoyer & Kerminen, 2006)
    • Linear Non-Gaussian Acyclic Model (線形非ガウス非巡回モデル):
    ここで
    – 𝑘 𝑖 : 𝑥)
    の因果的(半)順序 (topological order)
    – 誤差変数 𝑒)

    • 非ガウス連続
    • 互いに独立
    • データ𝑋から係数𝑏12
    と順序𝑘 𝑖 が識別可能(一意に推定可能)
    21
    or
    𝑥& 𝑥'
    𝑥(
    因果グラフ
    𝑥1
    = '
    3 2 43(1)
    𝑏12
    𝑥2
    + 𝑒2 𝒙 = 𝐵𝒙 + 𝒆
    𝑒(
    𝑒& 𝑒'
    𝑏'&
    𝑏'(
    𝑏&(

    View Slide

  22. 具体的には、非ガウス性と独立性をどう使うか?
    22
    x1
    x2
    e1
    e2
    正しいモデル
    結果x2を原因x1に回帰 原因x1を結果x2に回帰
    2
    1
    21
    2
    1
    1
    1
    2
    2
    )
    1
    (
    2 )
    var(
    )
    ,
    cov(
    e
    x
    b
    x
    x
    x
    x
    x
    x
    r
    =
    -
    =
    -
    =
    は独立
    と )
    1
    (
    2
    1
    1
    )
    ( r
    e
    x =
    残差
    ( )
    )
    var(
    var
    )
    var(
    )
    ,
    cov(
    1
    )
    var(
    )
    ,
    cov(
    2
    1
    21
    1
    2
    2
    1
    21
    2
    2
    2
    1
    1
    )
    2
    (
    1
    x
    x
    b
    e
    x
    x
    x
    b
    x
    x
    x
    x
    x
    r
    -
    þ
    ý
    ü
    î
    í
    ì
    -
    =
    -
    =

    と )
    2
    (
    1
    2
    1
    21
    2
    )
    ( r
    e
    e
    b
    x +
    =
    2
    e
    従属
    ガウスだと
    無相関=独立
    𝑥5
    = 𝑒5
    𝑥/
    = 𝑏/5
    𝑥5
    + 𝑒/ 𝑏#" ≠ 0

    View Slide

  23. • 観測変数ベクトルxのデータ生成過程:
    ここで独立成分 𝑠)
    は非ガウスかつ独立
    • 混合行列Aは(列の置換とスケーリングを除いて)識別可能
    • LiNGAMの非ガウス独立誤差変数=独立成分
    別の説明: 独立成分分析 (ICA) モデルによる説明
    (Jutten & Herault, 1991; Comon, 1994)
    As
    x =
    23
    å
    =
    =
    p
    j
    j
    ij
    i
    s
    a
    x
    1
    or
    Ae
    e
    B
    I
    x
    e
    Bx
    x
    =
    -
    =
    Û
    +
    = -1
    )
    (

    View Slide

  24. ICAをかけて混合行列Aをみる
    • 向きが違えば、Aのゼロ非ゼロパターン異なる
    (LiNGAMでは対角にゼロないから列置換が定まる)
    24
    ! !
    ú
    û
    ù
    ê
    ë
    é
    ú
    û
    ù
    ê
    ë
    é
    =
    ú
    û
    ù
    ê
    ë
    é
    2
    1
    21
    2
    1
    1
    0
    1
    e
    e
    b
    x
    x
    "
    #
    "
    $
    %
    2
    1
    21
    2
    1
    1
    e
    x
    b
    x
    e
    x
    +
    =
    =
    A s
    x
    ! !
    ú
    û
    ù
    ê
    ë
    é
    ú
    û
    ù
    ê
    ë
    é
    =
    ú
    û
    ù
    ê
    ë
    é
    2
    1
    12
    2
    1
    1
    0
    1
    e
    e
    b
    x
    x
    "
    #
    "
    $
    %
    A s
    x
    2
    2
    1
    2
    12
    1
    e
    x
    e
    x
    b
    x
    =
    +
    =
    x1
    x2
    e1
    e2
    x1
    x2
    e1
    e2

    View Slide

  25. LiNGAMモデルの推定
    25

    View Slide

  26. DirectLiNGAMアルゴリズム
    (Shimizu et al., 2011)
    • 因果的順序𝑘(𝑖)の上から下へ順に推定
    – 1番上を見つけて、残差を計算
    – 残差もLiNGAMモデル: 因果関係は変わらない
    26
    ú
    ú
    ú
    û
    ù
    ê
    ê
    ê
    ë
    é
    +
    ú
    ú
    ú
    û
    ù
    ê
    ê
    ê
    ë
    é
    ú
    ú
    ú
    û
    ù
    ê
    ê
    ê
    ë
    é
    -
    =
    ú
    ú
    ú
    û
    ù
    ê
    ê
    ê
    ë
    é
    2
    1
    3
    2
    1
    3
    2
    1
    3
    0
    3
    .
    1
    0
    0
    0
    5
    .
    1
    0
    0
    0
    e
    e
    e
    x
    x
    x
    x
    x
    x 0
    0
    0 0
    0
    0
    0
    0
    ú
    û
    ù
    ê
    ë
    é
    +
    ú
    û
    ù
    ê
    ë
    é
    ú
    û
    ù
    ê
    ë
    é
    -
    =
    ú
    û
    ù
    ê
    ë
    é
    2
    1
    )
    3
    (
    2
    )
    3
    (
    1
    )
    3
    (
    2
    )
    3
    (
    1
    0
    3
    .
    1
    0
    0
    e
    e
    r
    r
    r
    r 0 0
    )
    3
    (
    2
    r
    )
    3
    (
    1
    r
    x3 x1 x2
    0

    View Slide

  27. • 𝑥"
    は最初(𝑘 𝑥"
    = 1): どの変数の子にもならない
    • どの残差とも独立な変数が最初の変数
    因果的順序が最初の変数の同定
    27
    定理1: 「 は その残差
    のどれとも独立 (𝑖は𝑗以外全部)」⟺ 「𝑥2
    は最初」
    ( )
    j
    j
    j
    i
    i
    j
    i
    x
    x
    x
    x
    x
    r
    )
    var(
    )
    cov(
    ,
    -
    =
    j
    x
    x3 x1 x2 x3 x1 x2

    View Slide

  28. 相互情報量の差=非ガウス性の差 (Hyvarinen & Smith, 2013)
    • どちらの向きの方が、説明変数と残差が独立か
    • 相互情報量の代わりに,1次元のエントロピーを計算
    • 𝐻を最大エントロピー近似 (Hyvarinen, 1999)
    28
    ÷
    ÷
    ø
    ö
    ç
    ç
    è
    æ
    ÷
    ÷
    ø
    ö
    ç
    ç
    è
    æ
    +
    -
    ÷
    ÷
    ø
    ö
    ç
    ç
    è
    æ
    +
    =
    -
    )
    (
    )
    (
    )
    (
    )
    (
    )
    ,
    (
    )
    ,
    (
    )
    2
    (
    1
    )
    2
    (
    1
    2
    )
    1
    (
    2
    )
    1
    (
    2
    1
    )
    2
    (
    1
    2
    )
    1
    (
    2
    1 r
    sd
    r
    H
    x
    H
    r
    sd
    r
    H
    x
    H
    r
    x
    I
    r
    x
    I
    𝐻(𝑢) ≈ 𝐻 𝑣 − 𝑘#
    [𝐸 log cosh 𝑢 − 𝛾]$−𝑘$
    [𝐸 𝑢 exp (−𝑢$/2 ]$

    View Slide

  29. 因果的順序𝑘 𝑖 を見つけてしまえば
    • スパース回帰を使って枝刈り
    • 例: 𝑥1
    より順番の早い変数を親候補にしてadaptive lasso (Zou, 2006)
    29
    x2
    x3
    x1
    x2
    x3
    x1
    枝刈り
    å
    å +
    -
    の親候補
    の親候補 i
    i
    x
    j ij
    ij
    x
    j
    j
    ij
    i
    ols
    b
    b
    x
    b
    x
    :
    2
    :
    )
    (
    ˆ
    l

    View Slide

  30. 背景知識の利用
    • 因果的(半)順序の推定における利用
    – 例: 背景知識が 𝑘 𝑥1
    < 𝑘 𝑥2
    なら𝑥1
    が選ばれるまで𝑥2
    は選ばない
    • 枝刈りにおける利用
    – 𝑘 𝑥1
    < 𝑘 𝑥2
    なら 𝑥2
    を𝑥1
    の親候補にしない
    30
    å
    å +
    -
    の親候補
    の親候補 i
    i
    x
    j ij
    ij
    x
    j
    j
    ij
    i
    ols
    b
    b
    x
    b
    x
    :
    2
    :
    )
    (
    ˆ
    l
    )
    3
    (
    2
    r
    )
    3
    (
    1
    r
    x3 x1 x2

    View Slide

  31. 非線形モデル

    View Slide

  32. 非線形+加法の外生変数
    • 非線形+「加法の誤差」のモデル (非線形関数は微分可能と仮定)
    • 誤差の独立性を利用
    • 非線形性と誤差変数の分布のいくつかの組み合わせを除いて、一意
    に推定可能(Zhang & Hyvarinen, 2009; Peters et al., 2014)
    32
    ( )
    ( )
    ( )
    i
    i
    i
    i
    i
    i
    i
    i
    i
    e
    x
    f
    f
    x
    e
    x
    f
    x
    +
    =
    +
    =
    - !親
    !親
    1
    ,
    1
    2
    ,
    -- Hoyer et al. (2008)
    -- Zhang et al. (2009)
    1.
    2.

    View Slide

  33. 非線形回帰して説明変数と残差が独立か調べる
    33
    x1
    x2
    e1
    e2
    正しいモデル
    結果𝑥'
    を原因𝑥&
    に非線形回帰 原因𝑥&
    を結果𝑥'
    に非線形回帰
    説明変数𝑥5
    (= 𝑒5
    )と残差は独立
    ガウスだと
    無相関=独立
    𝑥5
    = 𝑒5
    𝑥/
    = 𝑓(𝑥5
    ) + 𝑒/ 𝑏#" ≠ 0
    説明変数𝑥/
    と残差は従属

    View Slide

  34. 因果的順序を下から推定: 終点変数の同定
    • 終点変数: (モデル内に)子を持たない変数
    • 終点変数を目的変数にしたときのみ、説明変数と残差が独立になる
    34
    x2 x3
    x1
    x2 x3
    因果的順序を
    下から推定

    x3
    因果的順序を
    下から推定
    𝑥$ = 𝑒$
    𝑥# = 𝑓#(𝑥$
    )+ 𝑒#
    𝑥" = 𝑓"(𝑥#, 𝑥$
    )+ 𝑒"
    見つけた終点変数
    𝑥!
    は分析から除く
    見つけた終点変数
    𝑥"
    は分析から除く
    一つだけ残ったので終了
    𝑥$ = 𝑒$
    𝑥# = 𝑓#(𝑥$
    )+ 𝑒#
    𝑥$ = 𝑒$
    𝑟&
    = 𝑥&
    − 𝑔&
    (𝑥'
    , 𝑥(
    )と𝑥'
    , 𝑥(
    は独立だが、 𝑟'
    = 𝑥'
    − 𝑔'
    (𝑥&
    , 𝑥(
    )と𝑥&
    , 𝑥(
    は独立でない…
    𝑘 𝑥!
    < 𝑘 𝑥"
    < 𝑘 𝑥#

    View Slide

  35. 背景知識の利用
    • 因果的順序に関する背景知識の利用
    • 背景情報+データから因果グラフを推測
    – 製造業
    • 製造条件
    • その中間の特性
    • 最終的な特性: 不良率など
    – 農業やマーケティングなどでも
    • 介入効果の異質性 (Athey & Imbens, 2016)
    35
    最終特性
    条件1 条件10
    中間特性1 中間特性100

    中間特性82
    中間特性8
    中間特性66 中間特性66
    中間特性16


    … …
    因果探索

    View Slide

  36. 時系列モデルと巡回モデル
    36

    View Slide

  37. 時系列
    • サブサンプリング: 「低解像度」データ
    – SVAR: 構造型自己回帰モデル (Swanson & Granger, 1997)
    – 非ガウス独立なら識別可能 (Hyvarinen et al., 2010)
    • 非定常
    – 差分が定常と仮定 (Moneta et al., 2013)
    – 平均や係数が時間的に滑らかに変化 (Huang et al., 2015)
    37
    )
    (
    )
    (
    )
    (
    0
    t
    t
    t
    k
    e
    x
    B
    x +
    -
    = å
    =
    t
    t
    t
    井元さんのパートでも!
    x1(t)
    x1(t-1)
    x2(t-1) x2(t)
    e1(t-1)
    e2(t-1)
    e1(t)
    e2(t)

    View Slide

  38. 巡回性のあるLiNGAMモデル
    (Lacerda et al., 2008)
    • モデル:
    • 必ず識別できるとは限らない
    • 識別性の条件
    – B=[bij]の固有値の絶対値が1以下
    (平衡状態にある)
    – ループ(閉路)が交わらない
    – 自己ループなし
    38
    i
    i
    j
    j
    ij
    i
    e
    x
    b
    x +
    = å
    ¹
    x1
    x2
    e1
    e2
    x5 e5
    x4
    e4
    x3
    e3
    or 𝒙 = 𝐵𝒙 + 𝒆
    あまり論文は出てない。これからか

    View Slide

  39. 未観測共通原因
    39

    View Slide

  40. 未観測共通原因のある場合
    (Hoyer, Shimizu, Kerminen & Palviainen, 2008)
    • 未観測共通原因ありのLiNGAMもICA
    • ICAをかけて
    40
    𝒙 = 𝐵𝒙 + 𝛬𝒇 + 𝒆 𝒙 = (𝐼 − 𝐵)%# (𝐼 − 𝐵)%#𝛬
    𝒆
    𝒇
    ICA
    𝑥"
    𝑥#
    =
    1 0 𝜆""
    𝑏#" 1 𝜆#"
    𝑒"
    𝑒#
    𝑓"
    𝑥'
    𝑥&
    𝑓&
    𝑒&
    𝑒'
    𝑏"#
    𝜆"# 𝜆##
    𝑥"
    𝑥#
    =
    1 𝑏"# 𝜆""
    0 1 𝜆#"
    𝑒"
    𝑒#
    𝑓"
    𝑥'
    𝑥&
    𝑓&
    𝑒&
    𝑒'
    𝑏#"
    𝜆"# 𝜆##
    𝑥"
    𝑥#
    =
    1 0 𝜆""
    0 1 𝜆#"
    𝑒"
    𝑒#
    𝑓"
    𝑥' 𝑥&
    𝑓&
    𝑒&
    𝑒'
    𝜆"# 𝜆##
    独立成分

    View Slide

  41. 識別性
    (Salehkaleybar et al., 2020)
    • 観測変数の子孫と未観測共通原因に対応する混合行列Wの列の
    ゼロ非ゼロパターンにオーバーラップがなければ、
    因果的順序も介入効果も識別可能
    • もしオーバーラップがあれば、因果順序のみが識別可能
    41
    𝑥"
    𝑥#
    =
    1 0 𝜆""
    𝑏#" 1 𝜆#"
    𝑒"
    𝑒#
    𝑓"
    𝑥'
    𝑥&
    𝑓&
    𝑒&
    𝑒'
    𝑏"#
    𝜆"# 𝜆##
    𝑥"
    𝑥#
    𝑥$
    =
    1 0 0 𝜆""
    𝑏#" 1 0 𝜆#"
    0 0 1 𝜆$"
    𝑒#
    𝑒"
    𝑒!
    𝑓
    #
    𝑥'
    𝑥&
    𝑓&
    𝑒&
    𝑒'
    𝑏"#
    𝜆"# 𝜆##
    Overlap No overlap
    𝑥(
    𝑒(
    𝜆!#

    View Slide

  42. 未観測共通原因のありそうな変数ペアを探す
    (Maeda & Shimizu, 2020)
    • 未観測共通原因のありそうな変数ペア
    • 未観測共通原因がない変数ペアの因果の向き
    42
    𝑥'
    𝑥&
    𝑓&
    𝑥(
    真 出力
    𝑥*
    𝑥'
    𝑥&
    𝑥(
    𝑥*
    𝑓'
    詳しくは前田さんのパートで!

    View Slide

  43. 関連の話題

    View Slide

  44. 連続と離散が混在
    • 従来
    – 連続変数のみか離散変数のみ
    • 連続変数を離散化してから離散変数用の方法を使う
    • 情報のロス
    • 離散化の仕方の恣意性
    • 最近
    – 条件付き独立独立性に基づく方法 (e.g., Tsagris et al., 2018)
    – LiNGAM + (特定の) Logistic model (Wenjuan et al., 2018)
    44

    View Slide

  45. 仮定の評価と統計的信頼性評価
    • 仮定の評価
    – 誤差変数の独立性 (Entner et al., 2011)
    – 変数の(誤差の)ガウス性の検定 (Moneta et al., 2013)
    • 統計的信頼性の評価 (Komatsu et al., 2010)
    45
    x2
    x3
    x1 x3
    x1
    ブートストラップ確率=0.23 ブートストラップ確率=0.18
    例えば、
    ブートストラップ確率>0.05 を残す

    View Slide

  46. 推定結果の評価 (Biza et al., 2020)
    • 真の因果グラフはわからないが(ので)、評価したい
    • アイデア:
    – 「因果グラフがうまく推定できる」→ 「Markov blanketがうまく推定できる」
    → 「Markov blanketだけでうまく予測できる」
    – 「うまく予測できない」→「DAGがうまく推定できてない」と考える
    – 交差確認
    • 課題:
    – Markov blanketの変数を見逃すと予測が悪くなるが
    – 余分な変数が含まれていても機械学習が自動的にカットしてしまう
    46
    Wikipediaより

    View Slide

  47. まとめ
    47

    View Slide

  48. まとめ
    • 統計的因果推論
    – 因果グラフが領域知識で描ける場合はかなり成熟
    – 描けない場合のデータによる支援が今後の鍵: 統計的因果探索
    • 課題
    – 未観測共通原因
    – 離散と連続の混在
    – データによる支援はどこまでできるか
    • 関連論文: https://sites.google.com/view/sshimizu06/lingam/lingampapers
    48
    DirectLiNGAM.IPYNB - Colaboratory
    https://colab.research.google.com/drive/1HpYSJWbigGo4rMDr_UD5D1jyG1ZTCxh8?hl=ja
    JNQPSUOVNQZBTOQ
    JNQPSUQBOEBTBTQE
    JNQPSUMJOHBN
    GSPNHSBQIWJ[JNQPSU%JHSBQI
    [email protected] QSFDJTJPO TVQQSFTT5SVF

    TFFE
    FQTF
    σʔλΛ࡞੒
    [email protected] EBH

    E%JHSBQI FOHJOFEPU

    JGDPFGJOEBH
    [email protected] UP DPFGJO[JQ EBHGSPN> EBHUP> EBHDPFG>

    EFEHF GY\[email protected]^ GY\UP^ MBCFMG\DPFGG^

    FMTF
    [email protected] UPJO[JQ EBHGSPN> EBHUP>

    EFEHF GY\[email protected]^ GY\UP^ MBCFM

    SFUVSOE
    x3
    x0
    3.00
    x2
    6.00
    x5
    4.00
    x4
    8.00
    x1
    3.00 1.00
    2.00
    EBH\
    GSPN >
    UP >
    DPFG >
    ^
    [email protected] EBH

    Python toolbox
    https://github.com/cdt15/lingam

    View Slide

  49. References
    • T. N. Maeda, S. Shimizu. RCD: Repetitive causal discovery of linear non-Gaussian acyclic models with latent confounders.
    In Proc. 23rd International Conference on Artificial Intelligence and Statistics (AISTATS2020), 2020
    • F. H. Messerli, Chocolate Consumption, Cognitive Function, and Nobel Laureates. New England Journal of Medicine, 2012.
    • T. Rosenström, M. Jokela, S. Puttonen, M. Hintsanen, L. Pulkki-Råback, J. S. Viikari, O. T. Raitakari and L. Keltikangas-
    Järvinen. Pairwise measures of causal direction in the epidemiology of sleep problems and depression. PLoS ONE, 7(11):
    e50841, 2012
    • A. Moneta, D. Entner, P. O. Hoyer and A. Coad. Causal inference by independent component analysis: Theory and
    applications. Oxford Bulletin of Economics and Statistics, 75(5): 705-730, 2013.
    • O. Boukrina and W. W. Graves. Neural networks underlying contributions from semantics in reading aloud. Frontiers in
    Human Neuroscience, 7:518, 2013.
    • P. Campomanes, M. Neri, B. A.C. Horta, U. F. Roehrig, S. Vanni, I. Tavernelli and U. Rothlisberger. Origin of the spectral
    shifts among the early intermediates of the rhodopsin photocycle. Journal of the American Chemical Society, 136(10):
    3842-3851, 2014.
    • M. J. Kusner, J. Loftus, C. Russell, R. Silva. Counterfactual Fairness. In Advances in Neural Information Processing
    Systems 30 (NIPS 2017), 2017
    • P. Blöbaum and S. Shimizu. Estimation of interventional effects of features on prediction. In Proc. 2017 IEEE International
    Workshop on Machine Learning for Signal Processing (MLSP2017), pp. xx--xx, Tokyo, Japan, 2017.
    49

    View Slide

  50. References
    • S. Galhotra, R. Pradhan, B. Salimi. Explaining Black-Box Algorithms Using Probabilistic Contrastive Counterfactuals. In
    Proc. the 2021 International Conference on Management of Data (SIGMOD2021), 2021
    • J. Pearl. Causality. Cambridge University Press, 2001.
    • P. Spirtes, C. Glymour, R. Scheines. Causation, Prediction, and Search. Springer, 1993.
    • S. Shimizu, P. O. Hoyer, A. Hyvärinen and A. Kerminen. A linear non-gaussian acyclic model for causal discovery. Journal
    of Machine Learning Research, 7: 2003--2030, 2006
    • S. Shimizu. LiNGAM: Non-Gaussian methods for estimating causal structures. Behaviormetrika, 41(1): 65--98, 2014
    • J. Pearl and T. Verma. In Proc. 2nd International Conference on Principles of Knowledge Representation and Reasoning,
    1991
    • P. Spirtes and C. Glymour. Social Science Computer Review, 1991
    • D. M. Chickering. Journal of Machine Learning Research, 2002
    • P. Spirtes, C. Meek, T. S. Richardson. Causal Inference in the Presence of Latent Variables and Selection Bias. In Proc.
    11th Conf. on Uncertainty in Artificial Intelligence (UAI1995), 1995.
    • D. Malinsky and P. Spirtes. Causal Structure Learning from Multivariate Time Series in Settings with Unmeasured
    Confounding. In Proc. 2018 ACM SIGKDD Workshop on Causal Discovery (KDD-CD), 2018.
    • T. S. Richardson. A Discovery Algorithm for Directed Cyclic Graphs. In Proc. 12th Conf. on Uncertainty in Artificial
    Intelligence (UAI1996), 1996.
    50

    View Slide

  51. References
    • S. Shimizu, P. O. Hoyer, A. Hyvärinen and A. Kerminen. A linear non-gaussian acyclic model for causal discovery. Journal
    of Machine Learning Research, 7: 2003--2030, 2006
    • M. H. Maathuis, M. Kalisch, and P. Bühlmann. Estimating high-dimensional intervention effects from observational data.
    Annals of Statistics, 2009
    • D. Malinsky and P. Spirtes, Estimating bounds on causal effects in high-dimensional and possibly confounded systems.
    International J. Approximate Reasoning, 2017
    • G. Darmois. Analyse generale des liaisons stochastiques. Rev.Inst.Intern.Stat, 1953
    • V. P. Skitivic. On a property of the normal distribution. Dokl. Akad. Nauk SSSR, 1953
    • C. Jutten and J. Herault, Blind separation of sources, part I: An adaptive algorithm based on neuromimetic architecture.
    Signal processing, 1991.
    • P. Comon, Independent component analysis, a new concept?. Signal processing, 1994.
    • S. Shimizu, T. Inazumi, Y. Sogawa, A. Hyvärinen, Y. Kawahara, T. Washio, P. O. Hoyer and K. Bollen. DirectLiNGAM: A direct
    method for learning a linear non-Gaussian structural equation model. Journal of Machine Learning Research, 12(Apr):
    1225--1248, 2011.
    • A. Hyvärinen and S. M. Smith. Pairwise likelihood ratios for estimation of non-Gaussian structural equation models.
    Journal of Machine Learning Research, 14(Jan): 111--152, 2013.
    • A. Hyvarinen. New approximations of differential entropy for independent component analysis and projection pursuit, In
    Advances in Neural Information Processing Systems 12 (NIPS1999), 1999
    51

    View Slide

  52. References
    • H. Zhou. The adaptive lasso and its oracle properties. Journal of the American Statistical Association, 2006.
    • J. Peters and P. Bühlmann. Identifiability of Gaussian structural equation models with equal error variances. Biometrika,
    101(1): 219--228, 2014.
    • K. Genin, C. Mayo-Wilson. Statistical Decidability in Linear, Non-Gaussian Causal Models, The 2020 NeurIPS Workshop on
    Causal Discovery and Causality-Inspired Machine Learning, 2020.
    • Y. S. Wang and M. Drton. High-dimensional causal discovery under non-Gaussianity. Biometrika, 2020.
    • P. O. Hoyer, D. Janzing, J. Mooij, J. Peters and B. Schölkopf. Nonlinear causal discovery with additive noise models. In
    Advances in Neural Information Processing Systems 21 (NIPS2008), pp. 689-696, 2009.
    • K. Zhang and A. Hyvärinen. Distinguishing causes from effects using nonlinear acyclic causal models. In JMLR Workshop
    and Conference Proceedings, Causality: Objectives and Assessment (Proc. NIPS2008 workshop on causality), 6: 157-164,
    2010.
    • J. Peters, J. Mooij, D. Janzing and B. Schölkopf. Causal discovery with continuous additive noise models. Journal of
    Machine Learning Research, 15: 2009--2053, 2014.
    • S. Athey, and G. Imbens. Recursive partitioning for heterogeneous causal effects. Proceedings of the National Academy
    of Sciences, 2016.
    • Swanson, Norman R and Granger, Clive WJ. Impulse response functions based on a causal approach to residual
    orthogonalization in vector autoregressions. Journal of the American Statistical Association, 1997.
    52

    View Slide

  53. References
    • H. Zhou. The adaptive lasso and its oracle properties. Journal of the American Statistical Association, 2006.
    • A. Hyvärinen, K. Zhang, S. Shimizu, P. O. Hoyer. Estimation of a structural vector autoregressive model using non-
    Gaussianity. Journal of Machine Learning Research, 11(May): 1709−1731, 2010.
    • B. Huang, K. Zhang, and B. Schölkopf. Identification of time-dependent causal model: a Gaussian process treatment. In
    Proc. 24th International Joint Conference on Artificial Intelligence (IJCAI2015), pp. xx-xx, Buenos Aires, Argentina, 2015.
    • M. Gong, K. Zhang, B. Schölkopf, D. Tao, and P. Geiger. Discovering temporal causal relations from subsampled data. In
    Proc. 32nd International Conference on Machine Learning (ICML2015), pp. xx-xx, Lille, France, 2015.
    • M. Gong, K. Zhang, B. Schölkopf, C. Glymour, and D. Tao. Causal discovery from temporally aggregated time series. In
    Proc. 33rd Conference on Uncertainty in Artificial Intelligence (UAI2017), pp. xx-xx, Sydney, Australia, 2017.
    • G. Lacerda, P. Spirtes, J. Ramsey and P. O. Hoyer. Discovering cyclic causal models by independent components analysis.
    In Proc. 24th Conf. on Uncertainty in Artificial Intelligence (UAI2008), pp. 366-374, Helsinki, Finland, 2008.
    • P. O. Hoyer, S. Shimizu, A. Kerminen and M. Palviainen. Estimation of causal effects using linear non-gaussian causal
    models with hidden variables. International Journal of Approximate Reasoning, 49(2): 362-378, 2008.
    • S. Salehkaleybar, A. Ghassami, N. Kiyavash, K. Zhang. Learning Linear Non-Gaussian Causal Models in the Presence of
    Latent Variables. Journal of Machine Learning Research, 21:1-24, 2020.
    53

    View Slide

  54. References
    • S. Shimizu, P. O. Hoyer and A. Hyvärinen. Estimation of linear non-Gaussian acyclic models for latent factors.
    Neurocomputing, 72: 2024-2027, 2009.
    • Y. Zeng, S. Shimizu, R. Cai, F. Xie, M. Yamamoto, Z. Hao. Causal Discovery with Multi-Domain LiNGAM for Latent Factors.
    Arxiv preprint arXiv:2009.09176, 2020.
    • Zheng, Xun and Aragam, Bryon and Ravikumar, Pradeep K and Xing, Eric P. DAGs with NO TEARS: Continuous
    Optimization for Structure Learning, Part of Advances in Neural Information Processing Systems 31 (NeurIPS 2018), 2018
    • S. Shimizu and A. Hyvärinen. Discovery of linear non-gaussian acyclic models in the presence of latent classes. In Proc.
    14th Int. Conf. on Neural Information Processing (ICONIP2007), pp. 752-761, Kitakyushu, Japan, 2008.
    • R. Cai, J. Qiao, K. Zhang, Z. Zhang, Z. Hao. Causal Discovery with Cascade Nonlinear Additive Noise Models. In Proc. 28th
    International Joint Conference on Artificial Intelligence (IJCAI 2019), pp. xx--xx, Macao, China, 2019.
    • K. Zhang, J. Zhang, B. Huang, B. Schölkopf, and C. Glymour. On the identifiability and estimation of functional causal
    models in the presence of outcome-dependent selection. In Proc. 32nd Conf. on Uncertainty in Artificial Intelligence
    (UAI2016), New York City, NY, USA, 2016.
    • J. D. Ramsey, S. J. Hanson and C. Glymour. Multi-subject search correctly identifies causal connections and most causal
    directions in the DCM models of the Smith et al. simulation study. NeuroImage, 58(3): 838--848, 2011.
    • S. Shimizu. Joint estimation of linear non-Gaussian acyclic models. Neurocomputing, 81: 104-107, 2012.
    54

    View Slide

  55. References
    • M. Tsagris, G. Borboudakis, V. Lagani, I. Tsamardinos. Constraint-based causal discovery with mixed data. International
    Journal of Data Science and Analytics, 2018.
    • W. Wenjuan, F. Lu, and L. Chunchen. Mixed Causal Structure Discovery with Application to Prescriptive Pricing. In Proc.
    27th International Joint Conference on Artificial Intelligence (IJCAI2018), pp. xx--xx, Stockholm, Sweden, 2018.
    • D. Entner and P. O. Hoyer. Discovering unconfounded causal relationships using linear non-Gaussian models. New
    Frontiers in Artificial Intelligence, Lecture Notes in Computer Science, 6797: 181-195, 2011.
    • Y. Komatsu, S. Shimizu and H. Shimodaira. Assessing statistical reliability of LiNGAM via multiscale bootstrap. In Proc.
    International Conference on Artificial Neural Networks (ICANN2010), pp.309-314, Thessaloniki, Greece, 2010.
    • K. Biza, I. Tsamardinos, S. Triantafillou. Tuning causal discovery algorithms. In Proc. Probabilistic Graphical Models
    (PGM2020), 2020.
    • K. Chalupka, F. Eberhardt, and P. Perona. Causal feature learning: an overview. Behaviormetrika, 44(1): 137–164, 2017
    55

    View Slide

  56. おまけ
    56

    View Slide

  57. 統計的因果探索の方法
    57

    View Slide

  58. 基本アイデア
    • 因果グラフの構造に仮定をおく
    – 非巡回有向グラフ
    !"#$%&'なし(すべて観測されている)
    • その場合に、観測変数の分布に成り立つはずの特性を理論
    的に導く
    • 実際にデータで成り立つ特性と照らし合わせて、つじつまの
    (最も)合うグラフを推測
    58

    View Slide

  59. 因果探索の方法その1:
    条件付き独立性を利用する方法
    関数形や分布に仮定をおかずに
    どこまでいけるか?
    59
    Spirtes, Glymour, Shceines, 2001 (2nd ed)

    View Slide

  60. 非巡回有向グラフを探索
    • 3変数の場合の因果グラフ候補
    • 識別性
    – データから正しいグラフを見つけられるのか?
    • 計算
    – 総当たりで探すのは困難(8変数ぐらいで不可能に)
    60

    View Slide

  61. 同じ条件付き独立性を与える
    因果グラフの集合: 同値類
    • 非巡回有向グラフ
    • 有向辺の有無は共通
    • V字合流は共通
    61
    x3
    x1
    x2
    x3
    x1
    x2
    x3
    x1
    x2
    x3 x2
    x1
    V字合流
    x2とx3は独立
    しかし,
    x1で条件づける
    と従属
    x3
    x1
    x2

    View Slide

  62. ⼀意に決まる例: V字合流がある場合
    62
    x3
    x1
    x2
    データXが
    ⽣成される

    復元できる
    (識別できる) x3
    x1
    x2
    ひとつだけ
    データで成り⽴つ
    条件付き独⽴性
    のみ
    同じ条件付き独⽴性を
    与える因果グラフを列挙
    V字合流
    「𝑥'
    と𝑥(
    は独立」

    View Slide

  63. 2種類の探索アプローチ
    • 制約ベースの探索
    – 制約: 観測変数の条件付き独立性
    • 仮説検定で有無
    – 制約を満たす因果グラフ
    • スコアベースの探索
    – 制約を全体的に最も満たす因果グラフ
    – 情報量基準(BICなど)で評価
    • 目的
    – 正しい因果グラフを含む同値類を見つける
    63

    View Slide

  64. 制約ベースの推定法
    • PCアルゴリズム (Spirtes & Glymour, 1991)
    – スケルトンの推定
    • 𝑥と𝑦が独立 | S となるような変数集合S(空ok)があれば辺なし
    – 残った辺に向きをつける
    • V字合流
    – 構造から示唆される有向辺 (Meek, 1995): これ以上は無理
    • 例: 非巡回になるように
    64
    𝑥 𝑦
    𝑧
    𝑥 𝑦
    𝑧
    初期グラフ 𝑥と𝑦独立 | 空
    𝑥 𝑦
    𝑧
    𝑧で条件づけると𝑥と𝑦
    が独立でない
    検定で
    独立性を
    判定
    V字合流

    View Slide

  65. スコアベースの推定法
    • GESアルゴリズム (Chickering, 2002)
    • 貪欲法
    – 改善しなくなるまで有向辺を一本ずつ足していく
    – 改善しなくなるまで有向辺を一本ずつ減らしていく
    • 同値類ごとに評価: BICなど
    • 大域的最適解に達する
    65

    View Slide

  66. 因果探索の方法その2:
    関数形や分布に追加の仮定をする方法
    一意に識別できる条件は?
    66

    View Slide

  67. 識別可能: 方向が違えば分布が違う
    67
    𝑒&
    , 𝑒'
    がガウス 𝑒&
    , 𝑒'
    が非ガウス
    (一様分布)
    モデル1:
    モデル2:
    x1
    x2
    𝑥"
    𝑥#
    e1
    e2
    𝑥"
    𝑥#
    e1
    e2
    x1
    x2
    x1
    x2
    x1
    x2
    相関係数は
    どれも0.8
    𝑥5
    = 𝑒5
    𝑥/
    = 0.8𝑥5
    + 𝑒/
    𝑥5
    = 0.8𝑥/
    + 𝑒5
    𝑥/
    = 𝑒/
    var(𝑥"
    ) = var(𝑥#
    )=1

    View Slide

  68. ( )
    )
    var(
    var
    )
    var(
    )
    ,
    cov(
    1
    )
    var(
    )
    ,
    cov(
    ,
    1
    2
    12
    2
    1
    1
    2
    12
    1
    1
    1
    2
    2
    )
    1
    (
    2
    1
    2
    x
    x
    b
    x
    x
    x
    x
    b
    x
    x
    x
    x
    x
    r
    x
    x
    -
    þ
    ý
    ü
    î
    í
    ì
    -
    =
    -
    =
    !回帰$ %
    &
    '
    2
    1
    21
    2
    1
    1
    1
    2
    2
    )
    1
    (
    2
    1
    2
    )
    var(
    )
    ,
    cov(
    ,
    e
    x
    b
    x
    x
    x
    x
    x
    x
    r
    x
    x
    =
    -
    =
    -
    =
    !回帰$ %
    &
    因果的順序の同定 (2変数の場合)
    ii) は外生変数でない
    i) は外生変数
    ( )
    0
    21
    2
    1
    21
    2
    1
    1
    ¹
    +
    =
    =
    b
    e
    x
    b
    x
    e
    x
    )
    (
    1
    1
    e
    x = 1
    x
    ( )
    2
    2
    12
    2
    12
    1
    0
    e
    x
    b
    x
    b
    x
    =
    ¹
    +
    =
    !独立$%&
    ' )
    1
    (
    2
    1
    r
    x
    !独立
    $ )
    1
    (
    2
    1
    r
    x
    1
    e
    1
    e
    68
    残差

    View Slide

  69. ( )
    1
    1
    2
    2
    1
    1
    2
    12
    1
    1
    1
    2
    2
    )
    1
    (
    2
    1
    2
    )
    var(
    var
    )
    var(
    )
    ,
    cov(
    1
    )
    var(
    )
    ,
    cov(
    ,
    e
    x
    x
    x
    x
    x
    x
    b
    x
    x
    x
    x
    x
    r
    x
    x
    -
    þ
    ý
    ü
    î
    í
    ì
    -
    =
    -
    =
    に回帰して

    ( )
    2
    2
    12
    1
    2
    12
    1
    0
    e
    x
    b
    e
    x
    b
    x
    =
    ¹
    ×
    +
    =
    Darmois-Skitovitch theorem:
    変数 と を次のように定義する:
    Darmois-Skitovitch theorem
    (Darmois, 1953; Skitovitch, 1953)
    ii) は外生変数でない
    1
    x
    !独立$%&
    ' )
    1
    (
    2
    1
    r
    x
    å
    å
    =
    =
    =
    =
    p
    j
    j
    j
    p
    j
    j
    j
    e
    a
    x
    e
    a
    x
    1
    2
    2
    1
    1
    1
    ,
    1
    x
    ここで𝑒&
    は独立な確率変数.
    もし𝑎"!𝑎#! ≠ 0となるような
    非ガウスな𝑒!
    があれば、
    𝑥"
    と𝑥#
    は独立でない
    1
    12
    b
    2
    x
    69

    View Slide

  70. LiNGAMモデルの推定
    70

    View Slide

  71. 非ガウスの仮定を緩める
    • 誤差変数の分散が既知またはすべて等しければ、誤差変数
    がガウス分布でも識別可能 (Peters & Buhlman, 2014)
    • (識別性については)誤差の分布はガウス以外なら離散でも
    (e.g., ベルヌーイでも)よい (Genin & Mayo-Wilson, 2020)
    • 「サンプルサイズ > 変数の数」の場合のDirectLiNGAMアルゴ
    リズム (Wang & Drton, 2020)
    71

    View Slide

  72. 時系列モデルと巡回モデル
    72

    View Slide

  73. 時系列
    • サブサンプリング: 低解像度データ
    – SVAR: 構造型自己回帰モデル (Swanson & Granger, 1997)
    – 誤差が非ガウス独立なら識別可能 (Hyvarinen et al., 2010)
    • インパルス応答が計算可能なことがうれしい (Moneta et al., 2013)
    • 非定常
    – 差分が定常と仮定 (Moneta et al., 2013)
    – 平均や係数が時間的に滑らかに変化 (Huang et al., 2015)
    73
    )
    (
    )
    (
    )
    (
    0
    t
    t
    t
    k
    e
    x
    B
    x +
    -
    = å
    =
    t
    t
    t

    View Slide

  74. 他にも非ガウス独立だとできること
    • 仮定
    – 平衡状態にある
    – 誤差の分布がすべて異なる
    • サブサンプリングの「間」を復元できる十分条件 (Gong et al., 2015)
    – 自分から自分への係数は正
    – or 誤差の分布が非対称
    • 測定が「和」でも元の関係を復元できる十分条件 (Gong et al., 2017)
    – 誤差の分布が非対称
    74

    View Slide

  75. 未観測共通原因
    75

    View Slide

  76. 線形の場合は
    独立としても一般性を失わない
    76
    独立な潜在共通原因
    i
    i
    j
    j
    ij
    Q
    q
    q
    iq
    i
    i
    e
    x
    b
    f
    x +
    +
    +
    = å
    å
    ¹
    =1
    l
    µ
    x1 x2 2
    e
    1
    e
    1
    f
    e
    2
    f
    e
    x1 x2 2
    e
    1
    e
    1
    :
    1 f
    e
    f
    2
    :
    2 f
    e
    f
    1
    f
    2
    f
    従属な潜在共通原因
    ú
    û
    ù
    ê
    ë
    é
    ú
    û
    ù
    ê
    ë
    é
    =
    ú
    û
    ù
    ê
    ë
    é
    ú
    û
    ù
    ê
    ë
    é
    =
    ú
    û
    ù
    ê
    ë
    é
    2
    1
    22
    21
    11
    22
    21
    11
    2
    1
    0
    0
    2
    1
    f
    f
    a
    a
    a
    e
    e
    a
    a
    a
    f
    f
    f
    f

    View Slide

  77. 関連の話題

    View Slide

  78. 他の潜在変数モデル
    • 潜在因子間の因果探索 (Shimizu et al., 2009)
    – 複数データセット (Zeng et al., 2020)に共通する因子と特有の因子を見つける
    • 潜在クラスがある場合 (Shimizu et al., 2008)
    • 潜在中間変数 (Cai et al., 2019) : 非線形
    • Selection bias (Zhang et al., 2016)
    78
    目的関数 = 尤度+スパース正則化項目 s.t. 非巡回制約
    非巡回制約 (Zheng et al., 2018): ℎ 𝐵 = tr 𝑒'∘' − 因子数
    𝒇(,) = 𝐵(,) 𝒇(,)+ 𝝐(,)
    𝒙(,) = 𝐺(,) 𝒇(,)+ 𝒆(,)
    を用いて連続最適化で解く

    View Slide

  79. 複数データセット (含む実験データ)
    (Ramsey et al. 2011, Shimizu, 2012)
    • c個の集団に対するモデル:
    – 共通の因果的順序:分布と係数は違ってもよい
    • 類似性を利用して精度向上
    – 「fMRI+脳」の模擬データで精度が大幅に向上 (Ramsey et al., 2011)
    79
    ( )
    c
    g
    e
    x
    b
    x g
    i
    i
    k
    j
    k
    g
    j
    g
    ij
    g
    i
    ,...,
    1
    )
    (
    )
    (
    )
    (
    )
    (
    )
    (
    )
    ( =
    +
    = å
    <
    x3
    x1
    x2
    e1
    e2
    e3
    4
    -3
    2
    x3
    x1
    x2
    e1
    e2
    e3
    -0.5
    5
    集団1 集団2

    View Slide

  80. 仮定の評価
    (Entner et al., 2011)
    • 誤差変数の独立性
    – 定理: 「未観測共通原因がない」 ⟺ 「LiNGAMモデルが成立」
    – LiNGAMによって推定される ̂
    𝑒)
    の独立性検定
    • 変数の(誤差の)ガウス性の検定
    80
    x2 x1
    f1
    2
    1
    21
    1
    21
    2
    1
    1
    11
    1
    e
    f
    x
    b
    x
    e
    f
    x
    +
    +
    =
    +
    =
    l
    l
    e1
    e2

    View Slide

  81. 統計的信頼性の評価
    • 推定結果の統計的信頼性評価が必要
    – 標本変動
    – 非ガウス性が小さいとモデルが識別不能に近づく
    • ブートストラップ法によるアプローチ (Komatsu et al., 2010)
    81
    x2
    x3
    x1 x3
    x1
    ブートストラップ確率=0.23 ブートストラップ確率=0.18
    例えば、
    ブートストラップ確率>0.05 を残す

    View Slide

  82. まとめ
    82

    View Slide

  83. 課題1: 未観測共通原因をどう懐柔するか
    • 現状: 領域知識により特定し観測する
    • どこまでデータにより支援できるか?
    – 例: 線形性と非ガウス連続分布 (Hoyer et al., 2008; Salehkaleybar et al., 2020)
    • 信号処理の理論: 独立成分分析
    • 機械学習の理論: カーネル法
    83
    チョコ 賞
    ?
    チョコ 賞
    or
    GDP GDP
    チョコ 賞
    or
    GDP
    未観測共通原因 未観測共通原因 未観測共通原因
    因果グラフ

    View Slide

  84. 課題2: 変数をどうとるか
    • マクロ変数とミクロ変数
    – 国レベルと個人レベル
    – 結果は一致するのか
    • 領域知識の利用
    – (論文)テキストデータ等から抽出
    • より一般に、データによる支援は可能?
    – 介入によるアルゴリズム (Chalupka et al. 2017)
    84
    Messerli, (2012)
    Chalupka et al. (2017)

    View Slide