$30 off During Our Annual Pro Sale. View Details »

データ駆動による因果仮説探索

Shohei SHIMIZU
February 09, 2021

 データ駆動による因果仮説探索

JSTワークショップ「人工知能と科学」

Shohei SHIMIZU

February 09, 2021
Tweet

More Decks by Shohei SHIMIZU

Other Decks in Science

Transcript

  1. 統計的因果推論と機械学習:
    データ駆動による因果仮説探索
    清水昌平
    滋賀大学データサイエンス学系
    理化学研究所革新知能統合研究センター
    2021.1.22 JSTワークショップ 「人工知能と科学」

    View Slide

  2. 統計的因果推論と機械学習
    •統計的因果推論
    – 介入するとどうなるか?
    • チョコ消費量を変えると
    ノーベル賞受賞者の数は変わるのか
    • どのくらい増えるのか(減るのか)
    •機械学習
    – チョコ消費量がこのくらいだと
    受賞者どのくらい?
    2
    Messerli, (2012), New England Journal of Medicine
    !
    "
    #
    $




    (

    相関係数:
    0.79
    チョコレート消費量

    View Slide

  3. 相関関係と因果関係のギャップ
    3
    チョコ 賞
    ?
    チョコ 賞
    or
    GDP GDP
    チョコ 賞
    or
    GDP
    複数の因果関係が同じ相関関係を与える

    未観測共通原因 未観測共通原因 未観測共通原因
    ギャップ
    ҼՌάϥϑ
    チョコ

    View Slide

  4. 統計的因果推論の手順の例
    1. 推定したいものを決める: 介入効果
    2. 領域知識を用いて因果構造を表すグラフを描く (実験か観察か含む)
    3. どの変数(共通原因)で調整すべきかを理論から導く
    4. (もしあれば) その変数を観測し調整に使い推定
    4
    チョコ 賞
    GDP
    𝐸 賞 𝑑𝑜 チョコ = 多い) = 𝐸調整に使う変数 [𝐸 賞 チョコ = 多い, 調整に使う変数)]
    𝐸 賞 𝑑𝑜 チョコ = 多い) − 𝐸 賞 𝑑𝑜(チョコ = 少ない))

    View Slide

  5. 従来: 因果は扱いにくいもの
    • 「最近」起こった(広まった)こと
    – 理論面 (Rubin, Pearl)
    • 因果の数学的記述
    • 領域知識と仮定を表現する道具の整備
    • 因果推論のアルゴリズム化
    – 適用面
    • 機械学習の実用化・普及
    – 機械学習では扱えないリサーチクエスチョンが何か明確に
    – 機械学習モデルの説明性、公平性
    • Webサービス、行動経済学での因果推論の活用
    – 因果推論によるビジネス、政策立案、適用領域の拡大
    • 因果の科学: Causal Science (Pearl, 2020)
    5

    View Slide

  6. 数学的フレームワーク (Imbens & Rubin, 2015; Pearl, 2001)
    • 構造的因果モデル (Pearl, 2001)
    • 因果の数学的表現
    6
    構造方程式 因果グラフ 構造方程式 因果グラフ
    𝑥 = 𝑓)
    𝑧, 𝑒)
    𝑦 = 𝑓*
    𝑥, 𝑧, 𝑒*
    𝑥 = 1
    𝑦 = 𝑓*
    𝑥, 𝑧, 𝑒*
    𝑝 𝑦 𝑑𝑜 𝑥 = 1 ≠ 𝑝 𝑦 𝑑𝑜 𝑥 = 0 であれば, 𝑥 causes 𝑦
    𝑝 𝑦 𝑑𝑜 𝑥 = 1
    𝑑𝑜 𝑥 = 1
    𝑥: チョコ 𝑦: 賞
    𝑧: GDP
    𝑥: チョコ 𝑦: 賞
    𝑧: GDP
    1

    View Slide

  7. 推定可能性の理論
    (Pearl, 2001; Spirets et al., 1993; Shimizu, 2014)
    • 因果グラフが描けたときに介入効果
    – どの変数で調整すればよいか
    • 因果グラフ: 因果仮説探索
    – データも使って描く: 例えば、線形性+非ガウス連続分布なら可
    7
    チョコ 賞
    ?
    チョコ 賞
    or
    GDP GDP
    チョコ 賞
    or
    GDP
    x y
    z
    w
    u
    v
    q

    View Slide

  8. 8
    データによる因果グラフ探索の適用例
    https://sites.google.com/view/sshimizu06/lingam/lingampapers/applications-and-tailor-made-methods
    疫学 経済学
    Sleep
    problems
    Depression
    mood
    Sleep
    problems
    Depression
    mood ?
    or
    OpInc.gr(t)
    Empl.gr(t)
    Sales.gr(t)
    R&D.gr(t)
    Empl.gr(t+1)
    Sales.gr(t+1)
    R&D(.grt+1)
    OpInc.gr(t+1)
    Empl.gr(t+2)
    Sales.gr(t+2)
    R&D.gr(t+2)
    OpInc.gr(t+2)
    (Moneta et al., 2012)
    (Rosenstrom et al., 2012)
    神経科学 化学
    (Campomanes et al., 2014)
    (Boukrina & Graves, 2013)

    View Slide

  9. 課題1: 未観測共通原因をどう懐柔するか
    • 現状: 領域知識により特定し観測する
    • どこまでデータにより支援できるか?
    – 例: 線形性と非ガウス連続分布 (Hoyer et al., 2008; Salehkaleybar et al., 2020)
    • 信号処理の理論: 独立成分分析
    • 機械学習の理論: カーネル法
    9
    チョコ 賞
    ?
    チョコ 賞
    or
    GDP GDP
    チョコ 賞
    or
    GDP
    未観測共通原因 未観測共通原因 未観測共通原因
    ҼՌάϥϑ

    View Slide

  10. 課題2: 変数をどうとるか
    • マクロ変数とミクロ変数
    – 国レベルと個人レベル
    – 結果は一致するのか
    • 領域知識の利用
    – (論文)テキストデータ等から抽出
    • より一般に、データによる支援は可能?
    – 介入によるアルゴリズム (Chalupka et al. 2017)
    10
    Messerli, (2012)
    Chalupka et al. (2017)

    View Slide

  11. まとめ: データ駆動による因果仮説探索
    • 機械学習に加えて、統計的因果推論
    – 因果グラフが領域知識で描ける場合は産業応用レベル
    – 描けない場合のデータによる支援が今後の鍵
    • 課題
    – 未観測共通原因
    – 変数をどうとるか
    – データによる支援はどこまでできるか
    • 科学/工学の発展を加速
    – 実験・調査、検証の効率化
    11

    View Slide

  12. 12

    View Slide

  13. 因果グラフに関する領域知識の利用
    • 領域情報+データから因果グラフを推測
    – 製造業
    • 製造条件
    • その中間の特性
    • 最終的な特性: 不良率など
    – 農業やマーケティングなどでも
    13
    最終特性
    条件1 条件10
    中間特性1 中間特性100

    中間特性82
    中間特性8
    中間特性66 中間特性66
    中間特性16


    … …
    因果探索

    View Slide