Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データで課題を解決する -因果関係を調べる統計的因果推論-

Shohei SHIMIZU
October 14, 2023

データで課題を解決する -因果関係を調べる統計的因果推論-

理研和光地区一般公開2023

Shohei SHIMIZU

October 14, 2023
Tweet

More Decks by Shohei SHIMIZU

Other Decks in Science

Transcript

  1. 統計的因果推論の出発点 3 Messerli, (2012), New England Journal of Medicine !

    " # $ 賞 受 賞 者 ( 数 相関係数: 0.79 チョコレート消費量 n相関があるからと言って 因果関係があるとは限らない n「チョコレート消費量と ノーベル賞受賞者の数に 相関がある」からと言って、 「チョコレート消費量を増やせば ノーベル賞受賞者が増える」 とは限らない
  2. 相関関係と因果関係のギャップ 4 チョコ 賞 ? チョコ 賞 or GDP GDP

    チョコ 賞 or GDP 複数の因果関係が同じ相関関係を与えうる 賞 未観測共通原因 未観測共通原因 未観測共通原因 ギャップ チョコ 上記のどのケースでも (右のチョコと賞に因果的に関係ないようなケースでも) 相関係数が0.79になり得る
  3. 因果推論の手順の例 1. 推定したいものを決める: 因果効果 (介入効果) • チョコから賞への因果効果 2. 領域知識を用いて因果構造を表すグラフを描く 3.

    どの変数を分析に含めるかを、(数学的)理論から導く • ここではGDP 4. (もしあれば) その変数も観測し分析に含めて、推定 5 チョコ 賞 GDP 因果グラフ
  4. データ分析をする目的はいろいろ n予測 • チョコ消費量がこのくらいなら ノーベル賞の数はどのくらい? n因果 • チョコ消費量を増やすと (介入) ノーベル賞の数は増える?

    n制御 • ノーベル賞受賞者の数を これくらいにするには、 何をどのくらい変えたらよい? 6 Messerli, (2012), New England Journal of Medicine ϊ ồ ϕ ϧ ৆ ड ৆ ऀ ͷ ਺ ૬ؔ܎਺ νϣίϨʔτফඅྔ
  5. 因果推論の根本問題 (Holland, 1986) n個体における因果は、一般には同定できない • 観測できるのはどちらか一方 9 薬 治癒 ?

    なし ¹ ゼウス 薬を飲ませてしまったら、 薬を飲まないでもらった場合にどうなるかは不明
  6. 各層の結果をマージして、 全体の因果効果を推定 16 n全体の因果効果 n交絡要因を全て分析に含められていれば因果効果 = 重症者の割合 × 重症グループでの因果効果 +

    軽症者の割合 × 軽症グループでの因果効果 =𝑝 𝑧 = 1 𝐸 𝑦 = 1|𝑥 = 1, 𝑧 = 1 − 𝐸 𝑦 = 1|𝑥 = 0, 𝑧 = 1 +𝑝 𝑧 = 0 𝐸 𝑦 = 1|𝑥 = 1, 𝑧 = 0 − 𝐸 𝑦 = 1|𝑥 = 0, 𝑧 = 0
  7. 因果探索のアイデア 1. 因果モデルに仮定をおく • 非巡回 • 共通原因は観測済み 2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ 19

    「データでxとyが独立」なら、一番右の(c)を選ぶ (a)と(b)の区別がつかない(一意に決まらない): ここが理論限界 3つの候補 (a) (b) (c) x y x y x y
  8. “少し”追加の仮定を入れると n関数形や分布に仮定を入れる: LiNGAM (Shimizu et al., 2006) • 線形性 •

    非ガウス性 n非線形でも (Hoyer et al., 2008; Zhang et al., 2009; Peters et al., 2014; Khemakhem et al., 2021) • 𝑥! = 𝑓! (par(𝑥! )) + 𝑒! • 𝑥! = 𝑔! "#(𝑓! (par(𝑥! )) + 𝑒! ) n𝑥! の親と誤差𝑒! の独立性も利用 20 𝑥! = ∑ $! の親 𝑏!% 𝑥% +𝑒! 3つの候補から一つに絞れる (a) (b) (c) x y x y x y
  9. 因果探索の適用例: ターゲットの原因候補の探索 https://www.shimizulab.org/lingam/lingampapers/applications-and-tailor-made-methods n生命科学 (Maathuis et al., 2010) n医学 (Kotoku

    et al., 2020) n化学 (Campomanes et al., 2014) n材料 (Nelson et al., 2021) n気候学 (Liu et al., 2020) n経済学 (Moneta et al., 2013) n心理学 (von Eye et al., 2012) n政策 (高山ら, 2021) nネットワークデータ (Jarry et al., 2021) 21 Kotoku et al. (2020) Moneta et al. (2013) OpInc.gr(t) Empl.gr(t) Sales.gr(t) R&D.gr(t) Empl.gr(t+1) Sales.gr(t+1) R&D(.grt+1) OpInc.gr(t+1) Empl.gr(t+2) Sales.gr(t+2) R&D.gr(t+2) OpInc.gr(t+2)
  10. Code packageやノーコード分析ツール nPython package (Ikeuchi, Ide, Zeng, Maeda, Shimizu, 2023)

    • https://github.com/cdt15/lingam MITライセンス nTetrad, pcalg, causal-learn, lingam, Salesforce CausalAI, gcastle n商用ソフト • Causalas by SCREEN AS • Node AI by NTT Communications • NTech Predict by neutral • Causal analysis by NEC 22
  11. まとめ n統計的因果推論 • 因果グラフが領域知識で描ける場合はかなり成熟 • 適用範囲の広がり • 描けない場合のデータによる支援が今後の鍵 n統計的因果探索 •

    領域知識+データでよりよい因果グラフを作成 • 仮定を緩める • 理論限界を調べる • 事例+ 23 清⽔ (2017) Shimizu (2017)