Slide 1

Slide 1 text

データで課題を解決する -因果関係を調べる統計的因果推論- 清水昌平 理化学研究所 革新知能統合研究センター 汎用基盤技術研究グループ 因果推論チーム 理研和光地区一般公開 2023/10/14

Slide 2

Slide 2 text

統計的因果推論とは n統計的因果推論 • 因果関係についてデータから推測する方法論 • 「何かを変化させて、何か他のものが変化したら」 前者が原因で、後者が結果 n中心的な話題 • ランダム化実験ができなくても、因果を調べられるか? • どんな条件で? • 実験する前に評価 / 実験環境以外での評価 2

Slide 3

Slide 3 text

統計的因果推論の出発点 3 Messerli, (2012), New England Journal of Medicine ! " # $ 賞 受 賞 者 ( 数 相関係数: 0.79 チョコレート消費量 n相関があるからと言って 因果関係があるとは限らない n「チョコレート消費量と ノーベル賞受賞者の数に 相関がある」からと言って、 「チョコレート消費量を増やせば ノーベル賞受賞者が増える」 とは限らない

Slide 4

Slide 4 text

相関関係と因果関係のギャップ 4 チョコ 賞 ? チョコ 賞 or GDP GDP チョコ 賞 or GDP 複数の因果関係が同じ相関関係を与えうる 賞 未観測共通原因 未観測共通原因 未観測共通原因 ギャップ チョコ 上記のどのケースでも (右のチョコと賞に因果的に関係ないようなケースでも) 相関係数が0.79になり得る

Slide 5

Slide 5 text

因果推論の手順の例 1. 推定したいものを決める: 因果効果 (介入効果) • チョコから賞への因果効果 2. 領域知識を用いて因果構造を表すグラフを描く 3. どの変数を分析に含めるかを、(数学的)理論から導く • ここではGDP 4. (もしあれば) その変数も観測し分析に含めて、推定 5 チョコ 賞 GDP 因果グラフ

Slide 6

Slide 6 text

データ分析をする目的はいろいろ n予測 • チョコ消費量がこのくらいなら ノーベル賞の数はどのくらい? n因果 • チョコ消費量を増やすと (介入) ノーベル賞の数は増える? n制御 • ノーベル賞受賞者の数を これくらいにするには、 何をどのくらい変えたらよい? 6 Messerli, (2012), New England Journal of Medicine ϊ ồ ϕ ϧ ৆ ड ৆ ऀ ͷ ਺ ૬ؔ܎਺ νϣίϨʔτফඅྔ

Slide 7

Slide 7 text

統計的因果推論の 基本的な考え方 7

Slide 8

Slide 8 text

基本となる概念: 反事実 (反実仮想) nもし○○だとしたらどうなる? • 「もしも薬を飲ませたとしたら、治癒するか」 • 「もしも飲まないでもらったとしたら、治癒するか」 8 薬 治癒 治癒せず なし ¹ ゼウス ゼウス(個体)について、薬の治癒への因果効果あり

Slide 9

Slide 9 text

因果推論の根本問題 (Holland, 1986) n個体における因果は、一般には同定できない • 観測できるのはどちらか一方 9 薬 治癒 ? なし ¹ ゼウス 薬を飲ませてしまったら、 薬を飲まないでもらった場合にどうなるかは不明

Slide 10

Slide 10 text

「代わりに」、集団における因果 nもし集団全員に薬を飲ませた場合 nもし集団全員に薬を飲まないでもらった場合 10 薬 治癒の割合 治癒の割合 なし 分析対象の 集団 やはり観測できるのはどちらか一方、しかし工夫が可能 ≠?

Slide 11

Slide 11 text

ランダムに分けることで模擬 (ランダム化実験) n集団をランダムに2つのグループに分けることで、各グループのメン バーは違うが、集団としては同じ(等質)となる • 男女比、重症の人の割合、…などなど同じ 11 なし 集団 違いは、投薬の有無のみ 治癒の割合 治癒の割合 ? ¹

Slide 12

Slide 12 text

ランダム化実験しないとき (できないとき) 12

Slide 13

Slide 13 text

ランダム化実験しないときに困ること n実際の治療では、重症な患者に投薬する傾向がある 13 薬 治癒の 割合 治癒の 割合 なし などなどたくさん ≠? 重症多め 少なめ 投薬の有無以外にも重症度が違う

Slide 14

Slide 14 text

重症度は共通原因 n重症かで投薬するかが決まり n重症かで治癒するかも決まる n相関関係と因果関係のギャップを生み出す: 交絡要因 n「薬を使うかを何に基づいて決めているか」を考える 14 薬 治癒 重症度 潜在共通原因 誤差 誤差

Slide 15

Slide 15 text

重症度の⾼低で分ける(層別) n重症の人のみ集める(軽症の人のみ集める)ことで2つのグループ を等質に 15 薬 治癒の 割合 治癒の 割合 なし などなどたくさん ≠? みな重症 違いは、投薬の有無のみ

Slide 16

Slide 16 text

各層の結果をマージして、 全体の因果効果を推定 16 n全体の因果効果 n交絡要因を全て分析に含められていれば因果効果 = 重症者の割合 × 重症グループでの因果効果 + 軽症者の割合 × 軽症グループでの因果効果 =𝑝 𝑧 = 1 𝐸 𝑦 = 1|𝑥 = 1, 𝑧 = 1 − 𝐸 𝑦 = 1|𝑥 = 0, 𝑧 = 1 +𝑝 𝑧 = 0 𝐸 𝑦 = 1|𝑥 = 1, 𝑧 = 0 − 𝐸 𝑦 = 1|𝑥 = 0, 𝑧 = 0

Slide 17

Slide 17 text

交絡要因を選ぶよりどころ: 因果グラフ n領域知識で描く nデータによる⽀援: 因果探索 17 薬 治癒 重症度 潜在共通原因 誤差 誤差

Slide 18

Slide 18 text

統計的因果探索 nデータを用いて因果グラフを推測するための方法論 n事前知識以外の手段 .BFEBBOE4IJNJ[V Ծఆ ਪଌ • ؔ਺ܗ • ෼෍ • ະ؍ଌڞ௨ݪҼͷ༗ແ • ඇ८ճ PS८ճ ͳͲ σʔλ ҼՌάϥϑ

Slide 19

Slide 19 text

因果探索のアイデア 1. 因果モデルに仮定をおく • 非巡回 • 共通原因は観測済み 2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ 19 「データでxとyが独立」なら、一番右の(c)を選ぶ (a)と(b)の区別がつかない(一意に決まらない): ここが理論限界 3つの候補 (a) (b) (c) x y x y x y

Slide 20

Slide 20 text

“少し”追加の仮定を入れると n関数形や分布に仮定を入れる: LiNGAM (Shimizu et al., 2006) • 線形性 • 非ガウス性 n非線形でも (Hoyer et al., 2008; Zhang et al., 2009; Peters et al., 2014; Khemakhem et al., 2021) • 𝑥! = 𝑓! (par(𝑥! )) + 𝑒! • 𝑥! = 𝑔! "#(𝑓! (par(𝑥! )) + 𝑒! ) n𝑥! の親と誤差𝑒! の独立性も利用 20 𝑥! = ∑ $! の親 𝑏!% 𝑥% +𝑒! 3つの候補から一つに絞れる (a) (b) (c) x y x y x y

Slide 21

Slide 21 text

因果探索の適用例: ターゲットの原因候補の探索 https://www.shimizulab.org/lingam/lingampapers/applications-and-tailor-made-methods n生命科学 (Maathuis et al., 2010) n医学 (Kotoku et al., 2020) n化学 (Campomanes et al., 2014) n材料 (Nelson et al., 2021) n気候学 (Liu et al., 2020) n経済学 (Moneta et al., 2013) n心理学 (von Eye et al., 2012) n政策 (高山ら, 2021) nネットワークデータ (Jarry et al., 2021) 21 Kotoku et al. (2020) Moneta et al. (2013) OpInc.gr(t) Empl.gr(t) Sales.gr(t) R&D.gr(t) Empl.gr(t+1) Sales.gr(t+1) R&D(.grt+1) OpInc.gr(t+1) Empl.gr(t+2) Sales.gr(t+2) R&D.gr(t+2) OpInc.gr(t+2)

Slide 22

Slide 22 text

Code packageやノーコード分析ツール nPython package (Ikeuchi, Ide, Zeng, Maeda, Shimizu, 2023) • https://github.com/cdt15/lingam MITライセンス nTetrad, pcalg, causal-learn, lingam, Salesforce CausalAI, gcastle n商用ソフト • Causalas by SCREEN AS • Node AI by NTT Communications • NTech Predict by neutral • Causal analysis by NEC 22

Slide 23

Slide 23 text

まとめ n統計的因果推論 • 因果グラフが領域知識で描ける場合はかなり成熟 • 適用範囲の広がり • 描けない場合のデータによる支援が今後の鍵 n統計的因果探索 • 領域知識+データでよりよい因果グラフを作成 • 仮定を緩める • 理論限界を調べる • 事例+ 23 清⽔ (2017) Shimizu (2017)