Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データで課題を解決する -因果関係を調べる統計的因果推論-
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shohei SHIMIZU
October 14, 2023
Science
2.1k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
データで課題を解決する -因果関係を調べる統計的因果推論-
理研和光地区一般公開2023
Shohei SHIMIZU
October 14, 2023
More Decks by Shohei SHIMIZU
See All by Shohei SHIMIZU
因果推論と機械学習
sshimizu2006
1
1.2k
AIPシンポジウム 2025年度 成果報告会 「因果推論チーム」
sshimizu2006
3
520
Non-Gaussian, nonlinear causal discovery with hidden variables and application
sshimizu2006
0
130
因果AIへの招待
sshimizu2006
0
1.4k
先端因果推論特別研究チームの研究構想と 人間とAIが協働する自律因果探索の展望
sshimizu2006
3
930
統計的因果探索: 背景知識とデータにより因果仮説を探索する
sshimizu2006
4
1.4k
非ガウス性と非線形性に基づく統計的因果探索
sshimizu2006
0
2.1k
Causal discovery based on non-Gaussianity and nonlinearity
sshimizu2006
0
400
統計的因果探索の方法
sshimizu2006
1
1.7k
Other Decks in Science
See All in Science
ITTF卓球世界ランキングのポイント比を用いた試合結果予測モデルの性能評価 / Performance evaluation of match result prediction models using the point ratio of the ITTF Table Tennis World Ranking
konakalab
0
130
1. CPC理論の展開と集合的知能モデル(JSAI2026 KS-27 集合的予測符号化と新たな知性の時代)
hayashiyus884
1
180
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
PRO
0
120
中央大学AI・データサイエンスセンター 2025年第6回イブニングセミナー 『知能とはなにか ヒトとAIのあいだ』
tagtag
PRO
0
160
生成AIと司法書士の未来.pdf
tagtag
PRO
0
120
Algorithmic Aspects of Quiver Representations
tasusu
0
370
20260220 OpenIDファウンデーション・ジャパン ご紹介 / 20260220 OpenID Foundation Japan Intro
oidfj
0
360
AkarengaLT vol.41
hashimoto_kei
1
140
機械学習 - DBSCAN
trycycle
PRO
0
1.8k
TypeScript で WebAssembly を用いた 型安全なプラグイン設計
nagano
2
510
[NLP2026 参加報告会] AI for Science まとめ / NLP2026
lychee1223
0
1.9k
主成分分析に基づく教師なし特徴抽出法を用いたコラーゲン-グリコサミノグリカンメッシュの遺伝子発現への影響
tagtag
PRO
0
270
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.9k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.3k
A Tale of Four Properties
chriscoyier
163
24k
Chasing Engaging Ingredients in Design
codingconduct
0
220
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
2k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
A designer walks into a library…
pauljervisheath
211
24k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
200
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
600
ラッコキーワード サービス紹介資料
rakko
1
3.6M
Leo the Paperboy
mayatellez
7
1.8k
Transcript
データで課題を解決する -因果関係を調べる統計的因果推論- 清水昌平 理化学研究所 革新知能統合研究センター 汎用基盤技術研究グループ 因果推論チーム 理研和光地区一般公開 2023/10/14
統計的因果推論とは n統計的因果推論 • 因果関係についてデータから推測する方法論 • 「何かを変化させて、何か他のものが変化したら」 前者が原因で、後者が結果 n中心的な話題 • ランダム化実験ができなくても、因果を調べられるか?
• どんな条件で? • 実験する前に評価 / 実験環境以外での評価 2
統計的因果推論の出発点 3 Messerli, (2012), New England Journal of Medicine !
" # $ 賞 受 賞 者 ( 数 相関係数: 0.79 チョコレート消費量 n相関があるからと言って 因果関係があるとは限らない n「チョコレート消費量と ノーベル賞受賞者の数に 相関がある」からと言って、 「チョコレート消費量を増やせば ノーベル賞受賞者が増える」 とは限らない
相関関係と因果関係のギャップ 4 チョコ 賞 ? チョコ 賞 or GDP GDP
チョコ 賞 or GDP 複数の因果関係が同じ相関関係を与えうる 賞 未観測共通原因 未観測共通原因 未観測共通原因 ギャップ チョコ 上記のどのケースでも (右のチョコと賞に因果的に関係ないようなケースでも) 相関係数が0.79になり得る
因果推論の手順の例 1. 推定したいものを決める: 因果効果 (介入効果) • チョコから賞への因果効果 2. 領域知識を用いて因果構造を表すグラフを描く 3.
どの変数を分析に含めるかを、(数学的)理論から導く • ここではGDP 4. (もしあれば) その変数も観測し分析に含めて、推定 5 チョコ 賞 GDP 因果グラフ
データ分析をする目的はいろいろ n予測 • チョコ消費量がこのくらいなら ノーベル賞の数はどのくらい? n因果 • チョコ消費量を増やすと (介入) ノーベル賞の数は増える?
n制御 • ノーベル賞受賞者の数を これくらいにするには、 何をどのくらい変えたらよい? 6 Messerli, (2012), New England Journal of Medicine ϊ ồ ϕ ϧ ड ऀ ͷ ૬ؔ νϣίϨʔτফඅྔ
統計的因果推論の 基本的な考え方 7
基本となる概念: 反事実 (反実仮想) nもし◦◦だとしたらどうなる? • 「もしも薬を飲ませたとしたら、治癒するか」 • 「もしも飲まないでもらったとしたら、治癒するか」 8 薬
治癒 治癒せず なし ¹ ゼウス ゼウス(個体)について、薬の治癒への因果効果あり
因果推論の根本問題 (Holland, 1986) n個体における因果は、一般には同定できない • 観測できるのはどちらか一方 9 薬 治癒 ?
なし ¹ ゼウス 薬を飲ませてしまったら、 薬を飲まないでもらった場合にどうなるかは不明
「代わりに」、集団における因果 nもし集団全員に薬を飲ませた場合 nもし集団全員に薬を飲まないでもらった場合 10 薬 治癒の割合 治癒の割合 なし 分析対象の 集団
やはり観測できるのはどちらか一方、しかし工夫が可能 ≠?
ランダムに分けることで模擬 (ランダム化実験) n集団をランダムに2つのグループに分けることで、各グループのメン バーは違うが、集団としては同じ(等質)となる • 男女比、重症の人の割合、…などなど同じ 11 なし 集団 違いは、投薬の有無のみ
治癒の割合 治癒の割合 ? ¹
ランダム化実験しないとき (できないとき) 12
ランダム化実験しないときに困ること n実際の治療では、重症な患者に投薬する傾向がある 13 薬 治癒の 割合 治癒の 割合 なし などなどたくさん
≠? 重症多め 少なめ 投薬の有無以外にも重症度が違う
重症度は共通原因 n重症かで投薬するかが決まり n重症かで治癒するかも決まる n相関関係と因果関係のギャップを生み出す: 交絡要因 n「薬を使うかを何に基づいて決めているか」を考える 14 薬 治癒 重症度
潜在共通原因 誤差 誤差
重症度の⾼低で分ける(層別) n重症の人のみ集める(軽症の人のみ集める)ことで2つのグループ を等質に 15 薬 治癒の 割合 治癒の 割合 なし
などなどたくさん ≠? みな重症 違いは、投薬の有無のみ
各層の結果をマージして、 全体の因果効果を推定 16 n全体の因果効果 n交絡要因を全て分析に含められていれば因果効果 = 重症者の割合 × 重症グループでの因果効果 +
軽症者の割合 × 軽症グループでの因果効果 =𝑝 𝑧 = 1 𝐸 𝑦 = 1|𝑥 = 1, 𝑧 = 1 − 𝐸 𝑦 = 1|𝑥 = 0, 𝑧 = 1 +𝑝 𝑧 = 0 𝐸 𝑦 = 1|𝑥 = 1, 𝑧 = 0 − 𝐸 𝑦 = 1|𝑥 = 0, 𝑧 = 0
交絡要因を選ぶよりどころ: 因果グラフ n領域知識で描く nデータによる⽀援: 因果探索 17 薬 治癒 重症度 潜在共通原因
誤差 誤差
統計的因果探索 nデータを用いて因果グラフを推測するための方法論 n事前知識以外の手段 .BFEBBOE4IJNJ[V Ծఆ ਪଌ • ؔܗ
• • ະ؍ଌڞ௨ݪҼͷ༗ແ • ඇ८ճ PS८ճ ͳͲ σʔλ ҼՌάϥϑ
因果探索のアイデア 1. 因果モデルに仮定をおく • 非巡回 • 共通原因は観測済み 2. 仮定を満たす構造の中で、データと(最も)つじつまの合うグラフを選ぶ 19
「データでxとyが独立」なら、一番右の(c)を選ぶ (a)と(b)の区別がつかない(一意に決まらない): ここが理論限界 3つの候補 (a) (b) (c) x y x y x y
“少し”追加の仮定を入れると n関数形や分布に仮定を入れる: LiNGAM (Shimizu et al., 2006) • 線形性 •
非ガウス性 n非線形でも (Hoyer et al., 2008; Zhang et al., 2009; Peters et al., 2014; Khemakhem et al., 2021) • 𝑥! = 𝑓! (par(𝑥! )) + 𝑒! • 𝑥! = 𝑔! "#(𝑓! (par(𝑥! )) + 𝑒! ) n𝑥! の親と誤差𝑒! の独立性も利用 20 𝑥! = ∑ $! の親 𝑏!% 𝑥% +𝑒! 3つの候補から一つに絞れる (a) (b) (c) x y x y x y
因果探索の適用例: ターゲットの原因候補の探索 https://www.shimizulab.org/lingam/lingampapers/applications-and-tailor-made-methods n生命科学 (Maathuis et al., 2010) n医学 (Kotoku
et al., 2020) n化学 (Campomanes et al., 2014) n材料 (Nelson et al., 2021) n気候学 (Liu et al., 2020) n経済学 (Moneta et al., 2013) n心理学 (von Eye et al., 2012) n政策 (高山ら, 2021) nネットワークデータ (Jarry et al., 2021) 21 Kotoku et al. (2020) Moneta et al. (2013) OpInc.gr(t) Empl.gr(t) Sales.gr(t) R&D.gr(t) Empl.gr(t+1) Sales.gr(t+1) R&D(.grt+1) OpInc.gr(t+1) Empl.gr(t+2) Sales.gr(t+2) R&D.gr(t+2) OpInc.gr(t+2)
Code packageやノーコード分析ツール nPython package (Ikeuchi, Ide, Zeng, Maeda, Shimizu, 2023)
• https://github.com/cdt15/lingam MITライセンス nTetrad, pcalg, causal-learn, lingam, Salesforce CausalAI, gcastle n商用ソフト • Causalas by SCREEN AS • Node AI by NTT Communications • NTech Predict by neutral • Causal analysis by NEC 22
まとめ n統計的因果推論 • 因果グラフが領域知識で描ける場合はかなり成熟 • 適用範囲の広がり • 描けない場合のデータによる支援が今後の鍵 n統計的因果探索 •
領域知識+データでよりよい因果グラフを作成 • 仮定を緩める • 理論限界を調べる • 事例+ 23 清⽔ (2017) Shimizu (2017)