JSTワークショップ「人工知能と科学」
統計的因果推論と機械学習:データ駆動による因果仮説探索清水昌平滋賀大学データサイエンス学系理化学研究所革新知能統合研究センター2021.1.22 JSTワークショップ 「人工知能と科学」
View Slide
統計的因果推論と機械学習•統計的因果推論– 介入するとどうなるか?• チョコ消費量を変えるとノーベル賞受賞者の数は変わるのか• どのくらい増えるのか(減るのか)•機械学習– チョコ消費量がこのくらいだと受賞者どのくらい?2Messerli, (2012), New England Journal of Medicine!"#$賞受賞者(数相関係数:0.79チョコレート消費量
相関関係と因果関係のギャップ3チョコ 賞?チョコ 賞orGDP GDPチョコ 賞orGDP複数の因果関係が同じ相関関係を与える賞未観測共通原因 未観測共通原因 未観測共通原因ギャップҼՌάϥϑチョコ
統計的因果推論の手順の例1. 推定したいものを決める: 介入効果2. 領域知識を用いて因果構造を表すグラフを描く (実験か観察か含む)3. どの変数(共通原因)で調整すべきかを理論から導く4. (もしあれば) その変数を観測し調整に使い推定4チョコ 賞GDP𝐸 賞 𝑑𝑜 チョコ = 多い) = 𝐸調整に使う変数 [𝐸 賞 チョコ = 多い, 調整に使う変数)]𝐸 賞 𝑑𝑜 チョコ = 多い) − 𝐸 賞 𝑑𝑜(チョコ = 少ない))
従来: 因果は扱いにくいもの• 「最近」起こった(広まった)こと– 理論面 (Rubin, Pearl)• 因果の数学的記述• 領域知識と仮定を表現する道具の整備• 因果推論のアルゴリズム化– 適用面• 機械学習の実用化・普及– 機械学習では扱えないリサーチクエスチョンが何か明確に– 機械学習モデルの説明性、公平性• Webサービス、行動経済学での因果推論の活用– 因果推論によるビジネス、政策立案、適用領域の拡大• 因果の科学: Causal Science (Pearl, 2020)5
数学的フレームワーク (Imbens & Rubin, 2015; Pearl, 2001)• 構造的因果モデル (Pearl, 2001)• 因果の数学的表現6構造方程式 因果グラフ 構造方程式 因果グラフ𝑥 = 𝑓)𝑧, 𝑒)𝑦 = 𝑓*𝑥, 𝑧, 𝑒*𝑥 = 1𝑦 = 𝑓*𝑥, 𝑧, 𝑒*𝑝 𝑦 𝑑𝑜 𝑥 = 1 ≠ 𝑝 𝑦 𝑑𝑜 𝑥 = 0 であれば, 𝑥 causes 𝑦𝑝 𝑦 𝑑𝑜 𝑥 = 1𝑑𝑜 𝑥 = 1𝑥: チョコ 𝑦: 賞𝑧: GDP𝑥: チョコ 𝑦: 賞𝑧: GDP1
推定可能性の理論(Pearl, 2001; Spirets et al., 1993; Shimizu, 2014)• 因果グラフが描けたときに介入効果– どの変数で調整すればよいか• 因果グラフ: 因果仮説探索– データも使って描く: 例えば、線形性+非ガウス連続分布なら可7チョコ 賞?チョコ 賞orGDP GDPチョコ 賞orGDPx yzwuvq
8データによる因果グラフ探索の適用例https://sites.google.com/view/sshimizu06/lingam/lingampapers/applications-and-tailor-made-methods疫学 経済学SleepproblemsDepressionmoodSleepproblemsDepressionmood ?orOpInc.gr(t)Empl.gr(t)Sales.gr(t)R&D.gr(t)Empl.gr(t+1)Sales.gr(t+1)R&D(.grt+1)OpInc.gr(t+1)Empl.gr(t+2)Sales.gr(t+2)R&D.gr(t+2)OpInc.gr(t+2)(Moneta et al., 2012)(Rosenstrom et al., 2012)神経科学 化学(Campomanes et al., 2014)(Boukrina & Graves, 2013)
課題1: 未観測共通原因をどう懐柔するか• 現状: 領域知識により特定し観測する• どこまでデータにより支援できるか?– 例: 線形性と非ガウス連続分布 (Hoyer et al., 2008; Salehkaleybar et al., 2020)• 信号処理の理論: 独立成分分析• 機械学習の理論: カーネル法9チョコ 賞?チョコ 賞orGDP GDPチョコ 賞orGDP未観測共通原因 未観測共通原因 未観測共通原因ҼՌάϥϑ
課題2: 変数をどうとるか• マクロ変数とミクロ変数– 国レベルと個人レベル– 結果は一致するのか• 領域知識の利用– (論文)テキストデータ等から抽出• より一般に、データによる支援は可能?– 介入によるアルゴリズム (Chalupka et al. 2017)10Messerli, (2012)Chalupka et al. (2017)
まとめ: データ駆動による因果仮説探索• 機械学習に加えて、統計的因果推論– 因果グラフが領域知識で描ける場合は産業応用レベル– 描けない場合のデータによる支援が今後の鍵• 課題– 未観測共通原因– 変数をどうとるか– データによる支援はどこまでできるか• 科学/工学の発展を加速– 実験・調査、検証の効率化11
12
因果グラフに関する領域知識の利用• 領域情報+データから因果グラフを推測– 製造業• 製造条件• その中間の特性• 最終的な特性: 不良率など– 農業やマーケティングなどでも13最終特性条件1 条件10中間特性1 中間特性100…中間特性82中間特性8中間特性66 中間特性66中間特性16……… …因果探索