Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
サイゼミ用因果推論
Search
LW
January 27, 2025
Science
1
1.9k
サイゼミ用因果推論
LW@lw_ruがサイゼミ用に作った因果推論の説明資料
LW
January 27, 2025
Tweet
Share
Other Decks in Science
See All in Science
メール送信サーバの集約における透過型SMTP プロキシの定量評価 / Quantitative Evaluation of Transparent SMTP Proxy in Email Sending Server Aggregation
linyows
0
620
Tensor Representations in Signal Processing and Machine Learning (Tutorial at APSIPA-ASC 2020)
yokotatsuya
0
100
20240420 Global Azure 2024 | Azure Migrate でデータセンターのサーバーを評価&移行してみる
olivia_0707
2
980
JSol'Ex : traitement d'images solaires en Java
melix
0
140
統計的因果探索: 背景知識とデータにより因果仮説を探索する
sshimizu2006
3
600
第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」
x_ttyszk
1
1.6k
白金鉱業Meetup Vol.16_数理最適化案件のはじめかた・すすめかた
brainpadpr
3
1.3k
地表面抽出の方法であるSMRFについて紹介
kentaitakura
1
250
マテリアルズ・インフォマティクスの先端で起きていること / What's Happening at the Cutting Edge of Materials Informatics
snhryt
1
170
Analysis-Ready Cloud-Optimized Data for your community and the entire world with Pangeo-Forge
jbusecke
0
130
大規模言語モデルの開発
chokkan
PRO
85
42k
Visual Analytics for R&D Intelligence @Funding the Commons & DeSci Tokyo 2024
hayataka88
0
130
Featured
See All Featured
Agile that works and the tools we love
rasmusluckow
328
21k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
11
920
Producing Creativity
orderedlist
PRO
343
39k
It's Worth the Effort
3n
184
28k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
Thoughts on Productivity
jonyablonski
69
4.4k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
98
18k
Transcript
第17回サイゼミ 因果推論パート 「相関関係は因果関係ではない」 のワンランク上に行く! LW@lw_ru 2025/1/26 水天宮前 1
もう「相関関係は因果関係でない」くらい誰でも知ってる時代 ・データ教育の充実によるベースライン向上 ・SNSのレスバにおける必殺技(不毛) この環境でワンランク上に行くためには…… ・因果関係でなかったら何なの? ・因果関係はどうすれば言える? という肯定形の知見を持っておきたい(割と難しい) 2 背景:データリテラシー向上とレスバの成熟
目標:「相関関係は因果関係ではない」のワンランク上へ ステップ1(定義):そもそも相関関係と因果関係はどう違う? ステップ2(種類):では因果関係ではない相関関係は何? ステップ3(方法):どうすれば相関関係から因果関係がわかる? ステップ4(困難):なぜ因果関係は難しいのか? ※今回は哲学ではなく数理の話です 3 本日の目標
定義: そもそも相関関係と 因果関係はどう違う? ステップ1 4
▪相関関係:観察結果 5 相関関係と因果関係の違い ▪因果関係:メカニズム Xが大きいときYも大きい(正の相関関係) Xが大きいときYは小さい(負の相関関係) ※厳密には線形関係に限るが気にしなくていい Xを大きくするとYも大きくなる(正の因果効果) Xを大きくするとYは小さくなる(負の因果効果) ※Xが原因でYが結果(X→Yと書く)
例)X:海難事故件数 Y:アイスの消費量 例)X:気温 Y:アイスの消費量 XとYの間に方向がない XとYの間に方向がある(X→YとY→Xを区別) 現象を記録した観察データを分析する 現象に介入した実験データを分析する 静的・過去的(かつて起きたことを検討) 動的・未来的(これから起こすことを検討) X Y
▪相関関係と因果関係の有無に対応する様々なケース 6 相関関係と因果関係のパターン 因果関係 あり 因果関係 なし 相関関係 あり X:摂取カロリー
Y:体重 直感的に関係あるものはここ X:海難事故件数 Y:アイスの消費量 色々なパターンがある 相関関係 なし X:深夜勉強時間 Y:テスト点数 疲労と成長が打ち消し合う場合 超特殊なレアケース X:俺の腹筋回数 Y:SONYの株価 世界の関係のほぼ全てはここ
▪因果関係あるなら相関関係あり、相関関係あっても因果関係は不明 7 相関関係と因果関係のパターン 因果関係 あり 因果関係 なし 相関関係 あり X:摂取カロリー
Y:体重 直感的に関係あるものはここ X:海難事故件数 Y:アイスの消費量 色々なパターンがある 相関関係 なし X:深夜勉強時間 Y:テスト点数 疲労と成長が打ち消し合う場合 超特殊なレアケース X:俺の腹筋回数 Y:任天堂の株価 世界の関係のほぼ全てはここ 特殊なので除外 あんまり興味を持つことがない 「相関関係があるとき因果関係があるか」が問題になりがち 例えば「X:睡眠時間 Y:年収」はどっち!? とりあえず因果関係ありなら相関関係ありと思ってOK
種類: では因果関係ではない 相関関係は何? ステップ2 8
▪状況整理:相関関係から因果関係を知りたい データを見てXY間に相関関係が存在することは既にわかっている XとYの背後にある因果構造を知りたい! 1. XY間に相関関係が発生する因果構造のパターンを全て洗い出す (どれかには該当しているはず) 2. 今回のケースがどのパターンに該当するのかを確かめる (特にX→Yのパターンに該当するかチェック) 9
今から考えるべき問題 事 故 ア イ ス 本当にX→Yなのか……? 事 故 ア イ ス 気 温 ※:因果構造とは 「因果関係が作る構造」くらいの意味
▪XY間に相関関係がある前提での、因果構造の全パターン (これら全てのケースでXY間に相関関係が生じている) 10 相関関係が発生するパターン集 X Y X Y Z X
Y Z X Y Z X Y X Y 何もないケース 直接因果関係があるケース 直接因果関係はないが 第三変数Zが仲介するケース X Y Z ←Z固定時のみ (あとで解説) たまたま似た 1 2 3 4 5 6 7
▪ XY間に相関関係がある前提での、因果構造の全パターン 11 相関関係が発生するパターン集 X Y X Y Z X
Y Z X Y Z X Y X Y 何もないケース 直接因果関係があるケース 直接因果関係はないが 第三変数Zが仲介するケース X Y Z ←Z固定時のみ (あとで解説) たまたま似た X→Yの因果関係がある ケースはこれしかない!! このケースの扱いは状況による 間接的な因果関係しかない(直接はない)
▪何もないけどたまたま似たケース 例)離婚率とマーガリン消費量 意外とバカにできない!! 世界の関係は多すぎるから 探せばいくらでも相関関係のペアは作れる 運ゲーなのでたまたまハマると最悪 12 相関関係が発生するパターン集 X Y
たまたま似た
▪直接因果関係があるケース 観察データだけでは向きが確定できないことに注意 よく考えずに逆の介入が決行されることもよくある 例)X:課金額→Y:アイテムY 実際は課金するとアイテムYを貰えるだけ(X→Y) でも「アイテムYを与えると課金額が増えるのでは ……?」などと考えがち!! (Y→X) 13 相関関係が発生するパターン集
X Y X Y 直接因果関係があるケース
▪チェーン(連鎖)による仲介 X→Yは直接繋がっていない Z次第で相関関係が消えてしまう 例)X:炎→Z:煙→ Y:火災報知器(煙検知式) 通常はX→Yだが炎自体ではなく煙を検知している 火災報知器をカバーで覆うと鳴らなくなる X→YとX→Z→Yが同時発生するケースも多い 例)X:頑張り →
Z:結果→ Y:評価 結果次第で頑張りから評価への効果が上下 14 相関関係が発生するパターン集 X Y Z X Y Z X Y Z 直接因果関係はないが 第三変数Zが仲介するケース X Y Z ←Z固定時のみ (あとで解説) X Y Z
▪フォーク(分岐)による仲介 最も典型的な疑似相関(交絡とも言う) 例)X:アイス消費← Z:気温→Y:海難事故件数 Zには根本的で抽象的な量が入ることが多い 例)X:ログイン数← Z:モチベ→Y:課金額 Zへの干渉は難しくてお手上げになりがち 「それが出来たら苦労はしないよ」 15
相関関係が発生するパターン集 X Y Z X Y Z X Y Z 直接因果関係はないが 第三変数Zが仲介するケース X Y Z ←Z固定時のみ (あとで解説)
▪コライダー(衝突)による仲介 やや知名度が低いワンランク上のケース Zをある値や範囲に固定したとき疑似相関発生 例)X:数学の点→Z:合計点← Y:国語の点 合計100点で固定すればXとYの間に負の相関 (ある会社内で)能力高いやつは性格悪い傾向 があるのもこのメカニズム 16 相関関係が発生するパターン集
X Y Z X Y Z X Y Z 直接因果関係はないが 第三変数Zが仲介するケース X Y Z ←Z固定時のみ (あとで解説)
方法: どうすれば相関関係から 因果関係がわかる? ステップ3 17
▪状況整理 XとYに相関関係があることはデータからわかった (データから機械的に計算可能) 背景の因果構造は7種類のどれかのはず…… で、どれ!? 18 今から考えるべき問題 X Y X
Y Z X Y Z X Y Z X Y X Y X Y Z たまたま似た 1 2 3 4 5 6 7
▪相関関係から因果関係を調べる方法 19 三つの大方針 ①常識で考える! ②実験する! ③分析する! ※「実験」と「分析」はほぼ専門用語 かなり狭い意味で異なる方法論を指す 「実験して分析する」みたいな日常語ではない
▪常識で考える! 意外と重要 これでかなり絞り込めるため 例)性別、時給、労働時間、年収(全729通り) 20 相関関係から因果関係を調べる方法①:常識 常識で考える! 性 別 年
収 労 働 時 間 時 給 性 別 年 収 労 働 時 間 時 給 性 別 年 収 労 働 時 間 時 給 有り得る 調べる価値あり 有り得ない 時間の無駄!
▪実験する! X→Yを確かめるため、実際にXに介入すること 例)X:毒→Y:死 ただしX以外の原因でYが起こらないように工夫して比較する 1.全ての条件を揃える(直感的だが基本無理) 双子の一方にだけ毒を注入して比較 毒以外の条件が同じなので純粋な毒の効果がわかる 2.ランダムに割り当てる(よくやるやつ) 全人類のランダムで半数に毒を注入して比較 毒以外の影響が均されるので平均的な毒の効果がわかる
※ Zが絡んでいるケースでも有効! ※ 観察データと実験データで読み方が変わることに注意! 21 相関関係から因果関係を調べる方法②:実験 実験する!
▪分析する! 第三変数Zが仲介するケースでZを排除すること(因果分析) Zの固定を切り替えて XとYの相関を調べると Zの影響を排除した XとYの直接相関がわかる 22 相関関係から因果関係を調べる方法:③分析 分析する! X
Y Z X Y Z X Y Z X Y Z
▪フォーク(分岐)でZを固定して影響を排除 例)X:アイス消費← Z:気温→Y:海難事故件数 気温25℃のときのデータだけ見ればよくない? ↓ アイス消費量と海難事故件数に相関がなくなり、 この二つに直接の相関がないことがわかる! 23 相関関係から因果関係を調べる方法:③分析 X
Y Z X Y Z X Y Z X Y Z Zの固定を切り替えて XとYの相関を調べると Zの影響を排除した XとYの直接相関がわかる
▪チェーン(連鎖)でZを固定して影響を排除 例)X:炎→Z:煙→ Y:火災報知器 煙が出てないときのデータだけ見ればよくない? ↓ 炎と火災報知器の相関が消える(絶対鳴らない) この二つに直接の相関がないことがわかる! 24 相関関係から因果関係を調べる方法:③分析 X
Y Z X Y Z X Y Z X Y Z Zの固定を切り替えて XとYの相関を調べると Zの影響を排除した XとYの直接相関がわかる
▪コライダー(衝突)でZを動かして影響を排除 例) X:数学の点→Z:合計点← Y:国語の点 (Zを100点に固定したときXとYに負の相関) 100点以外の合計点も見ればよくない? ↓ 数学と国語の点に相関がなくなれば、 この二つに直接の相関がないことがわかる! 25
相関関係から因果関係を調べる方法:③分析 X Y Z X Y Z X Y Z X Y Z Zの固定を切り替えて XとYの相関を調べると Zの影響を排除した XとYの直接相関がわかる
困難: なぜ因果関係は 難しいのか? ステップ4 26
▪どの方法にも欠陥がある!! 27 大方針それぞれの欠陥 常識で考える! 実験する! 分析する! ある程度はわかるが 全てわかるわけではない 実験できない状況が多い サンプル数や倫理の問題
実は理論的に確定できないし 世界の因子は多すぎる
▪常識路線の欠陥 既知の知見でわからないことを知りたいので 全て常識で決めようとするのは本末転倒 絞り込むだけで結論までは出せない ただ頑張って実験・分析するより専門家に聞けば 済むことは割とよくある 28 因果関係を調べる方法の欠陥:①常識 常識で考える!
▪実験路線の欠陥 そう簡単に実験できないのが現実 ・介入自体に問題がある 有害かもしれない薬を飲ませられない ソシャゲでユーザー間に意味もなく差をつけられない ・実験用の集団が確保できない ある病気にかかっている人自体が少ない ・状況の偏りをコントロールできない あらゆる消費行動にコロナの影響が付きまとうここ数年! 29
因果関係を調べる方法の欠陥:②実験 実験する!
▪分析路線の欠陥 1. 理論的な限界 Zを固定したらXとYに相関がなくなったとする よく考えたらチェーンかフォークか区別できなくね? 2. 現実的な限界 未知因子の影響を完全に排除することは不可能 世界の要素は無限にあるので…… 30
因果関係を調べる方法の欠陥:③分析 分析する! X Y Z X Y Z X Y Z α β
まとめ あと余談 31
・相関関係は観察から判明、因果関係は介入から判明 ・「相関関係あり、因果関係なし」には色々なパターンがある ・常識、実験、分析によって背後の因果構造を確かめられる ・ただし因果の検証には限界があり万能の方法はない 32 まとめ 完