Slide 1

Slide 1 text

第17回サイゼミ 因果推論パート 「相関関係は因果関係ではない」 のワンランク上に行く! LW@lw_ru 2025/1/26 水天宮前 1

Slide 2

Slide 2 text

もう「相関関係は因果関係でない」くらい誰でも知ってる時代 ・データ教育の充実によるベースライン向上 ・SNSのレスバにおける必殺技(不毛) この環境でワンランク上に行くためには…… ・因果関係でなかったら何なの? ・因果関係はどうすれば言える? という肯定形の知見を持っておきたい(割と難しい) 2 背景:データリテラシー向上とレスバの成熟

Slide 3

Slide 3 text

目標:「相関関係は因果関係ではない」のワンランク上へ ステップ1(定義):そもそも相関関係と因果関係はどう違う? ステップ2(種類):では因果関係ではない相関関係は何? ステップ3(方法):どうすれば相関関係から因果関係がわかる? ステップ4(困難):なぜ因果関係は難しいのか? ※今回は哲学ではなく数理の話です 3 本日の目標

Slide 4

Slide 4 text

定義: そもそも相関関係と 因果関係はどう違う? ステップ1 4

Slide 5

Slide 5 text

■相関関係:観察結果 5 相関関係と因果関係の違い ■因果関係:メカニズム Xが大きいときYも大きい(正の相関関係) Xが大きいときYは小さい(負の相関関係) ※厳密には線形関係に限るが気にしなくていい Xを大きくするとYも大きくなる(正の因果効果) Xを大きくするとYは小さくなる(負の因果効果) ※Xが原因でYが結果(X→Yと書く) 例)X:海難事故件数 Y:アイスの消費量 例)X:気温 Y:アイスの消費量 XとYの間に方向がない XとYの間に方向がある(X→YとY→Xを区別) 現象を記録した観察データを分析する 現象に介入した実験データを分析する 静的・過去的(かつて起きたことを検討) 動的・未来的(これから起こすことを検討) X Y

Slide 6

Slide 6 text

■相関関係と因果関係の有無に対応する様々なケース 6 相関関係と因果関係のパターン 因果関係 あり 因果関係 なし 相関関係 あり X:摂取カロリー Y:体重 直感的に関係あるものはここ X:海難事故件数 Y:アイスの消費量 色々なパターンがある 相関関係 なし X:深夜勉強時間 Y:テスト点数 疲労と成長が打ち消し合う場合 超特殊なレアケース X:俺の腹筋回数 Y:SONYの株価 世界の関係のほぼ全てはここ

Slide 7

Slide 7 text

■因果関係あるなら相関関係あり、相関関係あっても因果関係は不明 7 相関関係と因果関係のパターン 因果関係 あり 因果関係 なし 相関関係 あり X:摂取カロリー Y:体重 直感的に関係あるものはここ X:海難事故件数 Y:アイスの消費量 色々なパターンがある 相関関係 なし X:深夜勉強時間 Y:テスト点数 疲労と成長が打ち消し合う場合 超特殊なレアケース X:俺の腹筋回数 Y:任天堂の株価 世界の関係のほぼ全てはここ 特殊なので除外 あんまり興味を持つことがない 「相関関係があるとき因果関係があるか」が問題になりがち 例えば「X:睡眠時間 Y:年収」はどっち!? とりあえず因果関係ありなら相関関係ありと思ってOK

Slide 8

Slide 8 text

種類: では因果関係ではない 相関関係は何? ステップ2 8

Slide 9

Slide 9 text

■状況整理:相関関係から因果関係を知りたい データを見てXY間に相関関係が存在することは既にわかっている XとYの背後にある因果構造を知りたい! 1. XY間に相関関係が発生する因果構造のパターンを全て洗い出す (どれかには該当しているはず) 2. 今回のケースがどのパターンに該当するのかを確かめる (特にX→Yのパターンに該当するかチェック) 9 今から考えるべき問題 事 故 ア イ ス 本当にX→Yなのか……? 事 故 ア イ ス 気 温 ※:因果構造とは 「因果関係が作る構造」くらいの意味

Slide 10

Slide 10 text

■XY間に相関関係がある前提での、因果構造の全パターン (これら全てのケースでXY間に相関関係が生じている) 10 相関関係が発生するパターン集 X Y X Y Z X Y Z X Y Z X Y X Y 何もないケース 直接因果関係があるケース 直接因果関係はないが 第三変数Zが仲介するケース X Y Z ←Z固定時のみ (あとで解説) たまたま似た 1 2 3 4 5 6 7

Slide 11

Slide 11 text

■ XY間に相関関係がある前提での、因果構造の全パターン 11 相関関係が発生するパターン集 X Y X Y Z X Y Z X Y Z X Y X Y 何もないケース 直接因果関係があるケース 直接因果関係はないが 第三変数Zが仲介するケース X Y Z ←Z固定時のみ (あとで解説) たまたま似た X→Yの因果関係がある ケースはこれしかない!! このケースの扱いは状況による 間接的な因果関係しかない(直接はない)

Slide 12

Slide 12 text

■何もないけどたまたま似たケース 例)離婚率とマーガリン消費量 意外とバカにできない!! 世界の関係は多すぎるから 探せばいくらでも相関関係のペアは作れる 運ゲーなのでたまたまハマると最悪 12 相関関係が発生するパターン集 X Y たまたま似た

Slide 13

Slide 13 text

■直接因果関係があるケース 観察データだけでは向きが確定できないことに注意 よく考えずに逆の介入が決行されることもよくある 例)X:課金額→Y:アイテムY 実際は課金するとアイテムYを貰えるだけ(X→Y) でも「アイテムYを与えると課金額が増えるのでは ……?」などと考えがち!! (Y→X) 13 相関関係が発生するパターン集 X Y X Y 直接因果関係があるケース

Slide 14

Slide 14 text

■チェーン(連鎖)による仲介 X→Yは直接繋がっていない Z次第で相関関係が消えてしまう 例)X:炎→Z:煙→ Y:火災報知器(煙検知式) 通常はX→Yだが炎自体ではなく煙を検知している 火災報知器をカバーで覆うと鳴らなくなる X→YとX→Z→Yが同時発生するケースも多い 例)X:頑張り → Z:結果→ Y:評価 結果次第で頑張りから評価への効果が上下 14 相関関係が発生するパターン集 X Y Z X Y Z X Y Z 直接因果関係はないが 第三変数Zが仲介するケース X Y Z ←Z固定時のみ (あとで解説) X Y Z

Slide 15

Slide 15 text

■フォーク(分岐)による仲介 最も典型的な疑似相関(交絡とも言う) 例)X:アイス消費← Z:気温→Y:海難事故件数 Zには根本的で抽象的な量が入ることが多い 例)X:ログイン数← Z:モチベ→Y:課金額 Zへの干渉は難しくてお手上げになりがち 「それが出来たら苦労はしないよ」 15 相関関係が発生するパターン集 X Y Z X Y Z X Y Z 直接因果関係はないが 第三変数Zが仲介するケース X Y Z ←Z固定時のみ (あとで解説)

Slide 16

Slide 16 text

■コライダー(衝突)による仲介 やや知名度が低いワンランク上のケース Zをある値や範囲に固定したとき疑似相関発生 例)X:数学の点→Z:合計点← Y:国語の点 合計100点で固定すればXとYの間に負の相関 (ある会社内で)能力高いやつは性格悪い傾向 があるのもこのメカニズム 16 相関関係が発生するパターン集 X Y Z X Y Z X Y Z 直接因果関係はないが 第三変数Zが仲介するケース X Y Z ←Z固定時のみ (あとで解説)

Slide 17

Slide 17 text

方法: どうすれば相関関係から 因果関係がわかる? ステップ3 17

Slide 18

Slide 18 text

■状況整理 XとYに相関関係があることはデータからわかった (データから機械的に計算可能) 背景の因果構造は7種類のどれかのはず…… で、どれ!? 18 今から考えるべき問題 X Y X Y Z X Y Z X Y Z X Y X Y X Y Z たまたま似た 1 2 3 4 5 6 7

Slide 19

Slide 19 text

■相関関係から因果関係を調べる方法 19 三つの大方針 ①常識で考える! ②実験する! ③分析する! ※「実験」と「分析」はほぼ専門用語 かなり狭い意味で異なる方法論を指す 「実験して分析する」みたいな日常語ではない

Slide 20

Slide 20 text

■常識で考える! 意外と重要 これでかなり絞り込めるため 例)性別、時給、労働時間、年収(全729通り) 20 相関関係から因果関係を調べる方法①:常識 常識で考える! 性 別 年 収 労 働 時 間 時 給 性 別 年 収 労 働 時 間 時 給 性 別 年 収 労 働 時 間 時 給 有り得る 調べる価値あり 有り得ない 時間の無駄!

Slide 21

Slide 21 text

■実験する! X→Yを確かめるため、実際にXに介入すること 例)X:毒→Y:死 ただしX以外の原因でYが起こらないように工夫して比較する 1.全ての条件を揃える(直感的だが基本無理) 双子の一方にだけ毒を注入して比較 毒以外の条件が同じなので純粋な毒の効果がわかる 2.ランダムに割り当てる(よくやるやつ) 全人類のランダムで半数に毒を注入して比較 毒以外の影響が均されるので平均的な毒の効果がわかる ※ Zが絡んでいるケースでも有効! ※ 観察データと実験データで読み方が変わることに注意! 21 相関関係から因果関係を調べる方法②:実験 実験する!

Slide 22

Slide 22 text

■分析する! 第三変数Zが仲介するケースでZを排除すること(因果分析) Zの固定を切り替えて XとYの相関を調べると Zの影響を排除した XとYの直接相関がわかる 22 相関関係から因果関係を調べる方法:③分析 分析する! X Y Z X Y Z X Y Z X Y Z

Slide 23

Slide 23 text

■フォーク(分岐)でZを固定して影響を排除 例)X:アイス消費← Z:気温→Y:海難事故件数 気温25℃のときのデータだけ見ればよくない? ↓ アイス消費量と海難事故件数に相関がなくなり、 この二つに直接の相関がないことがわかる! 23 相関関係から因果関係を調べる方法:③分析 X Y Z X Y Z X Y Z X Y Z Zの固定を切り替えて XとYの相関を調べると Zの影響を排除した XとYの直接相関がわかる

Slide 24

Slide 24 text

■チェーン(連鎖)でZを固定して影響を排除 例)X:炎→Z:煙→ Y:火災報知器 煙が出てないときのデータだけ見ればよくない? ↓ 炎と火災報知器の相関が消える(絶対鳴らない) この二つに直接の相関がないことがわかる! 24 相関関係から因果関係を調べる方法:③分析 X Y Z X Y Z X Y Z X Y Z Zの固定を切り替えて XとYの相関を調べると Zの影響を排除した XとYの直接相関がわかる

Slide 25

Slide 25 text

■コライダー(衝突)でZを動かして影響を排除 例) X:数学の点→Z:合計点← Y:国語の点 (Zを100点に固定したときXとYに負の相関) 100点以外の合計点も見ればよくない? ↓ 数学と国語の点に相関がなくなれば、 この二つに直接の相関がないことがわかる! 25 相関関係から因果関係を調べる方法:③分析 X Y Z X Y Z X Y Z X Y Z Zの固定を切り替えて XとYの相関を調べると Zの影響を排除した XとYの直接相関がわかる

Slide 26

Slide 26 text

困難: なぜ因果関係は 難しいのか? ステップ4 26

Slide 27

Slide 27 text

■どの方法にも欠陥がある!! 27 大方針それぞれの欠陥 常識で考える! 実験する! 分析する! ある程度はわかるが 全てわかるわけではない 実験できない状況が多い サンプル数や倫理の問題 実は理論的に確定できないし 世界の因子は多すぎる

Slide 28

Slide 28 text

■常識路線の欠陥 既知の知見でわからないことを知りたいので 全て常識で決めようとするのは本末転倒 絞り込むだけで結論までは出せない ただ頑張って実験・分析するより専門家に聞けば 済むことは割とよくある 28 因果関係を調べる方法の欠陥:①常識 常識で考える!

Slide 29

Slide 29 text

■実験路線の欠陥 そう簡単に実験できないのが現実 ・介入自体に問題がある 有害かもしれない薬を飲ませられない ソシャゲでユーザー間に意味もなく差をつけられない ・実験用の集団が確保できない ある病気にかかっている人自体が少ない ・状況の偏りをコントロールできない あらゆる消費行動にコロナの影響が付きまとうここ数年! 29 因果関係を調べる方法の欠陥:②実験 実験する!

Slide 30

Slide 30 text

■分析路線の欠陥 1. 理論的な限界 Zを固定したらXとYに相関がなくなったとする よく考えたらチェーンかフォークか区別できなくね? 2. 現実的な限界 未知因子の影響を完全に排除することは不可能 世界の要素は無限にあるので…… 30 因果関係を調べる方法の欠陥:③分析 分析する! X Y Z X Y Z X Y Z α β

Slide 31

Slide 31 text

まとめ あと余談 31

Slide 32

Slide 32 text

・相関関係は観察から判明、因果関係は介入から判明 ・「相関関係あり、因果関係なし」には色々なパターンがある ・常識、実験、分析によって背後の因果構造を確かめられる ・ただし因果の検証には限界があり万能の方法はない 32 まとめ 完