ゆるふわ因果推論入門 / casual talk about causal inference

ゆるふわ因果推論入門

3. おすすめ書籍 2.実例・ランダム化比較実験・自然実験と擬似実験・回帰分析 1.因果推論とは

自己紹介 # VRChat ・名前: ちとせちゃん・プレイ歴: 2022/01 ~ ・DS集会主催・VRC学園6期卒
・BAR sideFiRE 店員 # Twitter ・DS用: @chitose_ng ・VRC用: @chitose_ng_vrc # 仕事・統計モデルとか因果推論とか　シミュとか。  ・機械学習は稀・某DSベン図だとビジネス寄り・マネジ補佐(休止中) # 言語とか・R、Python、SQL ・Tableau # その他・ブログ「まずは蝋の翼から」・Tableau本を出版(共著) ・Kaggleﾁｮｯﾄｼﾃﾙ

因果推論とは

因果推論って何？「もしXだったら結果はどうなるか」「もしXしなかったら結果はどうなるか」 Xの因果効果 (反実仮想) この2つを考えることでを測る ※ Rubin流とPearl流の考え方があり、上記およびこれからの話はRubin流の話です

Xの例「薬Aを飲んだ」ときの血圧への効果は？「TVCMを打った」ときの売上への効果は？「VRChatをすること」による幸福度への効果は？「毎日30分走った」ときの体重への効果は？

どうやって効果をはかる？・、のちとせちゃんは毎日ランニングをすることにしました。　その結果、半年後のにになりました。　ちとせちゃんにとってのはどれくらいでしょう？ 2022年1月
体重75kg 2022年7月体重が70kg ランニングの効果 2022年1月 75kg 70kg 2022年7月

どうやって効果をはかる？単純に考えてみると、なので効果は！・・・本当に？ 75kg→70kg -5kg 2022年1月 75kg -5kg
70kg 2022年7月

神の視点で見る実は「ランニングの効果」はではなくだった。。 → ので　実はランニング( )通勤しなくなる( )の結果、
という結果が出ていた -5kg -8kg 2022年3月からフルリモートワークになったので通勤をしなくなった「フルリモート」効果が+3kg分あった -8kg +3kg -5kg 2022年1月 75kg -8kg+3kg = -5kg 70kg 2022年7月

神の視点で見るつまり、単純に2022年1月と7月のではが絡んでくる。そのうちのは神の視点じゃない限りよくわからん結果を比較をするだけ色々な要因ランニング要素だけの効果 2022年1月
75kg -5kg 70kg 2022年7月 -5kg -8kg +3kg +1kg -1kg = ランニング( ) + リモートワーク( ) + 基礎代謝減少( ) + 仕事ストレス( )

神の視点ではない解決策解決策の自分と比較するランニングをしなかった世界線「もしランニングをしなかったら体重はどれくらいだったか」 2022年1月 75kg ランニングをした世界線：70kg 2022年7月ランニングをしなかった世界線：78kg
差：8kg

神の視点ではない解決策解決策の自分と比較するランニングをしなかった世界線「もしランニングをしなかったら体重はどれくらいだったか」 2022年1月 75kg ランニングをした世界線：70kg 2022年7月ランニングをしなかった世界線：78kg
差：8kg そんなんタイムマシンないと無理でしょ

そもそも平行世界の自分で比較すると何故「効果」がわかるか平行世界のなので以外の体重に関わることはでも起きている。なので、「自分」「ランニングの有無」「ランニングをしなかった自分」同条件比較
同条件での差分 = ランニングの効果 2022年1月ランニングをした世界線：70kg 条件条件 2022年7月ランニングをしなかった世界線：78kg

そもそも平行世界の自分で比較すると何故「効果」がわかるか平行世界のなので以外の体重に関わることはでも起きている。なので、「自分」「ランニングの有無」「ランニングをしなかった自分」同条件比較
同条件での差分 = ランニングの効果 6/100 % 2022年1月ランニングをした世界線：70kg 条件条件 2022年7月ランニングをしなかった世界線：78kg 「ランニングの有無」以外同じ条件の人がいるなら平行世界の自分じゃなくてもできるのでは？

「ランニングの有無」以外が同条件の人と比較体重への影響要素似たランニングをしなかった人にランニングしなかったら+3kg 78kgになっていたランニングの効果は70kg - 78kg =
-8kg が自分と、と比較する。なりたちゃんから察するなので、自分はと考えると 2022年1月 2022年7月 75kg ちとせちゃんなりたちゃん 70kg 79kg 76kg -5kg +3kg 年齢: 17歳身長: 180cm リモートワークなし残業時間:70h ランニングなし年齢: 18歳身長: 178cm リモートワークなし残業時間:75h ランニングなし年齢: 18歳身長: 178cm 3月からリモートワーク残業時間:70h ランニングなし年齢: 17歳身長: 180cm 3月からリモートワーク残業時間:70h ランニングあり

どうやって効果をはかる？もちろん「似た人」とはいえので、などでは生まれる → コピー人間ではないちょっとした違いや偶然「ランニングをしなかった平行世界の自分」とのブレ「似た人」をいっぱい集めたら平均的には違いのブレが打ち消される
2022年1月 2022年7月 +2kg -5kg +3kg +4kg ちとせちゃんなりたちゃんはねだちゃんせんとれあちゃんランニングをしてないグループ平均は +3kg

考え方のまとめ・効果を測るときに、　理想を言えば・タイムマシンなどがない限りなので、ができるか？・とは、目的変数に対してのうち　
こと・・・これをどうやったら実現できるか考えるのがという分野。「Xをした自分」と「Xをしなかった自分(反実仮想)」を比較したい無理どうやれば現実的な正しい比較正しい比較関係ありそうな要因「Xの有無」以外が（できる限り）同じ条件の人らを反実仮想とみなして比較する因果推論

よくある条件を揃えてないのに「効果」としてる例・ECサイトがした。　そのとき、とのをとして算出 →クーポンメールは、に送っている場合が多いため
　とは (よく購買行動をするなど)ので、になっている・・・みたいな。ある一定のユーザーにクーポンメールを配布クーポンメールを受け取ったユーザー　受け取らなかったユーザー平均購買額の差クーポンの効果クーポンをより使いそうなユーザークーポンメールを受け取ったユーザー受け取らなかったユーザー　そもそも購買傾向が違う　ここで計算された「効果」は間違って過剰クーポンメール配信ありメールがなくても買う平均購買額メールがなくても買う平均勾配額購買額の差分 = 間違って効果と思い込む部分本当のメール効果平均購買額平均購買額クーポンメール配信なし

適切な効果の測り方

適切な効果の測り方 (再掲) ・効果を測るときに、　理想を言えばとを比較したい・タイムマシンなどがない限り無理なので、ができるか？・正しい比較とは、のうち
　すること > このあたりをどうするか。「Xをした自分」「Xをしなかった自分(反実仮想)」どうやれば現実的な正しい比較目的変数に対して関係ありそうな要因「Xの有無」以外が（できる限り）同じ条件の人らを反実仮想とみなして比較「Xの有無」以外が（できる限り）同じ条件の人らを反実仮想とみなして比較

1 2 3 ランダム化比較実験(RCT) 回帰分析自然実験と擬似実験条件を同じにするための手法

1 2 3 ランダム化比較実験(RCT) 回帰分析自然実験と疑似実験条件を同じにするための手法

①ランダム化比較実験（RCT) ・Xを「する」「しない」をことででの比較となる・いわゆる(ちゃんとした）A/Bテストとかはこれ。・のでこれでできるならそれに越したことはないが、　がかかったり、ちゃんとやるにはが地味にめんどい。
ランダムに割り振る平均的な効果は(処置以外）同じ条件理想に近い金や手間設計ランダムに決める Xするグループ Xしないグループ

①ランダム化比較実験（RCT)の例クーポンメールはに送るのが普通。ランダムに送る場合はがある。つまり、ではのでわざわざを作る必要がある
→コストがかかる！「購買数を最大化できるようなユーザー」「購買が見込めなさそうなユーザー」「購買行動が起きづらい時間帯」などにも送る必要通常のビジネスにおいて蓄積されるデータ RCT条件下ではない分析のためにコストを捻出したデータ

1 2 3 WebClipで貯めたデータを自由に可能カスタマイズ回帰分析自然実験と擬似実験条件を同じにするための手法

②自然実験と疑似実験 RCTは前述の理由で。そのため、RCTっぽいことが起きている状態を見つけてきていい感じに分析をおこなう自然実験測定したい効果に対してデータ例）患者の死亡率に医師の性別は関係あるか？　　→ 普通に比較すると、男性の方が重篤患者に接することが多いので
　　→ホスピタリスト（シフト勤務で勤務中にたまたま運ばれた患者を担当）は　　　ので疑似実験を作り出すことで反実仮想を補完(後述) できない場合が多い偶然RCTのような状況になっている比較できない性別で患者の重篤者は変わらない男女で条件は同じ統計的な手法を用いてRCTのような状況

疑似実験: RDD 回帰不連続デザイン（RDD:Regression Discontinuity Design) 「Xがされたかどうか」はで決めている場合、は「Xがされるかどうか」の要因にことを利用して Xの効果を測る
あるルールをもとにした閾値閾値付近の人実質的に違いがない

疑似実験: RDDの例・数学の中間テストの結果がはを受けさせられる。　このを測るには？・中間テストの結果がとの数学能力は
　と考えられる。 →39点の生徒群と40点の生徒群の (の中間試験範囲）のは　と考えられる 40点未満の生徒補講補講の効果 39点の生徒群 40点の生徒群補講前段階でほぼ同等期末試験結果の差「補講の有無」によって生じている

疑似実験: RDDの例・39点の生徒群と40点の生徒群の　( をとして補完）補講前の数学能力という前提条件が揃っている閾値の前後反実仮想中間テスト点数
差分5点が補講の効果 39 38 40 41 期末テストの中間範囲点数平均40 期末テストの中間範囲点数平均45

疑似実験: DID 差分の差分法(DID:Difference In Difference) をすると、景気のようなが内包される。そのため、Xの有無以外のを用いてする
はじめの「ランニングの効果」の例が似た話。 Xがされる前後で値を比較トレンドなど状況が近しい相手「Xがされていない」状況を仮想

疑似実験: DID例ワクチン接種の効果を測りたい！以下のデータがある。・2020年7月時点では・2020年11月時点では・A,B区はしているのでと考えられる →コロナ感染者数に関して
。　(隣接地区をとして補完） A,B区ともにワクチン接種がおこなわれてない AはおこなわれているがBではおこなわれていない隣接コロナに対しての諸条件　（都内の感染者トレンドや都の施策、住民の質など）は同質「ワクチン接種」以外は（ほぼ）同じ条件！反実仮想

疑似実験: DID例諸条件が同じ同様のトレンドがあるのため、A,B区はと想定される感染者数 A区 B区 B区の前後差値
B区の前後差値 B区の前後差値・A区の前後差値の差 A区の前後差値 2020年4月 2020年11月

疑似実験: 傾向スコアマッチング・ (傾向スコア）して、　実際にXされた人とされなかった人で・そのマッチングできた人らで →マッチング相手とは！　(マッチングされた相手をとして補完）
Xをされるかどうかを確率化確率が同じ人同士をマッチング比較 X以外の条件が同じ反実仮想

疑似実験: 傾向スコアマッチング例「10年後年収アッププログラム」を受けた効果があったか見る。確率: 0.5、10年後年収: 700万確率: 0.4、10年後年収: 300万確率:
0.3、10年後年収: 380万確率: 0.5、10年後年収: 600万マッチング差分:+100万差分:+20万差分:+80万確率: 0.4、10年後年収: 280万確率: 0.3、10年後年収: 300万差分の平均は+70万弱 = このプログラムの効果マッチングマッチングプログラムを受けたグループプログラムを受けてないグループ

1 2 3 WebClipで貯めたデータを自由に可能カスタマイズ回帰分析自然実験と疑似実験条件を同じにするための手法

回帰分析自然実験/疑似実験をうまくできないことも多い。その際は回帰分析を用いることででの効果をする。は例) 家賃 = α駅からの距離
+ β面積 + 定数 + σ αは面積が同様の場合、駅からの距離が1km増えたときの家賃の変化量 βは駅からの距離が同様の場合、面積が1m^2増えたときの家賃の変化量これを利用して、を入れてをから求める「同じ条件」解析的に推定偏回帰係数他の変数の値が同じ場合、その変数が1変化するときのyの変化量 Xをされたかのダミー変数他の影響が同じ場合=同じ条件での効果偏回帰係数

回帰分析例前述のクーポンメールの例過去の購買額が高いほど今月の購買額は高い傾向にあるので、ほどメールが送られる。上記のような重回帰式を組むことでをすることができる過去の購買額が高い今月の購買額 =
α クーポンメールが送付されたか + β 過去の購買額 + γ + σ 「過去の購買額が同様の場合に、クーポンメールが送付された際の(平均的な)効果」 αから推定

おすすめ書籍

おすすめ書籍・「2. 適切な効果の測り方」で紹介した内容は　結構・他の手法や回帰分析をうまくやる方法などを　向けにいくつか紹介・上ほどですが、　一方で
・初級の壁=B3、中級の壁=M1くらいのニュアンス細かい説明を端折っているちゃんと知りたい人数式が少ない厳密な理解よりイメージ理解優先原因と結果の経済学学力の経済学実証分析入門実証分析のための計量経済学計量経済学の第一歩計量経済学の使い方効果検証入門中級初級難易度岩波DS vol3 計量経済学(浅野・中村) 計量経済学(末石) ほとんど無害な計量経済学新しい計量経済学調査観測データの統計科学

「原因と結果」の経済学データから真実を見抜く思考法・計量経済学の手法を向け・、図によるイメージによる理解・という軸に沿った解説がされており非常にわかりやすく、　文字数も少ないため読み物感覚の一冊目としてさくっと読むのによいざっくり理解したい人
数式はなく「反実仮想による補完」

実証分析入門データから「因果関係」を読み解く作法・計量経済学の手法を向け・で、直感的な理解が得られる・論文ベースでのとで読みやすい。・以下は目次の一部抜粋
ざっくり理解したい人数式はおまけ程度豊富な実例軽快な口調

実証分析のための計量経済学（手元になかったから記憶で書いてます）・計量経済学の手法を向け・かつ、  　を用いて理解できる・「実証分析入門」と同レベルだが、  　
向けざっくり理解したい人教科書的になりすぎない読みやすさ簡単な数式もう少し数式的に理解したい人

計量経済学の第一歩 -- 実証分析のススメ・計量経済学の手法を向け・各種理論を数式でちゃんと説明しつつ、  　に収めている・図なども豊富なので、ある程度ちゃんと理解したい人
難しすぎない範疇ちゃんと理解することへの第一歩

効果検証入門～正しい比較のための因果推論・で書いていたり、が　載っているので計量経済学の人向けというよりかは　向け・内容やレベルは「計量経済学の第一歩」と同程度・本書はRで書かれているが、
　有志が本書のあり・「なんかDSとして機械学習以外に、因果推論？も　やっといた方がいいらしい？」みたいな空気感のときに　出たので一時期めっちゃ売れた気がするし　因果推論(Rubin)の概念の認知度が上がった気がするビジネス観点プログラム実コードビジネスデータサイエンティストの人 RコードをPythonにした記事

3. おすすめ書籍 2.実例 1.因果推論とは・ランダム化比較実験・自然実験と擬似実験おわり

ゆるふわ因果推論入門 / casual talk about causal inference

ゆるふわ因果推論入門 / casual talk about causal inference

More Decks by Chitose

Other Decks in Business

Featured

Transcript