Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
因果推論のススメ/Causal inference no susume
Search
jinta
May 05, 2020
Technology
2
4.1k
因果推論のススメ/Causal inference no susume
因果推論について紹介ときのスライドです。事例多めに作ってあります
jinta
May 05, 2020
Tweet
Share
More Decks by jinta
See All by jinta
polarsの日本向けpluginを作ってる話(Polars Data Crunch #4)
jinta
0
90
Other Decks in Technology
See All in Technology
kubellが考える戦略と実行を繋ぐ活用ファーストのデータ分析基盤
kubell_hr
0
140
実践!カスタムインストラクション&スラッシュコマンド
puku0x
0
130
20250903_1つのAWSアカウントに複数システムがある環境におけるアクセス制御をABACで実現.pdf
yhana
2
350
Codeful Serverless / 一人運用でもやり抜く力
_kensh
4
230
AIエージェントの活用に重要な「MCP (Model Context Protocol)」とは何か
masayamoriofficial
0
290
【初心者向け】ローカルLLMの色々な動かし方まとめ
aratako
7
3.2k
AI時代にPdMとPMMはどう連携すべきか / PdM–PMM-collaboration-in-AI-era
rakus_dev
0
280
役割は変わっても、変わらないもの 〜スクラムマスターからEMへの転身で学んだ信頼構築の本質〜 / How to build trust
shinop
0
160
落ちる 落ちるよ サーバーは落ちる
suehiromasatoshi
0
140
Kubernetes における cgroup driver のしくみ: runwasi の bugfix より
z63d
2
220
カミナシ社の『ID管理基盤』製品内製 - その意思決定背景と2年間の進化 #AWSUnicornDay / Kaminashi ID - The Big Whys
kaminashi
3
810
AI エージェントとはそもそも何か? - 技術背景から Amazon Bedrock AgentCore での実装まで- / AI Agent Unicorn Day 2025
hariby
4
1.2k
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.5k
Designing for humans not robots
tammielis
253
25k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.6k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
Site-Speed That Sticks
csswizardry
10
810
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
520
The Cost Of JavaScript in 2023
addyosmani
53
8.9k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Transcript
因果推論のススメ 1 2020年5月5日
自己紹介 2 • 田中 仁 (たなか じん) • 大学、院で経済学を学ぶ • 最近の趣味:募集中。友人たちは家でできる趣味を始めていてうらやましい
• 最近知ったこと:昔よく行っていた狸谷山不動院で秋に立派なお祭りをやっていたらしいということ • 最近購入を検討しているもの:観葉植物 2 2
今日話すことと注意点 今日話すこと • 因果推論ことはじめ • イチオシの事例 3 3 3 今日話さないこと
• 因果探索 • 理論の詳細 • 経済学での事例 注意点 筆者の知識は偏ってます。 事例もコアすぎるかもしれません。あと細かい状況とかは適当に改変しています かなり説明を省いています。正確でないかも
因果とは? 4 画像は今回の話とは全く関係のないフリー素材ですが、テロがヘイトスピーチを増やしたか、みたいな論文 があって面白そうだったので読んでみようと思ってます。 Terre d'Asileはフランスの難民関係の NPOらしい です
どうやって因果を はかる? 5
例①:エンジン変えたら燃費よくなるのでは? 実際に変えて試してみる 例②:偉い人「定期的に転勤させちまったほうが業績あがる んだよ、うちみたいな会社は」 • 実際に変えて試してみる? ◦ なかなか試せるものではない ◦ よっぽどな経営者で試してみようとしたとして、どこをどう変えればいい?
因果効果のはかりかた 何をどうはかったら因果効果がいくらと言えるのかは難 しい問題 6 6 6
考えるためのフレームワーク 7 状況:D→Yの因果効果を知りたい アイデア:Dが起きた時の結果とDが起きなかった時の結果を比べる 7 7 Rubinの因果モデル/潜在結果アプローチ: causal effect =
❖ (dが起きた時と起きなかった時 )両方の結果を観測することは不可能!!! ➢ 個人単位でなく、平均を見る ❖ 「何と何を比べるか」が重要 ➢ d=1の集団とd=0の集団を比べるのに意味があるのはどういったときか
いつ因果効果をはかれるか 8 ①原因がランダムに割り当てられているとき 数式だと… Y(1)⊥D and Y(0)⊥D ②以下の3つに当てはまらないとき ③共通の要因を全てコントロールできた時 同じXを持つ人の中をみると、
Dかどうかはランダム 8 8 因果の流れが逆 共通の要因がある セレクションバイアス D Y D Y X Y D
いつ因果効果をはかれるか 9 ①原因がランダムに割り当てられているとき 数式だと… Y(1)⊥D and Y(0)⊥D ②以下の3つに当てはまらないとき ③共通の要因を全てコントロールできた時 同じXを持つ人の中をみると、
Dかどうかはランダム 9 9 因果の流れが逆 共通の要因がある セレクションバイアス D Y D Y X Y D ②③を確かめる(検定のような)手段はない ⇒どれだけ説得力のある説明ができるかが全て
注意 10 あまり明示されていないけど大事な仮定:SUTVA (Stable Unit Treatment Value Assumption) 意味:自分の結果は他の人がどうかに左右されない 10
10 例:セブンのビール実験中止 ネットで話題になりすぎて遠方からビールを求め にわざわざ実験対象の店舗まで来る輩が現れる ⇒例え実験実施店舗をランダムに割り当ててい るとしても、実際に導入したときに得られる効果 よりも大きく売上がでてしまう source 実際はこれだけが理由なら延期で十分なはずなので、中止にして今もそういう 話を聞かないのは他に深い理由があったのでしょう。知らんけど
ここまでのまとめ 11 D→Yの因果効果を知りたい ➢ Dが起きなかった時のY(反実仮想)と比較したい ➢ 実際は観測できない ➢ Dがランダムに割り当てられてる(あるいは色々と操作したうえでそうみなせる) ならば因果効果をはかることが出来る
11 11 →「ランダムな割り当てとみなせるように、色々とごにょごにょする」 とはどういうことか、実際に事例を見ていきます
事例1: コレラの感染経路? 12 因果推論の最初の例と言われる有名な事例 時は19世紀中ごろ、舞台はロンドン。産業革命下の大 都市を襲うパンデミックを食い止めようと駆け回っている 1人の医者がいた。彼の名は John Snow 当時、感染経路の主要な仮説は空気感染。一方でス
ノーは水が原因だと主張する。「まあ汚らしい。感染者の 排泄物を口から取り入れているわけないじゃないの」と 市民には全く受け入れられない。 そこで彼が水が感染経路だと証明するためにとった行 動とは?
Causality in the Time of Cholera 13 当時は水道会社の興隆期。上水道の水源をテムズ川上流に移した地区と変わりない地区を比 べることで、水こそが原因だと推定 13
13 1849年 1854年 North London South London 死亡率:高 死亡率:高 死亡率:高 水道管の変更 死亡率:低 1852年 水道管を変更しなかった時の South LondonのCounterfatualな結果を表す変数とし て、North Londonを用いることができるという発想
事例2: Stay-at-Homeはコロ ナに効いたか 14 どうせなので対になるような最新の事例を。ステイホー ムの政策が実際にコロナにどれほど効いたかを分析し た論文。 共通の要因の存在(隣の地区の流行度合い)や、そもそ も人々は政策的な指示がなくても外出を控えるようにな る、などこの政策自体の効果をピンポイントに測るのは
困難。 そこでスマホの位置情報のデータを用いて、 SHO (Stay at Home Order) が人の移動をどれだけ減らしたかを推 定。それと疫学モデルを組み合わせて結果を求める。
Causal Estimation of SHO on SARS-CoV-2 Transmission 15 SHO (Stay
at Home Order) は人の移動の減少というチャネルのみを通じてコロナ (の感染率)に影響すると仮定。SHOの効果は下図の①×②で推定される 15 15 SHO Moving COVID-19 New Cases ① 因果推論 ② 疫学モデル • スマホのデータを用いることで同じ個人について SHOが出る前後を比較可能に。 • 4月30日までに通常時比70%も移動が減少するも、①によると SHOによるものは16%、 関連する政策まとめた効果は約 50% • SHOに従うか否かは人によって大きく異なる ◦ Trump支持者はClinton支持者に比べて従わない • ①×②より、SHOは新型コロナの感染を7%減少させた
Partisan differences 16 感染者が多いのは民主党地盤の地域なので、民主党支持者が移動を減らすのは SHOの効果とは言い切れない。そこで隣接する支持層が違う地域を比べる 16 16 左図で赤がトランプが勝った選挙区、青 がクリントンが勝った選挙区。 A,Bは州は異なる(つまりSHOが異なる)
も支持層は同じ隣接する地域に住む2 人、 C,Dは州(and county)は同じ(つまりSHO は同じ)でも支持層が異なる隣接地域に 住む2人を表す。 彼らを比較することで人々がSHOにどう 反応するか、またその支持政党による違 いを取り出すことができる 出典:https://arxiv.org/ftp/arxiv/papers/2005/2005.05469.pdf
ビジネスと因果推論 17
なぜA/Bテストではだめなのか 18 1. 実験ができない場合がある a. 倫理的な問題(医療とかは顕著) b. 不公平感(ソシャゲとか) c. 費用(実世界だと結構かかる)
2. 単純な実験以上のことを知りたい a. 全員に同じ効果なわけがない b. 実験した後どうするかまでシームレスに考える 18 18 加えて、この辺の考え方を身に着けておくのは予測だけしたいピープルにとっ ても良いこと(だと思う)
事例3: ガチャ購入は プレイ継続を促すか 19 DeNAの記事より DeNAのソシャゲで、おまけ付き商品の購入がプレイ継 続につながっているのかを分析。ここでは初心者向けの 商品に注目。 そもそも商品を購入するような人はハマってるわけだか ら、プレイ継続が続きがちなのは自明。ではどうやって
おまけ付き商品の購入による因果効果を抽出するか 筆者は全くソシャゲをやったことがないので、これを ガチャと呼ぶのかは正直自信ないです
運用型ゲームの分析における因果推論の活用 20 • 考え方:商品購入までの行動履歴や属性から 商品の購入確率を推定。それを用いて購入 /非購入の違いのみに焦点をあてる • 単純に購入/非購入者を比較できない理由 :そもそも継続率が高いような人が商品を購入 する
• この方法で因果を主張するのに必要な仮定 :同じ購入確率の人を見れば、購入者も非購 入者も(購入、非購入で条件づけた)継続率が同じであること。 • 手法:IPW(購入確率で上手く重みづけて回帰することで購入者 /非購入者の属性の違いを 無視) • 結果:購入によって継続率は上昇した 20 20
事例4: Uber開発の Uplift Modeling 21 A/Bテストの先を見据えた例。なんとなく機械学習 ×因果 推論のメインストリーム感はある 論文にある例は広告のチャネルはどれがいいか(メール かSMSかアプリ内通知か)という話題。
実験はできるが、(i)複数個の介入がある、(ii)コストは介 入ごとに異なる、(iii)個人ごとに効果が違うだろう、 (iv)そ れらを踏まえてどうするのが最適か、つまり誰に何をす るのが最適か、まで知りたい。というかなり欲張りな 1 本。その分かなり現実で使えそうな印象
Uplift Modeling 22 機械学習を用いてCATE(グループごとの因果 効 果)を推定するメタアルゴリズムを改良すること で、複数個の介入及び施策ごとに異なるコスト を考慮したうえでNet Valueを最大にするアルゴ リズムを設計
22 22 右はとある販促キャンペー ンのオンライン実験を用い た例。 コストも踏まえて最適化した もの(黒、黄色)がNet Value が高いことが分かる 出典:https://arxiv.org/pdf/1908.05372.pdf
causalML 23 Githubにこれと関連したPythonのパッケージが上がってます 23 23
終わりに 24 この分野は制約が多くて考え方が結構トリッキーだったりして個人的にはとても面白いと思って います。仕事でやるやらないは別としても、おそらく僕はこれからもこの辺の話は追っていくので しょう 後半の事例で見たように、データをとる段階、データ分析後の施策の段階をそれぞれよく理解す ることがビジネスでの因果推論の肝になると思います。データ分析以外の段階にも意見を述べ られるような組織だとやりやすいんだろうなあという感想です。 24 24
参考にしたもの 25 • John Snowについての論文 • 上のに関するHeckman(経済学の超大物)の講義ノート • SHOの効果論文 •
Uberの因果推論に関する記事 • DeNAの記事 • UberのUplift Modeling論文 • Uberの関連するGithub 25 25
参考になるもの 26 1. 一般向けの読み物 ◦ データ分析の力 (伊藤)、「原因と結果」の経済学 (中室・津川) ◦ どちらも読んだことはないが、評価は高いよう。一般向けのは最近色々なジャンルで沢山出版されているので、適当に
本屋で選べばよいと思われる 2. 入門編 ◦ 効果検証入門(安井):最近サイバーエージェントの人が書いた本。立ち読みした感じだと読みやすくかつ内容もしっかり してそう。ビジネスで使いたい人を対象に書かれたものだろうが、必ずしも驚くべきビジネスの事例が盛りだくさんという わけではなさそう。 ◦ 岩波データサイエンス Vol3:おなじみのシリーズ。トピックは癖がある感じがするが、多分情報出の人とかにとっては読 みやすい 3. 中級編 ◦ ほとんど無害な計量経済学 (アングリスト・ピシュケ):いい本なんだけどなんか文章が読みやすくない、という評価でお なじみの1冊 ◦ Econometric method for program evaluation (Abadie & Cattaneo):経済学でよく使われる手法がコンパクトにまとまっ ている 4. 上級編 ◦ Causal Inference (Imbens & Rubin):バイブルみたいに言う人もいるが、ちょっと古いしパネルの話題もほとんどないの で、これを1冊あればなんでも解決!とはならない。この分野の第一人者が書いた良い教科書なのは間違いないが、 ちょっと重すぎる。これを読むなら関連する論文あされば十分という気もする 5. その他 ◦ 「因果関係」をとらえるために :弊社の先輩(お会いしたことはない)によるスライド。このスライドよりよっぽど親切丁寧な 説明。 26 26 あくまで個人の見解です。僕も全てを読んで いるわけではないので悪しからず
関連する面白そうな話題 27 • 因果探索 ◦ XXXの原因って何?みたいなざっくりした疑問に答えるもの ◦ まだ実際に使われている例は少なそうだが、面白そう • Mediation
Analysis ◦ 因果推論の手法のひとつ。因果の経路を知りたいときに使う。UberとかBooking.comとかで結構使われている らしい • Bandit ◦ もとは機械学習とかのトピックだと思うが、因果推論と相性が良いのかそっちの界隈でも耳にする • SCM ◦ Pearl流のそれ 27 27 詳しい人いたらぜひ教えてください m(_ _)m
おしまい 28