Slide 1

Slide 1 text

因果推論のススメ 1 2020年5月5日

Slide 2

Slide 2 text

自己紹介 2 ● 田中 仁 (たなか じん) ● 大学、院で経済学を学ぶ ● 最近の趣味:募集中。友人たちは家でできる趣味を始めていてうらやましい ● 最近知ったこと:昔よく行っていた狸谷山不動院で秋に立派なお祭りをやっていたらしいということ ● 最近購入を検討しているもの:観葉植物 2 2

Slide 3

Slide 3 text

今日話すことと注意点 今日話すこと ● 因果推論ことはじめ ● イチオシの事例 3 3 3 今日話さないこと ● 因果探索 ● 理論の詳細 ● 経済学での事例 注意点 筆者の知識は偏ってます。 事例もコアすぎるかもしれません。あと細かい状況とかは適当に改変しています かなり説明を省いています。正確でないかも

Slide 4

Slide 4 text

因果とは? 4 画像は今回の話とは全く関係のないフリー素材ですが、テロがヘイトスピーチを増やしたか、みたいな論文 があって面白そうだったので読んでみようと思ってます。 Terre d'Asileはフランスの難民関係の NPOらしい です

Slide 5

Slide 5 text

どうやって因果を はかる? 5

Slide 6

Slide 6 text

例①:エンジン変えたら燃費よくなるのでは?    実際に変えて試してみる 例②:偉い人「定期的に転勤させちまったほうが業績あがる んだよ、うちみたいな会社は」 ● 実際に変えて試してみる? ○ なかなか試せるものではない ○ よっぽどな経営者で試してみようとしたとして、どこをどう変えればいい? 因果効果のはかりかた 何をどうはかったら因果効果がいくらと言えるのかは難 しい問題 6 6 6

Slide 7

Slide 7 text

考えるためのフレームワーク 7 状況:D→Yの因果効果を知りたい アイデア:Dが起きた時の結果とDが起きなかった時の結果を比べる 7 7 Rubinの因果モデル/潜在結果アプローチ: causal effect = ❖ (dが起きた時と起きなかった時 )両方の結果を観測することは不可能!!! ➢ 個人単位でなく、平均を見る ❖ 「何と何を比べるか」が重要 ➢ d=1の集団とd=0の集団を比べるのに意味があるのはどういったときか

Slide 8

Slide 8 text

いつ因果効果をはかれるか 8 ①原因がランダムに割り当てられているとき  数式だと… Y(1)⊥D and Y(0)⊥D ②以下の3つに当てはまらないとき ③共通の要因を全てコントロールできた時  同じXを持つ人の中をみると、 Dかどうかはランダム 8 8 因果の流れが逆 共通の要因がある セレクションバイアス D Y D Y X Y D

Slide 9

Slide 9 text

いつ因果効果をはかれるか 9 ①原因がランダムに割り当てられているとき  数式だと… Y(1)⊥D and Y(0)⊥D ②以下の3つに当てはまらないとき ③共通の要因を全てコントロールできた時  同じXを持つ人の中をみると、 Dかどうかはランダム 9 9 因果の流れが逆 共通の要因がある セレクションバイアス D Y D Y X Y D ②③を確かめる(検定のような)手段はない ⇒どれだけ説得力のある説明ができるかが全て

Slide 10

Slide 10 text

注意 10 あまり明示されていないけど大事な仮定:SUTVA (Stable Unit Treatment Value Assumption) 意味:自分の結果は他の人がどうかに左右されない 10 10 例:セブンのビール実験中止 ネットで話題になりすぎて遠方からビールを求め にわざわざ実験対象の店舗まで来る輩が現れる ⇒例え実験実施店舗をランダムに割り当ててい るとしても、実際に導入したときに得られる効果 よりも大きく売上がでてしまう source 実際はこれだけが理由なら延期で十分なはずなので、中止にして今もそういう 話を聞かないのは他に深い理由があったのでしょう。知らんけど

Slide 11

Slide 11 text

ここまでのまとめ 11 D→Yの因果効果を知りたい ➢ Dが起きなかった時のY(反実仮想)と比較したい ➢ 実際は観測できない ➢ Dがランダムに割り当てられてる(あるいは色々と操作したうえでそうみなせる) ならば因果効果をはかることが出来る 11 11 →「ランダムな割り当てとみなせるように、色々とごにょごにょする」   とはどういうことか、実際に事例を見ていきます

Slide 12

Slide 12 text

事例1: コレラの感染経路? 12 因果推論の最初の例と言われる有名な事例 時は19世紀中ごろ、舞台はロンドン。産業革命下の大 都市を襲うパンデミックを食い止めようと駆け回っている 1人の医者がいた。彼の名は John Snow 当時、感染経路の主要な仮説は空気感染。一方でス ノーは水が原因だと主張する。「まあ汚らしい。感染者の 排泄物を口から取り入れているわけないじゃないの」と 市民には全く受け入れられない。 そこで彼が水が感染経路だと証明するためにとった行 動とは?

Slide 13

Slide 13 text

Causality in the Time of Cholera 13 当時は水道会社の興隆期。上水道の水源をテムズ川上流に移した地区と変わりない地区を比 べることで、水こそが原因だと推定 13 13 1849年 1854年 North London South London 死亡率:高 死亡率:高 死亡率:高 水道管の変更 死亡率:低 1852年 水道管を変更しなかった時の South LondonのCounterfatualな結果を表す変数とし て、North Londonを用いることができるという発想

Slide 14

Slide 14 text

事例2: Stay-at-Homeはコロ ナに効いたか 14 どうせなので対になるような最新の事例を。ステイホー ムの政策が実際にコロナにどれほど効いたかを分析し た論文。 共通の要因の存在(隣の地区の流行度合い)や、そもそ も人々は政策的な指示がなくても外出を控えるようにな る、などこの政策自体の効果をピンポイントに測るのは 困難。 そこでスマホの位置情報のデータを用いて、 SHO (Stay at Home Order) が人の移動をどれだけ減らしたかを推 定。それと疫学モデルを組み合わせて結果を求める。

Slide 15

Slide 15 text

Causal Estimation of SHO on SARS-CoV-2 Transmission 15 SHO (Stay at Home Order) は人の移動の減少というチャネルのみを通じてコロナ (の感染率)に影響すると仮定。SHOの効果は下図の①×②で推定される 15 15 SHO Moving COVID-19 New Cases ① 因果推論 ② 疫学モデル ● スマホのデータを用いることで同じ個人について SHOが出る前後を比較可能に。 ● 4月30日までに通常時比70%も移動が減少するも、①によると SHOによるものは16%、 関連する政策まとめた効果は約 50% ● SHOに従うか否かは人によって大きく異なる ○ Trump支持者はClinton支持者に比べて従わない ● ①×②より、SHOは新型コロナの感染を7%減少させた

Slide 16

Slide 16 text

Partisan differences 16 感染者が多いのは民主党地盤の地域なので、民主党支持者が移動を減らすのは SHOの効果とは言い切れない。そこで隣接する支持層が違う地域を比べる 16 16 左図で赤がトランプが勝った選挙区、青 がクリントンが勝った選挙区。 A,Bは州は異なる(つまりSHOが異なる) も支持層は同じ隣接する地域に住む2 人、 C,Dは州(and county)は同じ(つまりSHO は同じ)でも支持層が異なる隣接地域に 住む2人を表す。 彼らを比較することで人々がSHOにどう 反応するか、またその支持政党による違 いを取り出すことができる 出典:https://arxiv.org/ftp/arxiv/papers/2005/2005.05469.pdf

Slide 17

Slide 17 text

ビジネスと因果推論 17

Slide 18

Slide 18 text

なぜA/Bテストではだめなのか 18 1. 実験ができない場合がある a. 倫理的な問題(医療とかは顕著) b. 不公平感(ソシャゲとか) c. 費用(実世界だと結構かかる) 2. 単純な実験以上のことを知りたい a. 全員に同じ効果なわけがない b. 実験した後どうするかまでシームレスに考える 18 18 加えて、この辺の考え方を身に着けておくのは予測だけしたいピープルにとっ ても良いこと(だと思う)

Slide 19

Slide 19 text

事例3: ガチャ購入は プレイ継続を促すか 19 DeNAの記事より DeNAのソシャゲで、おまけ付き商品の購入がプレイ継 続につながっているのかを分析。ここでは初心者向けの 商品に注目。 そもそも商品を購入するような人はハマってるわけだか ら、プレイ継続が続きがちなのは自明。ではどうやって おまけ付き商品の購入による因果効果を抽出するか 筆者は全くソシャゲをやったことがないので、これを ガチャと呼ぶのかは正直自信ないです

Slide 20

Slide 20 text

運用型ゲームの分析における因果推論の活用 20 ● 考え方:商品購入までの行動履歴や属性から 商品の購入確率を推定。それを用いて購入 /非購入の違いのみに焦点をあてる ● 単純に購入/非購入者を比較できない理由 :そもそも継続率が高いような人が商品を購入 する ● この方法で因果を主張するのに必要な仮定 :同じ購入確率の人を見れば、購入者も非購 入者も(購入、非購入で条件づけた)継続率が同じであること。 ● 手法:IPW(購入確率で上手く重みづけて回帰することで購入者 /非購入者の属性の違いを 無視) ● 結果:購入によって継続率は上昇した 20 20

Slide 21

Slide 21 text

事例4: Uber開発の Uplift Modeling 21 A/Bテストの先を見据えた例。なんとなく機械学習 ×因果 推論のメインストリーム感はある 論文にある例は広告のチャネルはどれがいいか(メール かSMSかアプリ内通知か)という話題。 実験はできるが、(i)複数個の介入がある、(ii)コストは介 入ごとに異なる、(iii)個人ごとに効果が違うだろう、 (iv)そ れらを踏まえてどうするのが最適か、つまり誰に何をす るのが最適か、まで知りたい。というかなり欲張りな 1 本。その分かなり現実で使えそうな印象

Slide 22

Slide 22 text

Uplift Modeling 22 機械学習を用いてCATE(グループごとの因果 効 果)を推定するメタアルゴリズムを改良すること で、複数個の介入及び施策ごとに異なるコスト を考慮したうえでNet Valueを最大にするアルゴ リズムを設計 22 22 右はとある販促キャンペー ンのオンライン実験を用い た例。 コストも踏まえて最適化した もの(黒、黄色)がNet Value が高いことが分かる 出典:https://arxiv.org/pdf/1908.05372.pdf

Slide 23

Slide 23 text

causalML 23 Githubにこれと関連したPythonのパッケージが上がってます 23 23

Slide 24

Slide 24 text

終わりに 24 この分野は制約が多くて考え方が結構トリッキーだったりして個人的にはとても面白いと思って います。仕事でやるやらないは別としても、おそらく僕はこれからもこの辺の話は追っていくので しょう 後半の事例で見たように、データをとる段階、データ分析後の施策の段階をそれぞれよく理解す ることがビジネスでの因果推論の肝になると思います。データ分析以外の段階にも意見を述べ られるような組織だとやりやすいんだろうなあという感想です。 24 24

Slide 25

Slide 25 text

参考にしたもの 25 ● John Snowについての論文 ● 上のに関するHeckman(経済学の超大物)の講義ノート ● SHOの効果論文 ● Uberの因果推論に関する記事 ● DeNAの記事 ● UberのUplift Modeling論文 ● Uberの関連するGithub 25 25

Slide 26

Slide 26 text

参考になるもの 26 1. 一般向けの読み物 ○ データ分析の力 (伊藤)、「原因と結果」の経済学 (中室・津川) ○ どちらも読んだことはないが、評価は高いよう。一般向けのは最近色々なジャンルで沢山出版されているので、適当に 本屋で選べばよいと思われる 2. 入門編 ○ 効果検証入門(安井):最近サイバーエージェントの人が書いた本。立ち読みした感じだと読みやすくかつ内容もしっかり してそう。ビジネスで使いたい人を対象に書かれたものだろうが、必ずしも驚くべきビジネスの事例が盛りだくさんという わけではなさそう。 ○ 岩波データサイエンス Vol3:おなじみのシリーズ。トピックは癖がある感じがするが、多分情報出の人とかにとっては読 みやすい 3. 中級編 ○ ほとんど無害な計量経済学 (アングリスト・ピシュケ):いい本なんだけどなんか文章が読みやすくない、という評価でお なじみの1冊 ○ Econometric method for program evaluation (Abadie & Cattaneo):経済学でよく使われる手法がコンパクトにまとまっ ている 4. 上級編 ○ Causal Inference (Imbens & Rubin):バイブルみたいに言う人もいるが、ちょっと古いしパネルの話題もほとんどないの で、これを1冊あればなんでも解決!とはならない。この分野の第一人者が書いた良い教科書なのは間違いないが、 ちょっと重すぎる。これを読むなら関連する論文あされば十分という気もする 5. その他 ○ 「因果関係」をとらえるために :弊社の先輩(お会いしたことはない)によるスライド。このスライドよりよっぽど親切丁寧な 説明。 26 26 あくまで個人の見解です。僕も全てを読んで いるわけではないので悪しからず

Slide 27

Slide 27 text

関連する面白そうな話題 27 ● 因果探索 ○ XXXの原因って何?みたいなざっくりした疑問に答えるもの ○ まだ実際に使われている例は少なそうだが、面白そう ● Mediation Analysis ○ 因果推論の手法のひとつ。因果の経路を知りたいときに使う。UberとかBooking.comとかで結構使われている らしい ● Bandit ○ もとは機械学習とかのトピックだと思うが、因果推論と相性が良いのかそっちの界隈でも耳にする ● SCM ○ Pearl流のそれ 27 27 詳しい人いたらぜひ教えてください m(_ _)m

Slide 28

Slide 28 text

おしまい 28