統計的因果推論勉強会 第2回

 統計的因果推論勉強会 第2回

経営学系統計学エンドユーザーのための,統計的因果推論勉強会の第2回です。ブログエントリーはこちらです。
http://hikaru1122.hatenadiary.jp/entry/2016/06/25/221339

5629c98d3766b578151bf7674162fe7a?s=128

Hikaru Goto

June 25, 2016
Tweet

Transcript

  1. ౷ܭతҼՌਪ࿦ ษڧձ ୈ2ճ 2016೥6݄25೔ 1

  2. ౰ษڧձͷ࢟੎ • จܥܦӦֶܥ౷ܭֶΤϯυϢʔβʔʹΑΔ • ΤϯυϢʔβʔͷͨΊͷษڧձ • ࣗ෼ͷݚڀʹͲ͏Ԡ༻͢Δ͔Λॏࢹ͢Δ 2

  3. ؔ࿈χϡʔε ؠ೾σʔλαΠΤϯε Vol.3ʰҼՌਪ࿦ʱ͕ൃץʂ ͥͻखʹऔͬͯΈ͍ͯͩ͘͞ʂ ͍ͬͯ͏͔ɼങ͏ͱ͍͍Ͱ͢ɻ 3

  4. ࠓճͷൣғ • ٶ઒ຊʰ౷ܭతҼՌਪ࿦ʱୈ2ষɹ17ʙ35ϖʔδ • ੕໺ຊʰௐࠪ؍࡯σʔλͷ౷ܭՊֶʱୈ2ষɹ 35ʙ50ϖʔδ • ಋೖ෦ͷ࠷ޙ ·࣮ͩࡍͷ෼ੳͰ͖ΔΑ͏ʹ͸ͳΒͳ͍ʂ 4

  5. લճͷ෮श • ௐࠪ؍࡯ݚڀΛ͍͔ʹ࣮ݧݚڀʹ͚ۙͮΔ͔͕େ ࣄɻ • γϯϓιϯͷύϥυοΫε • ॲஔ܈ʢ࣮ݧ܈ʣͱରর܈ʢඇॲஔ܈ʣ • આ໌ม਺ʢಠཱม਺ʣͱ݁Ռม਺ʢैଐม਺ʣ

    5
  6. ࠓ೔ͷΩʔϫʔυ • જࡏ൓ԠϞσϧɾ൓࣮Ծ૝Ϟσϧ • ҼՌޮՌɾฏۉॲஔޮՌʢATEʣ • ަབྷ • ڞมྔ •

    ܏޲είΞ 6
  7. ٶ઒ຊɹୈ2ষ ʮ౷ܭతҼՌਪ࿦ͷओ໨త͸ɼॲཧม਺͕൓Ԡม਺ ʹٴ΅͢ҼՌؔ܎ΛఆྔతʹධՁ͠ɼͦΕΛར༻͢ Δ͜ͱʯʢ17ทʣ 7

  8. ٶ઒ຊɹୈ2ষ ʮڞ෼ࢄ෼ੳʹ͓͚Δิॿଌఆ஋ͱ͸ɼ࣮ݧͷॳظ ஈ֊Ͱͷ͹Β͖ͭΛࣔ͢ڞมྔͰ͋ͬͯɼҼࢠʢॲ ཧʣͷӨڹΛड͚ΔதؒಛੑͰ͋ͬͯ͸ͳΒͳ͍ʯ ʢ19ทʣ ্ͷ ໊͕ٛม਺ʹͳͬͯΔͷ͕ڞ෼ࢄ෼ੳ ʢ௒େͬ͟ͺʣ 8

  9. ٶ઒ຊɹୈ2ষ • ҼՌਪ࿦ͷجຊ໰୊ʢࠜຊ໰୊ʣ ʮҼՌޮՌ͸ਪఆͰ͖ͳ͍ʯʢ26ทʣ 9

  10. ٶ઒ຊɹୈ2ষ • ڧ͍ҙຯͰͷແࢹՄೳੑʢٶ઒ຊʣ • ڧ͘ແࢹͰ͖ΔׂΓ౰ͯ৚݅ʢ੕໺ຊʣ ʮׂΓ౰ͯ͸͋͘·ͰڞมྔʹͷΈґଘ͠ɼ݁Ռม ਺ʹ͸ґଘ͠ͳ͍ʯʢ43ทʣ • ແ࡞ҝׂΓ෇͚ͬΆ͘͢Δ •

    Ͳ͏͍͏ͱ͖ʹڧ͍ҙຯͰແࢹՄೳͰ͋Δ͔͸౷ ܭ෼ੳ͚ͩͰ͸Θ͔Βͳ͍ɻ 10
  11. ҼՌμΠΞάϥϜΛ ࢖͑ʂ 11

  12. ੕໺ຊɹୈ2ষ • ൓࣮Ծ૝Ϟσϧʗજࡏ൓ԠϞ σϧ counterfactual model potential outcomes model •

    ΋͠΋ͷ͓࿩ɻ྆ํͱ΋஋͕ ଘࡏ͢Δ͸ͣɻͰ΋ɼ࣮ࡍ͸ Ұํ͔͠؍ଌ͞Εͳ͍ • ౷ܭతҼՌਪ࿦͸ܽଌͷσʔ λΛ෼ੳ͢Δ͜ͱ 12
  13. ੕໺ຊɹୈ2ষ • ҼՌޮՌ ʹ ʮॲஔ܈ͷ݁Ռʯʔʮରর܈ͷ݁Ռʯͷࠩ 13

  14. ͨͩ͠ ແ࡞ҝׂΓ౰ͯ ͩͬͨΒ 14

  15. ੕໺ຊɹୈ2ষ ʮҼՌޮՌ͸ॲஔ܈ͱରর܈͕ͲͷΑ͏ͳ฼ूஂ͔ Βநग़͞Εͨ΋ͷͰ͋Δ͔ʹґଘ͢Δʯʢ39ทʣ ʮڞมྔͷӨڹΛআڈ͢Δʯʢ41ʙ42ทʣ 15

  16. ੕໺ຊɹୈ2ষ ʮڞมྔΛ৚݅෇͚Ε͹ɼy ,y ͷಉ࣌෼෍ͷܗ ͸ͲͪΒͷ܈ʹ෼͚ΒΕ͔ͨʹ͸ґଘ͠ͳ͍ʯʢ44 ทʣ 16

  17. ੕໺ຊɹୈ2ষ • ͡Ό͋ɼڞมྔΛͲ͏ௐ੔͢Δ͔ʁ • طଘͷҼՌޮՌͷਪఆํ๏ʹ͸͍Ζ͍Ζ໰୊͕͋ Δʢ45ʙ57ทʣ 17

  18. ͦ͜Ͱɼηϛύϥ ϝτϦοΫͳਪఆ Λߦ͓͏ʂ 18

  19. ࣍ճʹͭͮ͘ʢຊ͸ʣ 19

  20. ܏޲είΞΛ࢖ͬͨ؆୯ͳ෼ੳྫ ΍ͬͯΈΑ͏ʂ • ੴଜɾੴଜʢ2015ʣͷσʔλΛ͓आΓ͠·͠ ͨɻͦͷࡍɼঢ়گઃఆΛม͑·ͨ͠ɻ ͢Έ·ͤΜɻ • ঢ়گม͍͑ͯΔͷͰɼ݁Ռ͸σλϥϝͰ͢ɻ • ໰ʮঢਐ͸޾෱౓ʹରͯ͠ҼՌޮՌΛ͍࣋ͬͯΔ

    ͔ʯ 20
  21. 21

  22. σʔλʹ͍ͭͯ • ڞมྔ͸ੑผɼίϛϡྗɼചΓ্͛ 22

  23. ී௨ʹtݕఆʢ༗ҙࠩͳ͠ʣ #ͱΓ͋͑ͣ܈ผͰฏۉΛݟͯΈΔɻ > by(dat[,"happy"], dat[,"promote"], mean) dat[, "promote"]: ঢਐͳ͠ [1]

    2.853333 ------------ dat[, "promote"]: ঢਐ͋Γ [1] 4.48 #tݕఆ > t.test(promote0$happy, promote1$happy) Welch Two Sample t-test data: promote0$happy and promote1$happy t = -2.2515, df = 6.6525, p-value = 0.06101 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -3.35328611 0.09995278 sample estimates: mean of x mean of y 2.853333 4.480000 23
  24. ܏޲είΞͰϚονϯά #܏޲είΞΛग़͢ɻ ps_score <- glm(promote ~ gender + commu +

    sales, family = binomial, data = dat2) #ϚονϯάʹඞཁͳσʔλΛऔΓग़͢ɻ dat$keikou.score <- ps_score$fitted.values keikou.score <- ps_score$fitted.values happy <- dat2$happy warituke <- dat2$promote #ϚονϯάͰ2܈ͷฏۉͷࠩΛݟΔɻ kekka <- Match(Y=happy, Tr=warituke, X=keikou.score, M=1) summary(kekka) • ATE Ͱ͸ͳ͘ ATT(TET) Ͱ͢ɻ 24
  25. ༗ҙͳ͕ࠩݟΒΕΔɻ > summary(kekka) Estimate... 2.2 AI SE...... 0.90173 T-stat..... 2.4398

    p.val...... 0.014697 Original number of observations.............. 20 Original number of treated obs............... 5 Matched number of observations............... 5 Matched number of observations (unweighted). 5 • ঢਐʹΑͬͯ޾෱౓͕ߴ·Δʢ΢ιʣ 25
  26. ͲΜͳ૊Έ߹Θ͔ͤͩͬͨʁ • ͔ͨ͠ʹ܏޲είΞ͕͍ۙϚονϯά > kekka$index.treated [1] 16 17 18 19

    20 > kekka$index.control [1] 4 6 12 3 12 26
  27. ࢀߟจݙ ٶ઒ຊ ੕໺ຊ ੴଜః෉ɾੴଜ༑ೋ࿠ʢ2015ʣʮSPSSʹΑΔ܏޲ είΞͱϚονϯάͷखॱʯɼʰ௽ݟେֶلཁɹୈ 4෦, ਓจɾࣾձɾࣗવՊֶฤʱ(52), 31-34ɻ 27