Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
効果検証入門1章
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
fhiyo
May 21, 2020
Science
550
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
効果検証入門1章
fhiyo
May 21, 2020
More Decks by fhiyo
See All by fhiyo
Security_Engineering___Third_Edition_Chapter.20.pdf
fhiyo
0
33
Security_Engineering___Third_Edition_Chapter.21.pdf
fhiyo
0
35
Git再入門
fhiyo
0
160
言語処理のための機械学習入門 1.1〜1.4
fhiyo
0
96
オプトにおける自然言語生成の応用事例
fhiyo
6
790
【論文紹介】Forecasting at Scale
fhiyo
1
720
統計的因果探索に入門してみた
fhiyo
0
560
【論文紹介】Deep Inside Convolutional Networks Visualising Image Classification Models and Saliency Maps -- Simonyan Vedaldi Zisserman 2013 in ArXiv.pdf
fhiyo
0
1.6k
Other Decks in Science
See All in Science
知能とはなにか -ヒトとAIのあいだ-
tagtag
PRO
1
110
J-STAGE全文XML登載必須化について
xspa2012
0
880
データベース04: SQL (1/3) 単純質問 & 集約演算
trycycle
PRO
0
1.5k
「遂行理論の未来」(松島斉教授最終講義記念セッションの発表資料)
shunyanoda
0
930
1. CPC理論の展開と集合的知能モデル(JSAI2026 KS-27 集合的予測符号化と新たな知性の時代)
hayashiyus884
1
210
AkarengaLT vol.40
hashimoto_kei
0
110
Wet Active Matter
rajeshrinet
0
110
機械学習 - 決定木からはじめる機械学習
trycycle
PRO
0
1.5k
Kritische evaluatie van GenAI-output voor literatuuronderzoek
voginip
0
180
AkarengaLT vol.41
hashimoto_kei
1
140
因果推論と機械学習
sshimizu2006
1
1.2k
東北地方における過去20年間の降水量の変化
naokimuroki
1
290
Featured
See All Featured
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
210
Paper Plane (Part 1)
katiecoart
PRO
0
9.2k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
330
Typedesign – Prime Four
hannesfritz
42
3.1k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
350
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
240
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
210
Discover your Explorer Soul
emna__ayadi
2
1.1k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Google's AI Overviews - The New Search
badams
0
1k
RailsConf 2023
tenderlove
30
1.5k
Transcript
効果検証入門1章 @fhiyo
Introduction 因果推論の2種類のアプローチ - Donald Rubin (統計学) - Judea Pearl (疫学)
本書はルービンのアプローチに則して解説がされている。パールのアプローチはDAGな どの直感的なツールを持つ一方、実証論文ではほとんど登場していない、らしい 教科書:https://www.amazon.co.jp/dp/B0834JN23Y サンプルコード: https://github.com/ghmagazine/cibook/ 原因 効果 結果
Introduction 本書の構成 1章: セレクションバイアスとランダム化比較実験 (RCT) 2章: 介入効果を測るための回帰分析 3章: 傾向スコアを用いた分析 4章:
差分の差分法 (DiD) とCausalImpact 5章: 回帰不連続デザイン (RDD)
1.1 セレクションバイアス
1.1.1 効果 効果: ビジネスにおいてとった何らかのアクションが売上などのビジネス上重要なKPI (Key Performance Index) に与える影響のこと 介入 (施策/措置)
: ビジネスにおいて取る何らかのアクションのこと 実験計画を立てずに特定のアクションのみの効果を計測することは非常に難しい。たと えば以下の要因が計測したいアクションと同時に起こる場合、それらの効果を切り離し て考えることが難しい - 商品やサービスのリニューアル - 別の広告キャンペーン - ポイントの配布やキャッシュバック - 競合他社の広告キャンペーン
1.1.2 潜在的な購買量の差 例: あるECサイトにおけるクーポンメール配信 の売上への効果の推定 クーポンメールの効果は、「クーポンメール を送った場合の売上」から「何もしなかった 場合の売上」の差と考えられる メール配信は予算の都合上一部のユー ザーのみに実施する
(ユーザーの選定方法 によってはグループ間の潜在的な購買量に 差が生まれる) クーポンメー ル の効果 (介入効果) 青: 潜在的な購買量 赤: 施策を実施した後の購買量
1.1.3 誤った施策の検証 メール配信の施策を行ったのでその施策の効果が どの程度であったかを推定したい よくある検証例 1. 「メール配信あり」と「メール配信なし」のグ ループの購買量の平均を比較 2. 平均同士の検定なのでt検定で効果を検証
3. 有意水準0.05で有意→効果があったと結論 メール配信に よる効果?
1.1.3 誤った施策の検証 メール配信の施策を行ったのでその施策の効果が どの程度であったかを推定したい よくある検証例 1. 「メール配信あり」と「メール配信なし」のグ ループの購買量の平均を比較 2. 平均同士の検定なのでt検定で効果を検証
3. 有意水準0.05で有意→効果があったと結論 メール配信に よる効果? →効果を過剰に見積もっている危険がある
1.1.3 誤った施策の検証 メール配信の裏側の仕組み メール配信可能ユーザーに対して、以下の条件の うち1つ以上を満たすユーザーにはメールを配信す る - 過去の購買額が一定以上 - 直近の購買がX日前以降
- クーポン対象商品の購買履歴がある セレクション バイアス 本当のメール の効果 メールがなく ても買う量 単純に比較 する部分 → 潜在的な傾向が違うため、メール配信がなくても購買量が多かった 「もともとフェアな比較じゃない」ということ。買うモチベーションが高い人に配 信してた。
1.1.3 誤った施策の検証 バイアス: データから得られた分析結果と本当の効 果の乖離 セレクションバイアス: 比較しているグループの潜 在的な傾向が違うことによって発生するバイアス このバイアスの存在を認識し、取り除く処置を行わ なければ介入に対する効果の推定が正しくできな
い (ビジネスにおける誤った意思決定がなされてし まう) セレクション バイアス 本当のメール の効果 メールがなく ても買う量 単純に比較 する部分
1.2 RCT (Randomized Controlled Trial)
1.2.1 本当の「効果」と理想的な検証方法 実際の施策 各ユーザーに対して施策を実 施した場合としなかった場合 の売上の差 本来欲しいデータ (得ることが不可能) 「母集団全体の」平均 を出している
「母集団全体 の」平均同士 の差 = 効果
1.2.1 本当の「効果」と理想的な検証方法 現実で得られるデータ 当然、介入を行った ユーザーの介入しな かったときの売上はわ からない (因果推論の根本問題 ) Y(0)とY(1)のうち片方
は欠損しているので 差は不明 「欠損がないサンプル の」平均を出している 「欠損がないサンプル の」平均同士の差を 効果として出してい る。欠損の出方に傾 向があるため効果に セレクションバイアス が乗っている
1.2.1 本当の「効果」と理想的な検証方法 現実で得られるデータ 当然、介入を行った ユーザーの介入しな かったときの売上はわ からない (因果推論の根本問題 ) Y(0)とY(1)のうち片方
は欠損しているので 差は不明 「欠損がないサンプル の」平均を出している 「欠損がないサンプル の」平均同士の差を 効果として出してい る。欠損の出方に傾 向があるため効果に セレクションバイアス が乗っている 欠損のないサンプルの平均しか出せない AND サンプル内の欠損の位置は介入の有無で決まる ↓ 「母集団全体のY(0)の平均」と「介入しないグループのY(0)の平均」 「母集団全体のY(1)の平均」と「介入するグループのY(1)の平均」 が一致するように介入を行えばよい ↓ ランダム化比較実験 (RCT)
1.2.2 RCTによる検証 「欠損がないサンプル の」平均を出している 「欠損がないサンプル の」平均同士の差を 効果として出してい る。介入をランダムに 行ったためセレクショ ンバイアスが消えて
いる 介入を行うグループを 乱数で決定した
1.2.2 RCTによる検証 介入を実施する対象をランダムに選択→セレクションバイアスが無くなる 2つの集団はさまざまな属性を持つユーザーがおり、平均すると同じような集団になって いる (同じ分布になっている) ※ ABテストはRCTである。ABテストと言いつつ実際は2つの施策を単純に比較しただ けだった、というのはよくある話
ここまでのまとめ ビジネス上得られるデータは介入の有無を何らかの指標に基づいて決めている事が多 い。 また、介入の有無によってサンプル内の欠損の位置が決まる。 よって、売上の期待値 (平均) は欠損の位置に依存する よって、介入の有無に関する売上の期待値の差 (効果) は母集団に対する介入の方針
に依存する (セレクションバイアスが乗る危険がある) 施策による効果が分かる状況: 施策以外の要因が同一になったとき 効果を実際のデータから測る方法: RCT (Randomized Controlled Trial) 統計調査の種類には全数調査と標本調査が存在するが、因果分析の文脈では全数調 査が不可能になる (因果推論の根本問題のため)。
1.3 効果を測る理想的な方法
1.3.1 母集団と推定 母集団: 調査対象の集合全体のこと 推定: 手元にあるデータ (標本) から母集団の性質を推測すること 介入の効果検証の大まかな目標: 母集団に対する介入の効果を推定すること
1.3.2 ポテンシャルアウトカムフレームワーク ポテンシャルアウトカムフレームワーク: あるサンプルにおいて、介入が行われた場合の 結果Y(1)と行われなかった場合の結果Y(0)があることを考え、その差に介入の本当の 効果があると考えること Y(1)とY(0)はどちらか一方しか観測されない。このときの観測されない側の結果をポテ ンシャルアウトカムとよぶ。 : ポテンシャルアウトカム
1.3.3 ポテンシャルアウトカムフレームワークによる介入 効果の推定 Y(1)とY(0)の両方が観測されれば介入効果はすぐに分かるが、現実では不可能 →配信されたユーザーのグループと配信されなかったユーザーのグループでの平均的 な効果の比較を考える どちらかは欠損するの で差は分からない 平均の差から 求められる
1.3.4 平均的な効果 平均処理効果 (Average Treatment Effect: ATE): 母集団における平均的な効果 本書の基本的な課題は、入手したデータからいかにしてこの式におけるτを正しく推定す るか、にある
セレクション バイアス 本当のメール の効果 メールがなく ても買う量 単純に比較 する部分
1.3.5 平均的な効果の比較とセレクションバイアス グループ間の平均の比較は実際には何を推定する方法になっているのか? : セレクションバイアス 本当に計算したい値 (効果) グループ間の平均の比較 →条件付き期待値同士の差を計算している
1.3.6 介入の決まり方がセレクションバイアスの有無を 決める メールが配信されないときの売上は、そのユーザーの潜在的な購買傾向を表す。 セレクションバイアスである↑の比較はそれぞれのグループの潜在的な購買傾向を比較 していることになる。つまりセレクションバイアスとは、介入対象のユーザーと、介入対象 でないユーザーにおける、介入がされなかったときの売上の違い。 推定している値がそもそも介入による効果ではない値になっている。いくらサンプルサイ ズを増やそうとこのバイアスは解消されないのは当たり前である
1.3.7 RCTを行った疑似データでの比較 介入がランダムに、つまり効果と介入が独立に行われるため以下の式が成り立つ よって、 RCTの条件のもとでは単純なグループ間の平均の比較が平均処理効果と等しいことが 示された
1.3.8 有意差検定の概要と限界 メールを配信したときと配信しなかったときのYの平均の差が0かどうかを検証する→t検 定、と安易に実行してもダメ - 等分散性を仮定して本当に良いのか? (等分散性を別途検定すると多重検定の問 題が。。。) - 有意水準は0.05でいいのか?
- 有意だと結果が出ても、メール配信の平均効果が10円だったらどうか? (効果量に ついて考えているか?) - セレクションバイアスがないような条件で実験しているか? 検定はどちらかというと、「この結果が得られたときは効果があるとしよう」という取り決 めに近い
1.4 Rによるメールマーケティングの効果の 検証
デモ
1.5 ビジネスにおける因果推論の必要性
1.5.1 RCTの実行にはコストがかかる クーポンメール配信をRCTで行うということは、売上の効率を無視してメールを配信する ことに他ならない。よってRCTで実験を行いたくない状況も多々存在する。 また、たとえばある法律の「効果」を検証したいとき、法律を人によってランダムに適用し たりしなかったりするのは事実上不可能なので、RCTが行えない状況もある。 2章以降は理想的にはRCTでデータをデザインして分析したいが、それが不可能な場合 にRCTの結果を近似するような手法について述べられている
1.5.2 セレクションバイアスが起きる理由 セレクションバイアスは介入 (施策) の効果を高めるために発生することが多い。(例: クーポンメールを購買確率が高いとECサイト側が判断したユーザーに送る) つまり、セレクションバイアスは予測不可能な事象ではなく、介入を選択できる人やシス テムの行動原理に基づくもの。予想が立てられるので、回避方法も考えることができる。