効果検証入門1章

効果検証入門1章 @fhiyo

Introduction 因果推論の2種類のアプローチ - Donald Rubin (統計学) - Judea Pearl (疫学)
本書はルービンのアプローチに則して解説がされている。パールのアプローチはDAGなどの直感的なツールを持つ一方、実証論文ではほとんど登場していない、らしい教科書:https://www.amazon.co.jp/dp/B0834JN23Y サンプルコード: https://github.com/ghmagazine/cibook/ 原因効果結果

Introduction 本書の構成 1章: セレクションバイアスとランダム化比較実験 (RCT) 2章: 介入効果を測るための回帰分析 3章: 傾向スコアを用いた分析 4章:
差分の差分法 (DiD) とCausalImpact 5章: 回帰不連続デザイン (RDD)

1.1 セレクションバイアス

1.1.1 効果効果: ビジネスにおいてとった何らかのアクションが売上などのビジネス上重要なKPI (Key Performance Index) に与える影響のこと介入 (施策/措置)
: ビジネスにおいて取る何らかのアクションのこと実験計画を立てずに特定のアクションのみの効果を計測することは非常に難しい。たとえば以下の要因が計測したいアクションと同時に起こる場合、それらの効果を切り離して考えることが難しい - 商品やサービスのリニューアル - 別の広告キャンペーン - ポイントの配布やキャッシュバック - 競合他社の広告キャンペーン

1.1.2 潜在的な購買量の差例: あるECサイトにおけるクーポンメール配信の売上への効果の推定クーポンメールの効果は、「クーポンメールを送った場合の売上」から「何もしなかった場合の売上」の差と考えられるメール配信は予算の都合上一部のユーザーのみに実施する
(ユーザーの選定方法によってはグループ間の潜在的な購買量に差が生まれる) クーポンメールの効果 (介入効果) 青: 潜在的な購買量赤: 施策を実施した後の購買量

1.1.3 誤った施策の検証メール配信の施策を行ったのでその施策の効果がどの程度であったかを推定したいよくある検証例 1. 「メール配信あり」と「メール配信なし」のグループの購買量の平均を比較 2. 平均同士の検定なのでt検定で効果を検証
3. 有意水準0.05で有意→効果があったと結論メール配信による効果？

1.1.3 誤った施策の検証メール配信の施策を行ったのでその施策の効果がどの程度であったかを推定したいよくある検証例 1. 「メール配信あり」と「メール配信なし」のグループの購買量の平均を比較 2. 平均同士の検定なのでt検定で効果を検証
3. 有意水準0.05で有意→効果があったと結論メール配信による効果？ →効果を過剰に見積もっている危険がある

1.1.3 誤った施策の検証メール配信の裏側の仕組みメール配信可能ユーザーに対して、以下の条件のうち1つ以上を満たすユーザーにはメールを配信する - 過去の購買額が一定以上 - 直近の購買がX日前以降
- クーポン対象商品の購買履歴があるセレクションバイアス本当のメールの効果メールがなくても買う量単純に比較する部分 → 潜在的な傾向が違うため、メール配信がなくても購買量が多かった「もともとフェアな比較じゃない」ということ。買うモチベーションが高い人に配信してた。

1.1.3 誤った施策の検証バイアス: データから得られた分析結果と本当の効果の乖離セレクションバイアス: 比較しているグループの潜在的な傾向が違うことによって発生するバイアスこのバイアスの存在を認識し、取り除く処置を行わなければ介入に対する効果の推定が正しくできな
い (ビジネスにおける誤った意思決定がなされてしまう) セレクションバイアス本当のメールの効果メールがなくても買う量単純に比較する部分

1.2 RCT (Randomized Controlled Trial)

1.2.1 本当の「効果」と理想的な検証方法実際の施策各ユーザーに対して施策を実施した場合としなかった場合の売上の差本来欲しいデータ (得ることが不可能) 「母集団全体の」平均を出している
「母集団全体の」平均同士の差 = 効果

1.2.1 本当の「効果」と理想的な検証方法現実で得られるデータ当然、介入を行ったユーザーの介入しなかったときの売上はわからない (因果推論の根本問題 ) Y(0)とY(1)のうち片方
は欠損しているので差は不明「欠損がないサンプルの」平均を出している「欠損がないサンプルの」平均同士の差を効果として出している。欠損の出方に傾向があるため効果にセレクションバイアスが乗っている

1.2.1 本当の「効果」と理想的な検証方法現実で得られるデータ当然、介入を行ったユーザーの介入しなかったときの売上はわからない (因果推論の根本問題 ) Y(0)とY(1)のうち片方
は欠損しているので差は不明「欠損がないサンプルの」平均を出している「欠損がないサンプルの」平均同士の差を効果として出している。欠損の出方に傾向があるため効果にセレクションバイアスが乗っている欠損のないサンプルの平均しか出せない AND サンプル内の欠損の位置は介入の有無で決まる ↓ 「母集団全体のY(0)の平均」と「介入しないグループのY(0)の平均」「母集団全体のY(1)の平均」と「介入するグループのY(1)の平均」が一致するように介入を行えばよい ↓ ランダム化比較実験 (RCT)

1.2.2 RCTによる検証「欠損がないサンプルの」平均を出している「欠損がないサンプルの」平均同士の差を効果として出している。介入をランダムに行ったためセレクションバイアスが消えて
いる介入を行うグループを乱数で決定した

1.2.2 RCTによる検証介入を実施する対象をランダムに選択→セレクションバイアスが無くなる 2つの集団はさまざまな属性を持つユーザーがおり、平均すると同じような集団になっている (同じ分布になっている) ※ ABテストはRCTである。ABテストと言いつつ実際は2つの施策を単純に比較しただけだった、というのはよくある話

ここまでのまとめビジネス上得られるデータは介入の有無を何らかの指標に基づいて決めている事が多い。また、介入の有無によってサンプル内の欠損の位置が決まる。よって、売上の期待値 (平均) は欠損の位置に依存するよって、介入の有無に関する売上の期待値の差 (効果) は母集団に対する介入の方針
に依存する (セレクションバイアスが乗る危険がある) 施策による効果が分かる状況: 施策以外の要因が同一になったとき効果を実際のデータから測る方法: RCT (Randomized Controlled Trial) 統計調査の種類には全数調査と標本調査が存在するが、因果分析の文脈では全数調査が不可能になる (因果推論の根本問題のため)。

1.3 効果を測る理想的な方法

1.3.1 母集団と推定母集団: 調査対象の集合全体のこと推定: 手元にあるデータ (標本) から母集団の性質を推測すること介入の効果検証の大まかな目標: 母集団に対する介入の効果を推定すること

1.3.2 ポテンシャルアウトカムフレームワークポテンシャルアウトカムフレームワーク: あるサンプルにおいて、介入が行われた場合の結果Y(1)と行われなかった場合の結果Y(0)があることを考え、その差に介入の本当の効果があると考えること Y(1)とY(0)はどちらか一方しか観測されない。このときの観測されない側の結果をポテンシャルアウトカムとよぶ。 : ポテンシャルアウトカム

1.3.3 ポテンシャルアウトカムフレームワークによる介入効果の推定 Y(1)とY(0)の両方が観測されれば介入効果はすぐに分かるが、現実では不可能 →配信されたユーザーのグループと配信されなかったユーザーのグループでの平均的な効果の比較を考えるどちらかは欠損するので差は分からない平均の差から求められる

1.3.4 平均的な効果平均処理効果 (Average Treatment Effect: ATE): 母集団における平均的な効果本書の基本的な課題は、入手したデータからいかにしてこの式におけるτを正しく推定するか、にある
セレクションバイアス本当のメールの効果メールがなくても買う量単純に比較する部分

1.3.5 平均的な効果の比較とセレクションバイアスグループ間の平均の比較は実際には何を推定する方法になっているのか？ : セレクションバイアス本当に計算したい値 (効果) グループ間の平均の比較 →条件付き期待値同士の差を計算している

1.3.6 介入の決まり方がセレクションバイアスの有無を決めるメールが配信されないときの売上は、そのユーザーの潜在的な購買傾向を表す。セレクションバイアスである↑の比較はそれぞれのグループの潜在的な購買傾向を比較していることになる。つまりセレクションバイアスとは、介入対象のユーザーと、介入対象でないユーザーにおける、介入がされなかったときの売上の違い。推定している値がそもそも介入による効果ではない値になっている。いくらサンプルサイズを増やそうとこのバイアスは解消されないのは当たり前である

1.3.7 RCTを行った疑似データでの比較介入がランダムに、つまり効果と介入が独立に行われるため以下の式が成り立つよって、 RCTの条件のもとでは単純なグループ間の平均の比較が平均処理効果と等しいことが示された

1.3.8 有意差検定の概要と限界メールを配信したときと配信しなかったときのYの平均の差が0かどうかを検証する→t検定、と安易に実行してもダメ - 等分散性を仮定して本当に良いのか？ (等分散性を別途検定すると多重検定の問題が。。。) - 有意水準は0.05でいいのか？
- 有意だと結果が出ても、メール配信の平均効果が10円だったらどうか？ (効果量について考えているか？) - セレクションバイアスがないような条件で実験しているか？検定はどちらかというと、「この結果が得られたときは効果があるとしよう」という取り決めに近い

1.4 Rによるメールマーケティングの効果の検証

デモ

1.5 ビジネスにおける因果推論の必要性

1.5.1 RCTの実行にはコストがかかるクーポンメール配信をRCTで行うということは、売上の効率を無視してメールを配信することに他ならない。よってRCTで実験を行いたくない状況も多々存在する。また、たとえばある法律の「効果」を検証したいとき、法律を人によってランダムに適用したりしなかったりするのは事実上不可能なので、RCTが行えない状況もある。 2章以降は理想的にはRCTでデータをデザインして分析したいが、それが不可能な場合にRCTの結果を近似するような手法について述べられている

1.5.2 セレクションバイアスが起きる理由セレクションバイアスは介入 (施策) の効果を高めるために発生することが多い。(例: クーポンメールを購買確率が高いとECサイト側が判断したユーザーに送る) つまり、セレクションバイアスは予測不可能な事象ではなく、介入を選択できる人やシステムの行動原理に基づくもの。予想が立てられるので、回避方法も考えることができる。

効果検証入門1章

効果検証入門1章

fhiyo

More Decks by fhiyo

Other Decks in Science

Featured

Transcript