Upgrade to Pro — share decks privately, control downloads, hide ads and more …

効果検証入門1章

fhiyo
May 21, 2020

 効果検証入門1章

fhiyo

May 21, 2020
Tweet

More Decks by fhiyo

Other Decks in Science

Transcript

  1. Introduction 因果推論の2種類のアプローチ - Donald Rubin (統計学) - Judea Pearl (疫学)

    本書はルービンのアプローチに則して解説がされている。パールのアプローチはDAGな どの直感的なツールを持つ一方、実証論文ではほとんど登場していない、らしい 教科書:https://www.amazon.co.jp/dp/B0834JN23Y サンプルコード: https://github.com/ghmagazine/cibook/ 原因 効果 結果
  2. 1.1.1 効果 効果: ビジネスにおいてとった何らかのアクションが売上などのビジネス上重要なKPI (Key Performance Index) に与える影響のこと 介入 (施策/措置)

    : ビジネスにおいて取る何らかのアクションのこと 実験計画を立てずに特定のアクションのみの効果を計測することは非常に難しい。たと えば以下の要因が計測したいアクションと同時に起こる場合、それらの効果を切り離し て考えることが難しい - 商品やサービスのリニューアル - 別の広告キャンペーン - ポイントの配布やキャッシュバック - 競合他社の広告キャンペーン
  3. 1.1.3 誤った施策の検証 メール配信の裏側の仕組み メール配信可能ユーザーに対して、以下の条件の うち1つ以上を満たすユーザーにはメールを配信す る - 過去の購買額が一定以上 - 直近の購買がX日前以降

    - クーポン対象商品の購買履歴がある セレクション バイアス 本当のメール の効果 メールがなく ても買う量 単純に比較 する部分 → 潜在的な傾向が違うため、メール配信がなくても購買量が多かった 「もともとフェアな比較じゃない」ということ。買うモチベーションが高い人に配 信してた。
  4. 1.2.1 本当の「効果」と理想的な検証方法 現実で得られるデータ 当然、介入を行った ユーザーの介入しな かったときの売上はわ からない (因果推論の根本問題 ) Y(0)とY(1)のうち片方

    は欠損しているので 差は不明 「欠損がないサンプル の」平均を出している 「欠損がないサンプル の」平均同士の差を 効果として出してい る。欠損の出方に傾 向があるため効果に セレクションバイアス が乗っている
  5. 1.2.1 本当の「効果」と理想的な検証方法 現実で得られるデータ 当然、介入を行った ユーザーの介入しな かったときの売上はわ からない (因果推論の根本問題 ) Y(0)とY(1)のうち片方

    は欠損しているので 差は不明 「欠損がないサンプル の」平均を出している 「欠損がないサンプル の」平均同士の差を 効果として出してい る。欠損の出方に傾 向があるため効果に セレクションバイアス が乗っている 欠損のないサンプルの平均しか出せない AND サンプル内の欠損の位置は介入の有無で決まる ↓ 「母集団全体のY(0)の平均」と「介入しないグループのY(0)の平均」 「母集団全体のY(1)の平均」と「介入するグループのY(1)の平均」 が一致するように介入を行えばよい ↓ ランダム化比較実験 (RCT)
  6. ここまでのまとめ ビジネス上得られるデータは介入の有無を何らかの指標に基づいて決めている事が多 い。 また、介入の有無によってサンプル内の欠損の位置が決まる。 よって、売上の期待値 (平均) は欠損の位置に依存する よって、介入の有無に関する売上の期待値の差 (効果) は母集団に対する介入の方針

    に依存する (セレクションバイアスが乗る危険がある) 施策による効果が分かる状況: 施策以外の要因が同一になったとき 効果を実際のデータから測る方法: RCT (Randomized Controlled Trial) 統計調査の種類には全数調査と標本調査が存在するが、因果分析の文脈では全数調 査が不可能になる (因果推論の根本問題のため)。
  7. 1.3.8 有意差検定の概要と限界 メールを配信したときと配信しなかったときのYの平均の差が0かどうかを検証する→t検 定、と安易に実行してもダメ - 等分散性を仮定して本当に良いのか? (等分散性を別途検定すると多重検定の問 題が。。。) - 有意水準は0.05でいいのか?

    - 有意だと結果が出ても、メール配信の平均効果が10円だったらどうか? (効果量に ついて考えているか?) - セレクションバイアスがないような条件で実験しているか? 検定はどちらかというと、「この結果が得られたときは効果があるとしよう」という取り決 めに近い