効果検証、入門の入門（後半）

効果検証を始める前に...！効果検証、入門の入門伊藤寛武, 金子雄祐

金子雄祐 • 経済学部修士課程修了後、2018年サイバーエージェント入社。広告配信プロダクトで開発やマネジメントに従事 • 趣味は特に無し

書籍の紹介 Pythonで学ぶ効果検証入門 • 効果検証についての入門書 • 実務での応用を念頭に入れて議論を行う

書籍の中で前提としてskipした疑問 Pythonで学ぶ効果検証入門 • 効果検証についての入門書「効果検証ってそもそもなに？」 • 実務での応用を念頭に入れて議論を行う「実務での応用を殊更に取り上げるのは何故？」

本日のお品書き • 内容 ◦ 効果検証とはどのような分野か？ ◦ 技術としての効果検証はどのように発展してきたか？ ◦ 効果検証実務において直面する課題について ◦
本の宣伝 • 想定しているターゲット ◦ データ分析や効果検証を学びたいと思っている人 ◦ 実務における効果検証のありかたに悩んでいる人伊藤パート金子パート

1.実務における効果検証の重要性と進展 2.実務における因果推論の現実 3.効果検証の難しさと特徴 4.まとめ

実務における効果検証の重要性と進展

効果検証の発展と実務 • 前半の発表では、効果検証分野の急速な進展について触れた ◦ 実務の現場でもこれらが使われる事例は増えている

効果検証の発展と実務じゃあ、効果検証をちゃんと勉強すれば実務でも成果が出るんじゃないか ?

実務の理想と現実 • 現実はそうでもない...というか辛いことがたくさんある ◦ 次partはそれらの例を見ていく

A/Bテスト • まずはA/Bテストについて考えてみる ◦ 最も代表的な「効果検証」の手法だから • A/Bテストとは? ◦ 2つのバージョン(AとB)を比較して、どちらがより効果的かを判断するための手法 ◦
以下のプロセスを持つ ▪ ユーザーをランダムに2グループに分ける ▪ 各グループに異なるバージョンを表示 ▪ 2つのグループの比較によって結果を測定する • このランダムな振り分けによってバイアスのない測定が可能になる ◦ 「A/Bテストはゴールドスタンダード」...

実務でのA/Bテスト • 実務の場でA/Bテストが活用されるようになった背景は ? • 背景 : 「テックカンパニーにおける RCTの再定義としてのA/Bテスト」
◦ IT技術の進展によってデータ収集が格段に安価に ◦ プロダクト開発の方法としてのA/Bテスト ◦ 広告という人に害を与えない(ことになっている)領域での” 実験” ▪ Google, Microsoft etc...

データ収集 • 従来、A/Bテストの対象領域は政策や医学だった ◦ ユーザーを集めるのにコストがかかる ◦ 施策の実行そのものにコストがかかる ◦ データの構築にもコストがかかる •
一方、テックカンパニーにおいてはいわゆるビッグデータが得られるように ◦ 大量のユーザーを容易に集められる ◦ 機能リリース = 施策 ◦ データの自動的なロギング • 従来の領域だと被験者が1000 〜10000人単位だったものが、容易に毎日何百万人の被験者を獲得できるように

プロダクト開発の方法としての A/Bテスト • RIES(2011) ◦ 「リーン」というプロダクト開発のフレームワークを提唱 ◦ その定義にA/Bテストが含まれる • 根底の思想
◦ ビジネス仮説に基づく実験を行い、製品を反復的かつ継続的にデプロイすることで進化させる ◦ 「実験」= A/Bテスト

広告領域では大いに活用された • 主に巨大Techの収益源としての広告 ◦ Google,MS… • 政策や医療に比べるとリスクが極めて低い ◦ 関連: RCTにおける倫理的な問題

A/Bテストは簡単 ? • A/Bテストが実務で活用されるようになった背景を触れてきた • おそらくこのような活用の背景には次の理由もあげられるかもしれない ◦ 「ユーザーをランダムに分割して結果を比較するだけで簡単だから」
• 実際のところ、これは本当なのだろうか ?

以下の結果は何がおかしい ? • 来訪者の購入率(Conversion Rate)のリフトが337% ◦ 統計的にも有意; p値 = 0.009
• 一見この結果は(効果差がとても大きくて疑わしいという気持ちを抱くかもしれないが)、効果があるように見える。 • おかしいところがあるだろうか?

偽陽性リスク • 結論から言うと、これは偽陽性のリスクが高い ◦ 仮に真の効果が存在したとしても、それを検出できる確率が 3%しかない • 正しくは事前検出力の計算という手続きで必要なサンプルサイズを計算する必要がある • 元ネタは以下
◦ Kohavi, Ron, Alex Deng, and Lukas Vermeer. "A/B testing intuition busters: Common misunderstandings in online controlled experiments." Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022.

A/Bテストすら難しい • 他にもこんな落とし穴が ◦ 「効果が出ないからもう少し実験を続けよう」 → ❌ ◦ 「指標Aでは結果出なかったけど分析してみたら指標Bで良くなってるからいいや」→ ❌
◦ 「効果が出たから実験を中止しよう」→ ❌ ◦ 「とりあえずトラフィック単位でランダムに分割するような実装にしよう」→ ❌ ◦ 「このテストで指標の改善を目指すぞ！」→ ❌ • 言われれば気づくが、やらかしがちなミスでもある • 安易なA/Bテストは炎上する

じゃあ因果推論は ? • 効果検証の手段として、他にあげられるのが因果推論 • A/Bテストよりは適用に注意が必要だったり、難易度が高いとされる ◦ しかし、A/Bテストが実は難しいという話をした ◦ それでは因果推論はどうなのだろうか...?
• 次partでは実務における因果推論について触れる

実務における因果推論の現実

よく触れられる手法の例 • 一般的に効果検証の文脈でよく紹介される因果推論手法は以下である ◦ DID ◦ RDD ◦ 傾向スコア
◦ CalusalImpact ◦ 操作変数 • これらの手法は、実際に実務ではどう使われているのだろうか ?

実務での因果推論の現実 • 実務で実際に(悲しくも)見られる風景: ◦ ツールの間違った利用 ▪ 仮定の成立が怪しい ▪ 手法の使い方が怪しい •
なぜこんなことが起きてしまうのか ? ◦ 恣意的な結論を導きやすい ◦ そもそも手法の理解や適用が難しい ◦ 仮定の検証が困難であったり不可能だったりする • これらの事例を見てみる

誤った例その 1 ; 傾向スコアマッチング • 傾向スコアとは? ◦ 本書では扱っていない(...というか扱わないと宣言している) ◦ 施策が割り振られる属性
(特徴量、共変量 )に対する条件付き確率のこと ◦ ロジスティック回帰やその他ML手法などを用いてこの確率を推定する • 傾向スコア自体は色々な使われ方がある; 傾向スコアマッチング, IPW etc… • ここでは傾向スコアマッチングの例を扱うスコア 0.02 0.3 0.3 0.9

誤った例その 1 ; 傾向スコアマッチング • 発想としては、「傾向スコアが同一のユーザーなら傾向が似てるよね」という使い方 ◦ ある意味で「同質」のユーザーを比較することになる • A/Bテストをやらずとも因果効果の分析が可能になる！
◦ これだけ聞くと非常に便利そうなのになぜ本書では紹介しなかったのか ? スコア 0.02 0.3 0.3 0.9 マッチ

誤った例その 1 ; 傾向スコアマッチング • 実務面だと以下の理由が大きい ◦ 特徴量の選択に関しては実務者が恣意的に選んでよい ◦
観測できない特徴量についてはバイアスをコントロールできない ◦ 特徴量の選択によって推定値がかなり変動する • この特徴量選択を乱用することで「恣意的な結論」を導出可能になってしまうのでは? • リサーチ方面でも批判はある ◦ King and Nielsen(2019)

誤った例その 2 ; DID • DIDとは? ◦ 本書の4章で紹介 ◦ 施策前後のユーザー群のoutcomeの差の差を取る
• DIDは、上記のような簡単な集計でも因果効果を導出することができる ◦ 非常に便利だが、これでいいならなぜ A/Bテストなどが必要なのか?

誤った例その 2 ; DID • 理由: 検証困難な仮定の存在 ◦ パラレルトレンド仮定というものが存在する (図の”同等の変化”)
◦ これは、施策がない場合にお互いのユーザー群が同じトレンドを持つという仮定 • この仮定を検証するのはほぼ不可能 ◦ 施策が起きなかったときの反実仮想的なデータの動きを仮定している ◦ 施策前の時系列データがあれば結果の頑健性の確認は可能

誤った例その 3 ; ストーリードリブン分析 • 次は手法というよりかはoutputの使い方の話 • 先程の傾向スコアの話をクーポン施策の効果分析を行うという例を考えてみる • お題:
「クーポンを使用する」ことの長期的な店舗来店への効果の分析 ◦ クーポンを配布して、それが使われることで来店頻度が上がるかもしれない ◦ 単純にクーポンを使用したユーザーとそうでないユーザーの比較をしてよい ? 来店頻度上昇?

誤った例その 3 ; ストーリードリブン分析 • しかし、クーポンは配布されたからといって使われるとは限らない ◦ そもそも来店しなかったり、使い忘れたりなど • クーポンの使用確率が、何らかの属性によって変動すると考えるのが普通
▪ 例えばポイ活などの感度が高い世帯持ちなどが使いやすいなど • 単純にクーポンを使ったユーザーかそうでないかのユーザーの比較には問題がある ◦ 「使用」の効果を推定するのはバイアスを含んだ結果になってしまう

誤った例その 3 ; ストーリードリブン分析 • 以下の属性を使って、2パターンで傾向スコア分析を回してみた ◦ A: 年齢、結婚の有無、性別 ◦
B: 年齢、性別 • 結果が以下のようになったとする ◦ A : クーポンの使用による来店への効果は 0 ◦ B : クーポンの使用による来店への効果は正 • さて、このどちらの結果を採用すべきだろうか ?

誤った例その 3 ; ストーリードリブン分析 • 分析者側の気持ち ◦ Aで正しくバイアスを制御できていると信じる ? ▪
傾向スコアの推定がおかしいのではないか ? ▪ 観測できない属性がまだあるのでは ? ◦ クライアントはこの結果を信用してくれるだろうか ...? ▪ 自分でもこの結果に自信が持てない ▪ 「因果推論で分析した」と強弁する ? • Bのほうが話がスムーズに通るなら Bを採用しても自然に見えるかもしれない...

効果検証は難しい！ • A／Bテストも因果推論も、理論と実践の両方でそれぞれ難しい部分がたくさんある ◦ しかもそれを共有してくれる現場はまだそんなに多くない • 改めてこの「難しさ」を整理してみる

効果検証の難しさと特徴

なぜ効果検証は困難なのか • 改めて振り返ると、効果検証には以下の実行を困難にさせる特徴がある ◦ 参加者のバッグクラウンドがさまざま ◦ 簡単に見える効果検証が実は難しい ◦ 教科書に書いていない暗黙知が結構ある ◦
正しく実施できているかどうか知ることがほぼ不可能 • さきほどの例や伊藤の発表を振り返りながら、これらの確認をしていく

1: バックグラウンドの多様性 • 興味のある人は多いが、志向やバックグラウンドが様々すぎる ◦ DSだけでなく、SEやBizなど • ここまで参加者が多様だと用語や前提を揃えるのも困難

2: 単純に”難しい” • 前述の通りで、簡単に見えるA/Bテストですら落とし穴が多い • 「簡単に見えることが実は難しい」というのはなかなか理解されづらい(期待値コントロール的な意味でもつらい) ◦ 前述の偽陽性の例など...

2: 単純に”難しい” • これらのABテストの話は Kohaviの本（と我々の本）に詳しい ◦ 『A/Bテスト実践ガイド真のデータドリブンへ至る信用できる実験とは』

3: 暗黙知の多さ • 効果検証の実践は暗黙知化していることが多い ◦ 効果検証の仮定の成立についてどこまでシビアであるべきか? ▪ パラレルトレンド仮定 ▪
Unconfoundedness仮定 • 「仮定に厳密すぎて何も言えない」ことは実務において必ずしも正しくはない ◦ 「この仮定が成立すれば〜〜が言える」 • こういう話は効果検証の教科書にはあまり書かれていない話ではある ◦ 部分識別という分野などはあるが ...

4: 仮定の検証の困難さ • 効果検証の仮定は検証困難であるものが多い ◦ さきほどのDIDのパラレルトレンド仮定の話を思い出す ◦ これらを分析者一人で妥当性を仮定して先に進むことが果たして可能だろうか ?

なぜ効果検証は困難なのか (再) • まとめると... ◦ 入門が難しい ◦ 話を統一するのも難しい ◦ 理論を正しく理解して仮定を理解するのも難しい
◦ 理解したところでそれを実務で正しく実行するのも難しい ◦ 実務で正しく行われているかを検証するのも難しい • ここまで言われると効果検証を頑張る気がなくなってくるかもしれない ... ◦ 「でもやらないといけない」のは伊藤のスライドで話していた通り

本書で目指したもの • 自分たちが目指したのはこれらの問題を取り組みやすい問題に直した上で解説すること • 特に次の3つの特徴が大きい a. 実務での応用を意識し、用いる手法は 3つに絞る b.
実務における分析プロセス c. 暗黙知の言語化に取り組む

頂いている声内容は本格派...(中略)...実務者が変に迷ったり、慣れない手法を用いて間違った施策を打つのを戒めるのに役立つお気持ちが随所に散りばめられていてとても良かった実務者がより良い意思決定を行うために効果検証について知るべきことが、この本には丁寧に書かれています「コストをかけてバイアスを取り除く事のみに躍起になるだけでなく、意思決定者まで含めて、実験のデザインやそれがもたらすバイアスについて理解を深める必要があるのでは無いか」と説いている

まとめ

じゃああなたは正しくやれてるの ? • ありそうな(多分ない)ツッコミ ◦ 「偉そうに言っているけどあなたはちゃんとやれてるんですか ?」 ◦ 「こんな教科書まで書いて...」 •
金子の回答 ◦ 多分一人じゃ無理

議論の場の大事さ • 個人的な経験になるが、以下の経験が大事だったと思う ◦ 経済学部での実証論文のゼミ内での輪読 ▪ 仮定の成立やその検証において ▪ 特に経済系の実証論文はこの議論を詳細に行うことの重要性が高い (と思う)
◦ 職場での同様の専門性を持つ同僚との議論 ▪ “適切に”A/Bテストができているか? などの議論は常に行えた ▪ 経済系のバックグラウンドに限らず、 DSチームとしてこの議論は行えていた • 要するに議論できる場と人があったことがよかった、ということ

仲間が大事ということで ...仲間を作ろう！

仲間がいない ...? いやでもそんな人周りにいないし ...

仲間がいない ...?

仲間を増やそう！仲間、増やせるじゃん！

必要なこと • 実際のところ、専門家が増えることが一番大事 • こういう”専門家”を増やしたかったというのが本書の執筆動機の一つ

まとめ • 効果検証は難しい！ • 本書は効果検証を実務で行う中での課題を解説したもの • これらを議論できたり知識を共有しあう専門家を増やすことが大事 • このような「専門家」を増やしたいというのが本書の願いの 1つ

ありがとうございました

使った素材サイト • いらすとや • manypixels

効果検証、入門の入門（後半）

効果検証、入門の入門（後半）

More Decks by Yusuke Kaneko

Featured

Transcript