Ad-DS Paper Circle #8 - Speaker Deck

Slide 1

Slide 1 text

A/B Testing Intuition Busters Common Misunderstandings in Online Controlled Experiments AI事業本部協業リテールメディアディビジョンプリズムパートナーカンパニー桂川大輝 1

Slide 2

Slide 2 text

桂川大輝 •所属 AI事業本部協業リテールメディアディビジョンプリズムパートナーカンパニー •職種機械学習エンジニア •入社 2023年7月中途入社 •業務 DSPの開発 2

Slide 3

Slide 3 text

1.概要 2.導入 3.動機 4.意外な結果には強力な証拠が必要 5.検出力の低い実験は信頼性が低い 6.事後検出力の計算は不安定 7.実験環境での自由度を最小限に 8.不均等なバリアントに注意 9.まとめ 3

Slide 4

Slide 4 text

概要 • 今回の論文：「A/B Testing Intuition Busters: Common Misunderstandings in Online Controlled Experiments（Kohavi et al., 2022）」 • 「A/Bテスト実践ガイド　真のデータドリブンへ至る信用でる実験とは」の著者 4

Slide 5

Slide 5 text

概要 •A/Bテストは企業の意思決定に広活用れている、多の誤解存在特に「直感的に正し思える実は誤った統計解釈（直感的誤解）」問題 •統計の誤用は長年批判れてた依然として蔓延誤解により、誤った結論導れ、実験の信頼性損なわれる •A/Bテストにる代表的な誤解を整理直感的誤解の背景を説明し、それらを打破する方法を解説誤解を防ための実験プラットフォームの設計指針も提案 A/Bテストの誤解を減らし、より正確な意思決定を支援 ※内容の共有を重視するため数式による証明の多は省略 5

Slide 6

Slide 6 text

導入 •A/Bテスト（オンライン制御実験）は新しいアイデアを評価するために広活用大手企業では100件/営業日以上の実験処理を実施 •統計理論は十分に文書化れてり、一部の落とし穴についても共有 •しし、統計の誤った適用や誤解依然として多発書籍、論文、ソフトウェアにいても散見特に「直感的に正し思える実は誤った統計解釈（直感的誤解）」問題 •そのため、「直感的誤解」を事例に基づいて解説 6

Slide 7

Slide 7 text

動機 •業界にるA/Bテスト実践事例の共有 GuessTheTest：「A/Bテスト事例」を紹介するウェブサイトうした取り組みは有益である一方で誤解を生む可能性もある 7 https://guessthetest.com/

Slide 8

Slide 8 text

動機 •事例：CVR 337%向上したA/Bテスト（GuessTheTest） • の結果は本当に信頼でるの？うした直感的な誤解を分析し、統計的推論を用いて問題点を明確化業界のA/Bテスト実践を改善するためのベストプラクティスを提案 8 実験概要 2つのLPを比較サンプル 50%／50% 結論 ● p値が0.05を下回るため有意 ● 検出力97%で問題なし

Slide 9

Slide 9 text

意外な結果には強力な証拠が必要 • 意外な結果は注目を集めやすい、誤解を招ストーリー性強、誤り発覚しても広まりやすい心理学の有名な研究の多再現に失敗（誤解の可能性ある） 9

Slide 10

Slide 10 text

意外な結果には強力な証拠が必要 • p値の誤解（ベルヌーイの誤謬） p値 0.05=5%の確率で誤検出信頼度=(1-p値)×100% Optimizelyのドキュメントではp値0.10を「10%のエラー率」と誤解 A/Bテスト関連の書籍や専門家でも誤解広まっている謝罪をする事例も • p値の正しい理解帰無仮説正しいと仮定した場合、観測れた結果以上に極端な統計量得られる確率設定した有意水準よりもp値低い場合に、帰無仮説棄却れ有意差あると判断 10

Slide 11

Slide 11 text

意外な結果には強力な証拠が必要 • FPRとは？ p値ら有意な差あるとわっても、それ誤検出（偽陽性）である確率（リスク）統計的有意性≠本当に効果あると特に成功率低いとFPR 増加 • 誤検出への対策 p値だでな、FPRも表示意外な結果（新たな発見）には必ず再現実験を実施有意水準として0.01や0.005（厳しい値）を設定 11

Slide 12

Slide 12 text

意外な結果には強力な証拠が必要 • Twymanの法則「極端な数字は（たいてい）間違っている」事例：極端なCV数の増加 Airbnb、Booking、Amazon、Microsoftでの数万回のA/Bテストの経験上、「CVの300%の増加」は（ほぼ）ありえない p値極端に低い場合のみ受入れるべ 12 結果良するとら、まずは疑うべ（あるいは有意水準を低設定する）

Slide 13

Slide 13 text

意外な結果には強力な証拠が必要 • 結論と推奨 A/Bテストの適切な運用のために意外な結果には慎重に実験プラットフォームはFPRを表示し、意外な結果（低いp値）を検知可能に意外な結果に対して、FPRを考慮し、p値0.01または0.005を推奨（FPRを下る） Twymanの法則を適用し、意外な結果は再実験 13

Slide 14

Slide 14 text

検出力の低い実験は信頼性が低い •検出力とは？本当に効果差（δ）存在する場合にそれを検出でる確率（帰無仮説を棄却でる確率） •適切な検出力の確保 A/Bテストでは十分な検出力を確保するために、適切なサンプル数必要業界標準検出力：80%（1-β=0.8）有意水準（p値の閾値）：0.05（α=0.05）サンプル数の計算式： •検出力低いと… 有意な結果出にい（効果あっても見逃す）有意な結果出ても誤検出の可能性高まる 14

Slide 15

Slide 15 text

検出力の低い実験は信頼性が低い • GuessTheTestの例 • （実務で扱う題材にいて）統計的に意味のある結果を得るには数千～数万のサンプル必要 15 検出率は業界標準の80%に対して低い CVR 3.7% 検出すべき最小変化（ δ） 10% 必要なサンプル数 ? 実際のサンプル数 82人（75人）必要な検出力 80% 実際の検出力 3%（97%ではない）必要なサンプル数：41,642人

Slide 16

Slide 16 text

検出力の低い実験は信頼性が低い • 検出力低する場合は符号誤りの可能性もある 16

Slide 17

Slide 17 text

検出力の低い実験は信頼性が低い • 検出力低いほどFPRも下る 17

Slide 18

Slide 18 text

検出力の低い実験は信頼性が低い •勝者の呪い検出力の低い実験では効果量過大評価れやすい検出力50%未満では推定効果量大誤る（誇張率上る） 18

Slide 19

Slide 19 text

検出力の低い実験は信頼性が低い •結論と推奨検出力の低い実験は誤った結論を導リスク高い A/Bテストでは最低でも数千、理想的には数万のサンプル必要検出力80%以上を確保するため、事前のサンプル数計算を徹底実験プラットフォームは検出力の低い実験を防仕組みを導入すべ適切な検出力を確保し、信頼でる実験を行う 19

Slide 20

Slide 20 text

事後検出力の計算は不安定 •事後検出力とは？ A/Bテスト後に、観測れた効果を基に検出力を推定する手法（p値と有意水準αのみで決定れる） •事後検出力≠実際の検出力事後検出力の計算はノイズ大、誤った結論を導可能性高い p値 0.05を超えると、事後検出力は50%未満（低する） 20

Slide 21

Slide 21 text

事後検出力の計算は不安定 •なぜ問題？ p値に大依存し、変動激しい p値はサンプル数やデータのばらつによって大変動するため、事後検出力も不安定特に検出力低い場合、p値のばらつ激し、事後検出力の計算は正確な指標にはならない（ほぼ意味をなない）「効果本当にない」場合でも、低い事後検出力を「小いサンプル数のせい」と誤解実験結果「有意でない」と、「サンプル数小いせいで効果を検出でなった」と考えるともある、それは誤った推論で単に「効果ない」可能性もある検出力を事後的に計算するのではな（事後検出力を用いず）、事前に適切なサンプル数を設定すべ p値と有意水準αのみで決まる検出力は本来、サンプル数、効果量、ばらつによって決まる検出力とは異なる（事後検出力≠実際の検出力） 21

Slide 22

Slide 22 text

事後検出力の計算は不安定 •実験プラットフォームでの推奨事項事後検出力の表示は不要事前に「最小検出可能効果量（MDE）」を設定観測効果ではな、事前の基準で検出力を計算例：Booking.comのExperiment Tool 新規実験時にMDEを入力事後検出力は表示せず、事前計画を重視 22

Slide 23

Slide 23 text

事後検出力の計算は不安定 •結論と推奨事後検出力は誤解を招ため使用すべでない A/Bテストでは事前の検出力の計算を重視実験プラットフォームはMDEを入力せるべ事後検出力を採用せず、事前の検出力計算を重視 23

Slide 24

Slide 24 text

実験環境での自由度を最小限に • A/Bテストの結果はデータの処理方法によって大変わる • 恣意的なデータの処理（外れ値除去やデータの切り分）行われると、統計的に有意に見える結果得られてしまう • 統計的有意性は事前に決めたルールに従って評価すべ 24

Slide 25

Slide 25 text

実験環境での自由度を最小限に •事例1：外れ値除去の落とし穴あるA/Bテストで「統計的に有意」と報告れた、実サンプルでの検定にいてp値は有意ではなった実は極端な外れ値を除去するという操作行われた外れ値除去は仮説に依存せずに行うべ特にバリアントとに独立した外れ値除去をすると、FPR 上昇するとも •事例2：リアルタイムA/Bテストの落とし穴 Optimizelyの初期のA/Bテストではリアルタイムのp値を確認でた運用者はp値有意になった瞬間に実験を停止するようになったの手法は第一種過誤を増大せる 25

Slide 26

Slide 26 text

実験環境での自由度を最小限に •結論と推奨事前の設定を推奨実験システムではデータ処理を標準化すると重要データの処理（外れ値除去やデータの切り分）のルールを事前に設定し、実験の構成として明示するデータ処理の変更履歴を記録し、透明性を確保（例：Booking.com） A/Bテストの強みを活すソフトウェアにるA/Bテストは再実験のコスト低い興味深い結果を発見したら、新たな仮説を立てて再実験すべ 26

Slide 27

Slide 27 text

不均等なバリアントに注意 •A/Bテストではコントロールとトリートメントを均等に割り当てるの一般的 •理論上は「コントロールを大すると検出力上る」と考えられる特に段階的導入ではトリートメントを小設定するともある（例：10%→50%）しし、不均等なバリアントは技術的・統計的な問題を引起す可能性ある 27

Slide 28

Slide 28 text

不均等なバリアントに注意 •不均等なバリアントの理論上のメリットコントロールを大すると、トリートメントとの比較で分散小なるとら、検出力向上（最大10%程度）具体的に考えると、1つのコントロールを複数のトリートメントと共有すると検出力向上（例：コントロール：50%、トリートメント×5：各10%） 28

Slide 29

Slide 29 text

不均等なバリアントに注意 •不均等なバリアントの採用による実務的な環境での問題（技術的・運用的リスク）トリガー型実験（特定の条件を満たすユーザーのみ対象）での実現大変（考慮必要）期待通りにするためにはどで制御せないといない Cookie Churnで不均等になるユーザー粒度での分割に対して、再割り当て発生する特に大いバリアントに再割り当てれてしまう確率高い（らに不均等に） LRU（Least Recently Used）キャッシュの影響により、大なバリアント有利になるレスポンス早なるなど •実務的な環境では均等なバリアント推奨 29

Slide 30

Slide 30 text

不均等なバリアントに注意 •シミュレーション（A/Aテスト）どちらも第一種過誤理論値（2.5%）に近いスキューネス比較的大い正規分布に近い第一種過誤増加／減少 30

Slide 31

Slide 31 text

不均等なバリアントに注意 •結論と推奨不均等なバリアントは第一種過誤を増加せる可能性ある検出力の向上だでな、誤検出のリスクも考慮する必要ある 31

Slide 32

Slide 32 text

まとめ •A/Bテストにる５つの「直感的誤解」を解説 ①意外な結果には強力な証拠必要 ②検出力の低い実験は信頼性低い ③事後検出力の計算は不安定 ④実験環境での自由度を最小限に ⑤不均等なバリアントに注意 •実験者誤解しにい実験プラットフォームの設計を提案一部の推奨事項は著者ら関わる実際のプラットフォームに導入済み 32