Slide 1

Slide 1 text

A/B Testing Intuition Busters Common Misunderstandings in Online Controlled Experiments AI事業本部 協業リテールメディアディビジョン プリズムパートナーカンパニー 桂川 大輝 1

Slide 2

Slide 2 text

桂川 大輝 •所属 AI事業本部 協業リテールメディアディビジョン プリズムパートナーカンパニー •職種 機械学習エンジニア •入社 2023年7月中途入社 •業務 DSPの開発 2

Slide 3

Slide 3 text

1.概要 2.導入 3.動機 4.意外な結果には強力な証拠が必要 5.検出力の低い実験は信頼性が低い 6.事後検出力の計算は不安定 7.実験環境での自由度を最小限に 8.不均等なバリアントに注意 9.まとめ 3

Slide 4

Slide 4 text

概要 • 今回の論文:「A/B Testing Intuition Busters: Common Misunderstandings in Online Controlled Experiments(Kohavi et al., 2022)」 • 「A/Bテスト実践ガイド 真のデータドリブンへ至る信用で る実験とは」の著者 4

Slide 5

Slide 5 text

概要 •A/Bテストは企業の意思決定に広 活用 れている 、多 の誤解 存在 特に「直感的に正し 思える 実は誤った統計解釈(直感的誤解)」 問題 •統計の誤用は長年批判 れて た 依然として蔓延 誤解により、誤った結論 導 れ、実験の信頼性 損なわれる •A/Bテストに る代表的な誤解を整理 直感的誤解の背景を説明し、それらを打破する方法を解説 誤解を防 ための実験プラットフォームの設計指針も提案 A/Bテストの誤解を減らし、より正確な意思決定を支援 ※内容の共有を重視するため数式による証明の多 は省略 5

Slide 6

Slide 6 text

導入 •A/Bテスト(オンライン制御実験)は新しいアイデアを評価するために広 活用 大手企業では100件/営業日以上の実験処理を実施 •統計理論は十分に文書化 れて り、一部の落とし穴についても共有 •し し、統計の誤った適用や誤解 依然として多発 書籍、論文、ソフトウェアに いても散見 特に「直感的に正し 思える 実は誤った統計解釈(直感的誤解)」 問題 •そのため、「直感的誤解」を事例に基づいて解説 6

Slide 7

Slide 7 text

動機 •業界に るA/Bテスト実践事例の共有 GuessTheTest:「A/Bテスト事例」を紹介するウェブサイト うした取り組みは有益である一方で誤解を生む可能性もある 7 https://guessthetest.com/

Slide 8

Slide 8 text

動機 •事例:CVR 337%向上したA/Bテスト(GuessTheTest) • の結果は本当に信頼で るの ? うした直感的な誤解を分析し、統計的推論を用いて問題点を明確化 業界のA/Bテスト実践を改善するためのベストプラクティスを提案 8 実験概要 2つのLPを比較 サンプル 50%/50% 結論 ● p値が0.05を下回るため有意 ● 検出力97%で問題なし

Slide 9

Slide 9 text

意外な結果には強力な証拠が必要 • 意外な結果は注目を集めやすい 、誤解を招 ストーリー性 強 、誤り 発覚しても広まりやすい 心理学の有名な研究の多 再現に失敗(誤解の可能性 ある) 9

Slide 10

Slide 10 text

意外な結果には強力な証拠が必要 • p値の誤解(ベルヌーイの誤謬) p値 0.05=5%の確率で誤検出 信頼度=(1-p値)×100% Optimizelyのドキュメントではp値0.10を「10%のエラー率」と誤解 A/Bテスト関連の書籍や専門家でも誤解 広まっている 謝罪をする事例も • p値の正しい理解 帰無仮説 正しいと仮定した場合、観測 れた結果以上に極端な統計量 得られる確率 設定した有意水準よりもp値 低い場合に、帰無仮説 棄却 れ有意差 あると判断 10

Slide 11

Slide 11 text

意外な結果には強力な証拠が必要 • FPRとは? p値 ら有意な差 ある と わ っても、それ 誤検出(偽陽性)である確率(リスク) 統計的有意性≠本当に効果 ある と 特に成功率 低いとFPR 増加 • 誤検出への対策 p値だ でな 、FPRも表示 意外な結果(新たな発見)には 必ず再現実験を実施 有意水準として0.01や0.005(厳しい値)を設定 11

Slide 12

Slide 12 text

意外な結果には強力な証拠が必要 • Twymanの法則「極端な数字は(たいてい)間違っている」 事例:極端なCV数の増加 Airbnb、Booking、Amazon、Microsoftでの数万回のA/Bテストの経験上、「CVの300%の増加」は(ほぼ)ありえない p値 極端に低い場合のみ受 入れるべ 12 結果 良す る と ら、まずは疑うべ (あるいは有意水準を低 設定する)

Slide 13

Slide 13 text

意外な結果には強力な証拠が必要 • 結論と推奨 A/Bテストの適切な運用のために意外な結果には慎重に 実験プラットフォームはFPRを表示し、意外な結果(低いp値)を検知可能に 意外な結果に対して、FPRを考慮し、p値0.01または0.005を推奨(FPRを下 る) Twymanの法則を適用し、意外な結果は再実験 13

Slide 14

Slide 14 text

検出力の低い実験は信頼性が低い •検出力とは? 本当に効果差(δ) 存在する場合にそれを検出で る確率 (帰無仮説を棄却で る確率) •適切な検出力の確保 A/Bテストでは十分な検出力を確保するために、適切なサンプル数 必要 業界標準 検出力:80%(1-β=0.8) 有意水準(p値の閾値):0.05(α=0.05) サンプル数の計算式: •検出力 低いと… 有意な結果 出に い(効果 あっても見逃す) 有意な結果 出ても誤検出の可能性 高まる 14

Slide 15

Slide 15 text

検出力の低い実験は信頼性が低い • GuessTheTestの例 • (実務で扱う題材に いて) 統計的に意味のある結果を得るには数千~数万のサンプル 必要 15 検出率は業界標準の80%に対して低い CVR 3.7% 検出すべき最小変化( δ) 10% 必要なサンプル数 ? 実際のサンプル数 82人(75人) 必要な検出力 80% 実際の検出力 3%(97%ではない) 必要なサンプル数:41,642人

Slide 16

Slide 16 text

検出力の低い実験は信頼性が低い • 検出力 低す る場合は符号誤りの可能性もある 16

Slide 17

Slide 17 text

検出力の低い実験は信頼性が低い • 検出力 低いほどFPRも下 る 17

Slide 18

Slide 18 text

検出力の低い実験は信頼性が低い •勝者の呪い 検出力の低い実験では効果量 過大評価 れやすい 検出力50%未満では推定効果量 大 誤る (誇張率 上 る) 18

Slide 19

Slide 19 text

検出力の低い実験は信頼性が低い •結論と推奨 検出力の低い実験は誤った結論を導 リスク 高い A/Bテストでは最低でも数千、理想的には数万のサンプル 必要 検出力80%以上を確保するため、事前のサンプル数計算を徹底 実験プラットフォームは検出力の低い実験を防 仕組みを導入すべ 適切な検出力を確保し、信頼で る実験を行う 19

Slide 20

Slide 20 text

事後検出力の計算は不安定 •事後検出力とは? A/Bテスト後に、観測 れた効果を基に検出力を推定する手法 (p値と有意水準αのみで決定 れる) •事後検出力≠実際の検出力 事後検出力の計算はノイズ 大 、 誤った結論を導 可能性 高い p値 0.05を超えると、 事後検出力は50%未満 (低す る) 20

Slide 21

Slide 21 text

事後検出力の計算は不安定 •なぜ問題 ? p値に大 依存し、変動 激しい p値はサンプル数やデータのばらつ によって大 変動するため、事後検出力も不安定 特に検出力 低い場合、p値のばらつ 激し 、事後検出力の計算は正確な指標にはならない(ほぼ意味をな ない) 「効果 本当にない」場合でも、低い事後検出力を「小 いサンプル数のせい」と誤解 実験結果 「有意でない」と 、「サンプル数 小 いせいで効果を検出で な った」と考える ともある 、 それは誤った推論で単に「効果 ない」可能性もある 検出力を事後的に計算するのではな (事後検出力を用いず)、事前に適切なサンプル数を設定すべ p値と有意水準αのみで決まる 検出力は本来、サンプル数、効果量、ばらつ によって決まる検出力とは異なる(事後検出力≠実際の検出力) 21

Slide 22

Slide 22 text

事後検出力の計算は不安定 •実験プラットフォームでの推奨事項 事後検出力の表示は不要 事前に「最小検出可能効果量(MDE)」を設定 観測効果ではな 、事前の基準で検出力を計算 例:Booking.comのExperiment Tool 新規実験時にMDEを入力 事後検出力は表示せず、事前計画を重視 22

Slide 23

Slide 23 text

事後検出力の計算は不安定 •結論と推奨 事後検出力は誤解を招 ため使用すべ でない A/Bテストでは事前の検出力の計算を重視 実験プラットフォームはMDEを入力 せるべ 事後検出力を採用せず、事前の検出力計算を重視 23

Slide 24

Slide 24 text

実験環境での自由度を最小限に • A/Bテストの結果はデータの処理方法によって大 変わる • 恣意的なデータの処理(外れ値除去やデータの切り分 ) 行われると、 統計的に有意に見える結果 得られてしまう • 統計的有意性は事前に決めたルールに従って評価すべ 24

Slide 25

Slide 25 text

実験環境での自由度を最小限に •事例1:外れ値除去の落とし穴 あるA/Bテストで「統計的に有意」と報告 れた 、 実サンプルでの検定に いてp値は有意ではな った 実は極端な外れ値を除去するという操作 行われた 外れ値除去は仮説に依存せずに行うべ 特にバリアント とに独立した外れ値除去をすると、FPR 上昇する とも •事例2:リアルタイムA/Bテストの落とし穴 Optimizelyの初期のA/Bテストではリアルタイムのp値を確認で た 運用者はp値 有意になった瞬間に実験を停止するようになった の手法は第一種過誤を増大 せる 25

Slide 26

Slide 26 text

実験環境での自由度を最小限に •結論と推奨 事前の設定を推奨 実験システムではデータ処理を標準化する と 重要 データの処理(外れ値除去やデータの切り分 )のルールを事前に設定し、実験の構成として明示する データ処理の変更履歴を記録し、透明性を確保(例:Booking.com) A/Bテストの強みを活 す ソフトウェアに るA/Bテストは再実験のコスト 低い 興味深い結果を発見したら、新たな仮説を立てて再実験すべ 26

Slide 27

Slide 27 text

不均等なバリアントに注意 •A/Bテストではコントロールとトリートメントを均等に割り当てるの 一般的 •理論上は「コントロールを大 すると検出力 上 る」と考えられる 特に段階的導入ではトリートメントを小 設定する ともある (例:10%→50%) し し、不均等なバリアントは技術的・統計的な問題を引 起 す可能性 ある 27

Slide 28

Slide 28 text

不均等なバリアントに注意 •不均等なバリアントの理論上のメリット コントロールを大 すると、トリートメントとの比較で分散 小 なる と ら、 検出力 向上(最大10%程度) 具体的に考えると、1つのコントロールを複数のトリートメントと共有すると検出力 向上 (例:コントロール:50%、トリートメント×5:各10%) 28

Slide 29

Slide 29 text

不均等なバリアントに注意 •不均等なバリアントの採用による実務的な環境での問題(技術的・運用的リスク) トリガー型実験(特定の条件を満たすユーザーのみ対象)での実現 大変(考慮 必要) 期待通りにするためにはど で制御 せないとい ない Cookie Churnで不均等になる ユーザー粒度での分割に対して、再割り当て 発生する 特に大 いバリアントに再割り当て れてしまう確率 高い( らに不均等に) LRU(Least Recently Used)キャッシュの影響により、大 なバリアント 有利になる レスポンス 早 なるなど •実務的な環境では均等なバリアント 推奨 29

Slide 30

Slide 30 text

不均等なバリアントに注意 •シミュレーション(A/Aテスト) どちらも第一種過誤 理論値(2.5%)に近い スキューネス 比較的大 い 正規分布に近い 第一種過誤 増加/減少 30

Slide 31

Slide 31 text

不均等なバリアントに注意 •結論と推奨 不均等なバリアントは第一種過誤を増加 せる可能性 ある 検出力の向上だ でな 、誤検出のリスクも考慮する必要 ある 31

Slide 32

Slide 32 text

まとめ •A/Bテストに る5つの「直感的誤解」を解説 ①意外な結果には強力な証拠 必要 ②検出力の低い実験は信頼性 低い ③事後検出力の計算は不安定 ④実験環境での自由度を最小限に ⑤不均等なバリアントに注意 •実験者 誤解しに い実験プラットフォームの設計を提案 一部の推奨事項は著者ら 関わる実際のプラットフォームに導入済み 32