Ad-DS Paper Circle #7 - Speaker Deck

Ad-DS Paper Circle #7

by Yusuke Kaneko

Slide 1

Slide 1 text

Best of Three Worlds: Adaptive Experimentation for Digital Marketing in Practice 金融第二　古郡　国彦

Slide 2

Slide 2 text

ABテストとは？ AとBの2つのグループを作成し、各グループのパフォーマンスを測定して、どちらがよりパフォーマンスが優れているかをテスト

Slide 3

Slide 3 text

ABテストの設計手順 1.OEC(総合評価基準 )や重点評価指標 (KPI)、検証すべき明確な仮説を決定 2.ランダム化単位（例：ユーザー単位）で対象者を A/B分割 3.必要サンプルサイズ・実験期間を算定（曜日効果・季節性考慮） 4.テスト実施・データ収集 5.分析で仮説検証 6.結果に基づき意思決定

Slide 4

Slide 4 text

Slide 5

Slide 5 text

探索と活用のジレンマ

Slide 6

Slide 6 text

A/Bテストとバンディットアルゴリズムの違い A/Bテスト • 固定的に集めたデータをもとに、どちらが良いか比較 • ある程度期間を設けてから結果を判定し、最終的に片方を選ぶ • テスト期間中は、性能の低い方を表示するリスクがあるバンディットアルゴリズム • データを取りながら、その時点で成績の良い方へ配分を増やしていく • 途中結果を見て動的に割り振りを変えるため、より早く利益を最大化しやすい • 「探索（どちらが良いか検証）」と「活用（より良い方に集中）」を同時に行う方法「探索（どちらが良いか検証）」と「活用（より良い方に集中）」を同時に行う方法をバンディットアルゴリズムと呼んでいる

Slide 7

Slide 7 text

多腕バンディッド問題とは？定義複数の選択肢（アーム）があり、各アームを選んだときに得られる報酬は未知だけれど一定の確率で与えられる探索（ Exploration）: どのアームが高い報酬を生むのか知るために試し続けること活用（ Exploitation）: 試しつつ良いアームが分かってきたら、それを優先して報酬を増やすこと目的: 全体の報酬（成果）を最大化する具体例：広告配信状況：複数の広告バナー（ Ad A, Ad B, Ad C など）を用意し、どれがもっともクリック率やコンバージョン率を高めるかを知りたい対応関係：アーム : 各広告バナー, 報酬: ユーザがクリックした、または購入した、などの成果狙い：高い成果が期待できるバナーを「活用」しながら、まだ試していないバナーも一定の割合で「探索」するテスト期間中の機会損失をできるだけ抑えつつ、どんどん良い広告を多く配信して収益を高める

Slide 8

Slide 8 text

ε-greedy (イプシロングリーディ ) 法テスト期間中に有望な方を優先して割り当てることで、 A/Bテストの固定配分による損失を減らせるようにした

Slide 9

Slide 9 text

UCB方策イプシロングリーディーでは探索率（ ε）が固定なのに対し、 UCBは不確実性の大きいアームを優先的に試すことで、より賢く探索を行う点を改善

Slide 10

Slide 10 text

トンプソンサンプリングベイズ的に報酬分布を推定して確率的にアームを選ぶことで、 UCBのように決定的な上限推定に依存せず、柔軟かつ効率的に探索と活用を両立する点を改善

Slide 11

Slide 11 text

トンプソンサンプリングで完璧なの？課題は？・現実の産業データのように、時間とともに変化する環境では、その性能が著しく低下する・収集されたデータに基づいた推論を行う際に、エラー率を膨らませる・動的にトラフィックを割り当てるため、シンプソンのパラドックスが発生しやすい・最適なアームを特定するのに時間がかかり、バイアスのかかった平均推定につながる

Slide 12

Slide 12 text

Case Study 1: Adaptive Designs & Inference 背景新メッセージ B と従来メッセージ A を比較したい Thompson Sampling 等のバンディット手法により、良さそうな方へ自動的にトラフィックを増やす問題トラフィック配分の偏り : “良い” とされた施策に大半が振られ、もう一方のデータが不足時系列変動（非定常性） : 日ごとに真の平均が変動 →シンプソンのパラドックスに陥る推定誤差: 有意差検定を実施しても、偏ったデータにより誤った結論へ導かれやすい教訓実務でレグレット最小化（早期集約）と推定の厳密性はトレードオフ Always-Valid な信頼区間など、非定常性にもロバストな推定技術が必要後から検証可能なデータ枠の確保や、段階的な探索・除去アルゴリズムの設計が重要

Slide 13

Slide 13 text

Case Study 2: Real Life Time Variation 背景産業界の実験データは、完全に定常でも完全に adversarial（悪意的）でもない “中間” 的な性質を示すマーケティング等の実験では日ごとの集客・購買行動が大きく変動し、施策間の性能差も日々変化しうる問題非定常性: 時系列で平均が変動するため、特定の日に有利な施策が他の日では不利になるデータの不一致 : 実験期間中に利用者層や外部環境が変化 → 1つの施策評価が通期で一貫しない潜在的混同行: 隠れた要因の影響を適切にモデル化せずにデータ解釈すると、誤った結論を導く可能性教訓いつでも最適な施策が同じとは限らない : 非定常な環境を前提に実験設計が必要 Always-Valid な推定手法・段階的な探索設計を活用し、時間経過による揺らぎを考慮カウンターファクチュアル最適施策の識別が依然重要であり、実験データのタイミングやサイクルを十分に検証する必要がある

Slide 14

Slide 14 text

Lessons Learned “Regret Minimization” だけでは不十分実験の本来の目的は、今後の意思決定に役立つ「正しい推論や知見」を得ること。レグレット最小化に特化したアルゴリズム（最適な施策を早期に見つけることを目指す）だけでは、真に有意な結論を得るまでに想定以上の時間を要したり、平均値の推定がバイアスを含む場合がある。バンディット運用の注意点多くの実験システムは、日次や週次でバッチ的にモデルを更新するため、ある特定の更新日が実験全体のトラフィック配分や推論に大きく影響しがち。短期間の実験では、初期数日の結果だけで配分が極端に偏り、以降の推測に歪みが生じるリスクがある。確率的バンディット (Stochastic Bandit) 手法はしばしば失敗する一般的にレグレット最小化を狙うバンディット手法は、バックグラウンドに「施策の効果が一定（定常的）」という仮定を置くことが多い。現実の産業環境では、時間とともに変化が生じる非定常性や、適応的に集めたデータのバイアスなどの理由で、最適化に失敗するケースが珍しくない。 AAテスト（同一施策同士の比較）など適切な比較基準が無いと、問題に気付かないまま失敗が進行してしまう場合がある。

Slide 15

Slide 15 text

3.1 Estimation with Time Variation

Slide 16

Slide 16 text

3.1 Estimation with Time Variation

Slide 17

Slide 17 text

3.2 Adaptive Counterfactual Inference

Slide 18

Slide 18 text

3.2 Adaptive Counterfactual Inference

Slide 19

Slide 19 text

4.1 Offline Experiments

Slide 20

Slide 20 text