Slide 1

Slide 1 text

Best of Three Worlds: Adaptive Experimentation for Digital Marketing in Practice 金融第二 古郡 国彦

Slide 2

Slide 2 text

ABテストとは? AとBの2つのグループを作成し、各グループのパフォーマンスを測定して、 どちらがよりパフォーマンスが優れているかをテスト

Slide 3

Slide 3 text

ABテストの設計手順 1.OEC(総合評価基準 )や重点評価指標 (KPI)、検証すべき明確な仮説を決定 2.ランダム化単位(例:ユーザー単位)で対象者を A/B分割 3.必要サンプルサイズ・実験期間を算定(曜日効果・季節性考慮) 4.テスト実施・データ収集 5.分析で仮説検証 6.結果に基づき意思決定

Slide 4

Slide 4 text

ABテストの設計手順 1.OEC(総合評価基準 )や重点評価指標 (KPI)、検証すべき明確な仮説を決定 2.ランダム化単位(例:ユーザー単位)で対象者を A/B分割 3.必要サンプルサイズ・実験期間を算定(曜日効果・季節性考慮) 4.テスト実施・データ収集 5.分析で仮説検証 6.結果に基づき意思決定

Slide 5

Slide 5 text

探索と活用のジレンマ

Slide 6

Slide 6 text

A/Bテストとバンディットアルゴリズムの違い A/Bテスト • 固定的に集めたデータをもとに、どちらが良いか比較 • ある程度期間を設けてから結果を判定し、最終的に片方を選ぶ • テスト期間中は、性能の低い方を表示するリスクがある バンディットアルゴリズム • データを取りながら、その時点で成績の良い方へ配分を増やしていく • 途中結果を見て動的に割り振りを変えるため、より早く利益を最大化しやすい • 「探索(どちらが良いか検証)」と「活用(より良い方に集中)」を同時に行う方法 「探索(どちらが良いか検証)」と「活用(より良い方に集中)」を同時に行う方法 をバンディットアルゴリズムと呼んでいる

Slide 7

Slide 7 text

多腕バンディッド問題とは? 定義 複数の選択肢(アーム) があり、各アームを選んだときに得られる 報酬 は未知だけれど一定の確率で与えられる 探索( Exploration): どのアームが高い報酬を生むのか知るために試し続けること 活用( Exploitation): 試しつつ良いアームが分かってきたら、それを優先して報酬を増やすこと 目的: 全体の報酬(成果)を最大化する 具体例:広告配信 状況: 複数の広告バナー( Ad A, Ad B, Ad C など)を用意し、どれがもっともクリック率やコンバージョン率を高めるかを知りたい 対応関係: アーム : 各広告バナー, 報酬: ユーザがクリックした、または購入した、などの成果 狙い: 高い成果が期待できるバナーを「活用」しながら、まだ試していないバナーも一定の割合で「探索」する テスト期間中の機会損失をできるだけ抑えつつ、どんどん良い広告を多く配信して収益を高める

Slide 8

Slide 8 text

ε-greedy (イプシロングリーディ ) 法 テスト期間中に有望な方を優先して割り当てることで、 A/Bテスト の固定配分による損失を減らせるようにした

Slide 9

Slide 9 text

UCB方策 イプシロングリーディーでは探索率( ε)が固定なのに対し、 UCBは不確実性の 大きいアームを優先的に試すことで、より賢く探索を行う点を改善

Slide 10

Slide 10 text

トンプソンサンプリング ベイズ的に報酬分布を推定して確率的にアームを選ぶことで、 UCBのよう に決定的な上限推定に依存せず、柔軟かつ効率的に探索と活用を両立す る点を改善

Slide 11

Slide 11 text

トンプソンサンプリングで完璧なの?課題は? ・現実の産業データのように、時間とともに変化する環境では、その性能が著しく低下する ・収集されたデータに基づいた推論を行う際に、エラー率を膨らませる ・動的にトラフィックを割り当てるため、シンプソンのパラドックスが発生しやすい ・最適なアームを特定するのに時間がかかり、バイアスのかかった平均推定につながる

Slide 12

Slide 12 text

Case Study 1: Adaptive Designs & Inference 背景 新メッセージ B と従来メッセージ A を比較したい Thompson Sampling 等のバンディット手法により、良さそうな方へ自動的にトラフィックを増やす 問題 トラフィック配分の偏り : “良い” とされた施策に大半が振られ、もう一方のデータが不足 時系列変動(非定常性) : 日ごとに真の平均が変動 →シンプソンのパラドックスに陥る 推定誤差: 有意差検定を実施しても、偏ったデータにより誤った結論へ導かれやすい 教訓 実務で レグレット最小化(早期集約) と 推定の厳密性 はトレードオフ Always-Valid な信頼区間 など、非定常性にもロバストな推定技術が必要 後から検証可能なデータ枠 の確保や、段階的な探索・除去アルゴリズムの設計が重要

Slide 13

Slide 13 text

Case Study 2: Real Life Time Variation 背景 産業界の実験データは、完全に定常でも完全に adversarial(悪意的)でもない “中間” 的な性質を示す マーケティング等の実験では日ごとの集客・購買行動が大きく変動し、施策間の性能差も日々変化しうる 問題 非定常性: 時系列で平均が変動するため、特定の日に有利な施策が他の日では不利になる データの不一致 : 実験期間中に利用者層や外部環境が変化 → 1つの施策評価が通期で一貫しない 潜在的混同行: 隠れた要因の影響を適切にモデル化せずにデータ解釈すると、誤った結論を導く可能性 教訓 いつでも最適な施策が同じとは限らない : 非定常な環境を前提に実験設計が必要 Always-Valid な推定手法・段階的な探索設計を活用し、時間経過による揺らぎを考慮 カウンターファクチュアル最適施策の識別が依然重要であり、実験データのタイミングやサイクルを十分に検証する必要がある

Slide 14

Slide 14 text

Lessons Learned “Regret Minimization” だけでは不十分 実験の本来の目的は、今後の意思決定に役立つ「正しい推論や知見」を得ること。 レグレット最小化に特化したアルゴリズム(最適な施策を早期に見つけることを目指す)だけでは、真に有意な結論を得るまでに想定以上の時間を要したり、平 均値の推定がバイアスを含む場合がある。 バンディット運用の注意点 多くの実験システムは、日次や週次でバッチ的にモデルを更新するため、ある特定の更新日が実験全体のトラフィック配分や推論に大きく影響しがち。 短期間の実験では、初期数日の結果だけで配分が極端に偏り、以降の推測に歪みが生じるリスクがある。 確率的バンディット (Stochastic Bandit) 手法はしばしば失敗する 一般的にレグレット最小化を狙うバンディット手法は、バックグラウンドに「施策の効果が一定(定常的)」という仮定を置くことが多い。 現実の産業環境では、時間とともに変化が生じる非定常性や、適応的に集めたデータのバイアスなどの理由で、最適化に失敗するケースが珍しくない。 AAテスト(同一施策同士の比較)など適切な比較基準が無いと、問題に気付かないまま失敗が進行してしまう場合がある。

Slide 15

Slide 15 text

3.1 Estimation with Time Variation

Slide 16

Slide 16 text

3.1 Estimation with Time Variation

Slide 17

Slide 17 text

3.2 Adaptive Counterfactual Inference

Slide 18

Slide 18 text

3.2 Adaptive Counterfactual Inference

Slide 19

Slide 19 text

4.1 Offline Experiments

Slide 20

Slide 20 text

4.1 Offline Experiments

Slide 21

Slide 21 text

4.2 Online Experiments: Theme 1 – Robustness to Non-Stationarity

Slide 22

Slide 22 text

4.2 Online Experiments: Theme 1 – Robustness to Non-Stationarity

Slide 23

Slide 23 text

4.2 Online Experiments: Theme 2 – Efficient Inference & Finding the Best 実験3: 早期排除の効果 ● 結果: ○ CGSEは3週間で最適腕を特定(図6)。 ○ 信頼区間の縮小に伴い、サブ最適腕を逐次排除(図6b)。 ● ビジネス応用 : ○ 早期終了可能で意思決定速度向上。 Key Metrics: ● Always-Valid CI: 下限値が0を超えた時点で最適腕確定。

Slide 24

Slide 24 text

4.2 Online Experiments: Theme 2 – Efficient Inference & Finding the Best 実験4: 極端な性能差のケース ● 状況: ○ 腕1-2は性能が極端に低い(図7)。 ● 結果: ○ CGSEは3日目で腕1-2を排除(図7b)。 ○ 最終的に90%トラフィックを最適腕3-4に集中。 ● 効率性: ○ 均等配分に比べ、実験期間を50%短縮。

Slide 25

Slide 25 text

4.3 Algorithmic Guarantees

Slide 26

Slide 26 text

4.3 Algorithmic Guarantees

Slide 27

Slide 27 text

Best of Three Worlds: 非定常環境下での実践的実験設計