Ad-DS Paper Circle #5

Budget Constrained Bidding by Model-free Reinforcement   Learning in Display
Advertising     アドテクDS勉強会第5回   AI事業本部アプリ運用カンパニー  石原佳明 / Ishihara Yoshiaki 

自己紹介  石原佳明    所属：AI事業本部アプリ運用カンパニー   職種：データサイエンティスト  入社：2021年新卒入社  業務：小売オウンドメディアでの広告プロダクトグロース  
趣味：ビーチバレー🏖    2

イントロダクション   ディスプレイ広告  • 2017年上半期で176億ドルの市場規模   • RTBにおける予算制約下でのKPI最大化を目指した入札アルゴリズムが発展   ◦
セカンドプライスオークションでは最適入札がv/λ の形式をとる   (v: インプレッション価値, λ: スケーリングパラメータ）     セカンドプライスオークションにおける難しさ   多数の異質な入札者が同じ広告機会を争うため市場が極めて動的で最適なλの取得が困難  3

既存のアプローチ   予算制約付き入札問題を解決する既存の研究は大きく2つのカテゴリーに分けられる     1. 最適入札式を活用しλを動的に調整   a. ex.
λ= f(予算) の形式で予算消化速度を調整の指標として使用（FLB、BSLB）   b. 🧩 最適な予算消化速度を決定する方法は依然として未解決   2. オークションプロセスをマルコフ決定過程（MDP）として定式化   a. ex. 強化学習（RL）アルゴリズムを使用した予算制約付き入札（RLB）   b. 🚧 モデルベースのRLアプローチは、計算コストが高すぎるという課題   4

提案: Deep Reinforcement Learning to Bid (DRLB)   モデルフリー強化学習を活用した新しい予算制約付き入札手法を提案  
  提案手法が解決する課題   • 提案1: RewardNet  ◦ 解決したい課題: 即時報酬ではエージェントが簡単に局所最適解に収束してしまう   ◦ 提案: 長期的報酬を考慮した新しい報酬を設計し予測   • 提案2: Adaptive ϵ-greedy Policy  ◦ 解決したい課題: 減衰率が高すぎる場合における探索不足   ◦ 提案: （状態, アクション値）のQ値の分布に基づき、探索確率を動的に調整   5

Background: 予算制約付き入札   予算制約付き入札の目標   xはインプしたか、vはインプごとの価値を表現        
    セカンドプライスオークションでの最適入札戦略   λはスケーリングパラメータ  リアルタイムかつ非定常な環境では最適なλを得ることが困難           6

Background: 強化学習と制約付きマルコフ決定過程   エージェントが環境と相互作用する   順次アクションと結果の観察を繰り返し累積報酬の最大化を目指す     マルコフ決定過程（Markov Decision
Process, MDP）としてモデル化されることが多く   コストCの制約条件下で割引報酬関数Rを最大化させるような最適ポリシーπを学習する                 7

提案手法のモデル   CMDPフレームワーク内で予算制約付き入札をλ制御問題としてモデル化し、   モデルフリーRL（Deep Q-network）を使用して解決することを提案   状態sでアクションaを取った際の行動価値関数（　　　　）をQ-学習で更新   ステップごとにλを更新し入札価格
を計算       8 Figure 1: Illustration of λ control process in budget constrained bidding.   (A) Agent training process. (B) Agent online predicting process.    

長期的な報酬を考慮した報酬設計   解決したい課題: 予算制約の無視   即時報酬でのQ-学習は予算制約を考慮しておらず、   早い段階で予算消化してしまうような学習をしてしまうリスクがある    
全体を考慮した報酬設計   エピソード（e）内のすべての状態-アクションペア（s, a）に適用する報酬と考える   9

Adaptive ϵ-greedy Policy   解決したい課題: 適切な減衰速度が困難   非定常な環境において固定の原則速度で収束するような値設定を行うことが難しい    
Q値の分布に合わせた探索確率の動的変化   分布が異常（多峰性やランダム性）なら探索確率を一時的に増加     10 Figure 2: Distribution examples of action-value Q during training. (a) Normal distribution. (b) Abnormal distribution.   (a)  (b)  ✍各ステップで最適なλが保証されているため  収束していればを単峰性であると仮定している 

深層強化学習による入札（DRLB）   前述の設計を組み合わせてDeep Reinforcement Learning to Bid（DRLB）を構築   1. Adaptive
ϵ-greedy Policyを用いて状態sからアクションaを選択しλを計算   2. 1.で得られたλを用いて入札額を決定   3. 入札結果から報酬と次の状態を取得し1.に戻る   🤖 状態-アクションに基づく累積報酬は深層学習で予測（RewardNet）   11 Figure 3: Illustration of Deep Reinforcement Learning to Bid.  

実験設定  使用データと評価指標   • Dataset A: 実世界のeコマース広告ログ（10日間、20億インプレッション）   ◦ 累積予測CTR 
• Dataset B: iPinYouデータセット  ◦ 実際のクリック数  比較手法  • Fixed Linear Bidding (FLB)  ◦ 固定されたλを使用して線形的に入札   • Budget Smoothed Linear Bidding (BSLB)   ◦ 予算消化率を考慮して動的にλを調整   • Reinforcement Learning to Bid (RLB)   ◦ オークションプロセスをMDPとして形式化したモデルベースRL   12

実験結果: eコマース広告ログ（Dataset A）   提案手法が他の手法と比較し全体で16.8%改善   初期値のズレが大きい場合でも安定して高いパフォーマンス     13
Table 1: The R/R∗ improvements of DRLB over other three methods in 9 groups of λdeviation based on Dataset A.    

実験結果: eコマース広告ログ（Dataset A）   提案手法が他の手法と比較し全体で16.8%改善   初期値のズレが大きい場合でも安定して高いパフォーマンス     14
Table 1: The R/R∗ improvements of DRLB over other three methods in 9 groups of λdeviation based on Dataset A.    

実験結果: iPinYouデータセット   クリック数においてDRLBがRLBに対して平均4.3%改善   AUCが低いキャンペーンでRLBの方が良い傾向   15 Table 2:
Detailed AUC and real clicks for DRLB and RLB (T = 1000 and c0 = 1/16) in Dataset B.  

実験結果: 即時報酬関数との収束比較   RewardNetとImmediate Reward（即時報酬）を使用した2つのモデルで収束挙動を比較   (a): RewardNetは短いステップで最適な報酬付近（R/R^* = 0.893）に収束
  (b): 即時報酬が前半で予算を使い果たすがRewardNetでは継続して報酬獲得     16 Figure 4: Comparison between RewardNet and immediate R/R∗ reward. (a) The R/R∗ of two models over steps.   (b) Reward distribution of two models along with the ideal one in an episode. display adverti   (a)  (b) 

実験結果: Adaptive ε- Greedy Policyの有効性   2つの異なるεの減衰率で通常のε- Greedy Policyと比較  
減衰率が高い設定ほど提案手法と通常の収束率で差が大きくなった       17 Figure 5: Performance of adaptive ϵ-greedy and original ϵ- greedy. (a) rϵ=2e-5. (b) rϵ=1e-5.  (a)  (b) 

まとめ  貢献  • 予算制約付き入札問題を線形入札方程式に基づく λ制御問題として再定式化   • 即時報酬の代わりに RewardNet
を設計し、長期的な目標に適した報酬を生成   • Adaptive ε- Greedy Policyを導入し、探索不足を緩和     成果  • 提案モデルは迅速に収束し、既存の入札手法を大幅に上回る性能を実現   • RewardNetの汎用性により、他の長期的最適化問題への応用も期待できる。     18

Appendix.   19

DRLBのアルゴリズム: 入札   20

DRLBのアルゴリズム: 報酬の予測   21

実験設定  1. ネットワーク構造:  a. 状態-アクション値関数 Q とRewardNet:   i. 構造:
全結合ニューラルネットワーク、3隠れ層、各層100ノード。   2. ハイパーパラメータ設定:   a. ミニバッチサイズ: 32   b. リプレイメモリサイズ: 100,000   3. λ調整率:  a. 候補: -8%、-3%、-1%、0%、1%、3%、8%   4. ε -greedyポリシー:   a. 初期値: 0.9  b. 最終値: 0.05  c. 減衰式: ε = max(0.95 - r_ε* t, 0.05)   d. 適応型ポリシー:  i. アクション値分布が単峰型でない場合: \epsilon = \max(\epsilon, 0.5)   5. 学習設定:  a. ターゲットネットワークの更新: C = 100 ステップごとにθを更新   b. 学習率: 0.001  c. モーメント: 0.95  22

所感  小売アプリ上での広告配信プロダクトへの応用を考えてみた     • 大規模在庫のある小売アプリ上でRTBした場合でも有効な手段なのかなと思った   ◦ 一方で金子さんの指摘のとおり在庫の問題とか先に解くべき課題がありそう  
• 起動時ポップでの広告配信がクリック率高いため、もし適用するなら誤クリックを除外する工夫が必要だと思った  23

関連研究と課題   関連研究の概要  • 静的手法: 固定スケールでの入札調整（例: FLB、BSLB）   • モデルベース強化学習
(例: RLB)     問題点  • 静的手法: 環境の動的変化に対応できない   • モデルベース: 状態遷移をモデル化する必要があり計算コストが高い       24

Ad-DS Paper Circle #5

Ad-DS Paper Circle #5

Yusuke Kaneko

More Decks by Yusuke Kaneko

Featured

Transcript

Budget Constrained Bidding by Model-free Reinforcement   Learning in Display

自己紹介  石原佳明    所属：AI事業本部アプリ運用カンパニー   職種：データサイエンティスト  入社：2021年新卒入社  業務：小売オウンドメディアでの広告プロダクトグロース

イントロダクション   ディスプレイ広告  • 2017年上半期で176億ドルの市場規模   • RTBにおける予算制約下でのKPI最大化を目指した入札アルゴリズムが発展   ◦

既存のアプローチ   予算制約付き入札問題を解決する既存の研究は大きく2つのカテゴリーに分けられる     1. 最適入札式を活用しλを動的に調整   a. ex.

提案: Deep Reinforcement Learning to Bid (DRLB)   モデルフリー強化学習を活用した新しい予算制約付き入札手法を提案

Background: 予算制約付き入札   予算制約付き入札の目標   xはインプしたか、vはインプごとの価値を表現

Background: 強化学習と制約付きマルコフ決定過程   エージェントが環境と相互作用する   順次アクションと結果の観察を繰り返し累積報酬の最大化を目指す     マルコフ決定過程（Markov Decision

長期的な報酬を考慮した報酬設計   解決したい課題: 予算制約の無視   即時報酬でのQ-学習は予算制約を考慮しておらず、   早い段階で予算消化してしまうような学習をしてしまうリスクがある

Adaptive ϵ-greedy Policy   解決したい課題: 適切な減衰速度が困難   非定常な環境において固定の原則速度で収束するような値設定を行うことが難しい

深層強化学習による入札（DRLB）   前述の設計を組み合わせてDeep Reinforcement Learning to Bid（DRLB）を構築   1. Adaptive

実験設定  使用データと評価指標   • Dataset A: 実世界のeコマース広告ログ（10日間、20億インプレッション）   ◦ 累積予測CTR

実験結果: eコマース広告ログ（Dataset A）   提案手法が他の手法と比較し全体で16.8%改善   初期値のズレが大きい場合でも安定して高いパフォーマンス     13

実験結果: eコマース広告ログ（Dataset A）   提案手法が他の手法と比較し全体で16.8%改善   初期値のズレが大きい場合でも安定して高いパフォーマンス     14

実験結果: iPinYouデータセット   クリック数においてDRLBがRLBに対して平均4.3%改善   AUCが低いキャンペーンでRLBの方が良い傾向   15 Table 2:

実験結果: 即時報酬関数との収束比較   RewardNetとImmediate Reward（即時報酬）を使用した2つのモデルで収束挙動を比較   (a): RewardNetは短いステップで最適な報酬付近（R/R^* = 0.893）に収束

実験結果: Adaptive ε- Greedy Policyの有効性   2つの異なるεの減衰率で通常のε- Greedy Policyと比較

まとめ  貢献  • 予算制約付き入札問題を線形入札方程式に基づく λ制御問題として再定式化   • 即時報酬の代わりに RewardNet

Appendix.   19

DRLBのアルゴリズム: 入札   20

DRLBのアルゴリズム: 報酬の予測   21

実験設定  1. ネットワーク構造:  a. 状態-アクション値関数 Q とRewardNet:   i. 構造:

関連研究と課題   関連研究の概要  • 静的手法: 固定スケールでの入札調整（例: FLB、BSLB）   • モデルベース強化学習