Slide 1

Slide 1 text

Budget Constrained Bidding by Model-free Reinforcement 
 Learning in Display Advertising 
 
 アドテクDS勉強会 第5回 
 AI事業本部アプリ運用カンパニー
 石原 佳明 / Ishihara Yoshiaki


Slide 2

Slide 2 text

自己紹介
 石原 佳明
 
 所属:AI事業本部アプリ運用カンパニー 
 職種:データサイエンティスト
 入社:2021年新卒入社
 業務:小売オウンドメディアでの広告プロダクトグロース 
 趣味:ビーチバレー🏖
 
 2

Slide 3

Slide 3 text

イントロダクション 
 ディスプレイ広告
 ● 2017年上半期で176億ドルの市場規模 
 ● RTBにおける予算制約下でのKPI最大化を目指した入札アルゴリズムが発展 
 ○ セカンドプライスオークションでは最適入札がv/λ の形式をとる 
 (v: インプレッション価値, λ: スケーリングパラメータ) 
 
 セカンドプライスオークションにおける難しさ 
 多数の異質な入札者が同じ広告機会を争うため 市場が極めて動的で最適なλの取得が困難
 3

Slide 4

Slide 4 text

既存のアプローチ 
 予算制約付き入札問題を解決する既存の研究は大きく2つのカテゴリーに分けられる 
 
 1. 最適入札式を活用しλを動的に調整 
 a. ex. λ= f(予算) の形式で予算消化速度を調整の指標として使用(FLB、BSLB) 
 b. 🧩 最適な予算消化速度を決定する方法は依然として未解決 
 2. オークションプロセスをマルコフ決定過程(MDP)として定式化 
 a. ex. 強化学習(RL)アルゴリズムを使用した予算制約付き入札(RLB) 
 b. 🚧 モデルベースのRLアプローチは、計算コストが高すぎるという課題 
 4

Slide 5

Slide 5 text

提案: Deep Reinforcement Learning to Bid (DRLB) 
 モデルフリー強化学習を活用した新しい予算制約付き入札手法を提案 
 
 提案手法が解決する課題 
 ● 提案1: RewardNet
 ○ 解決したい課題: 即時報酬ではエージェントが簡単に局所最適解に収束してしまう 
 ○ 提案: 長期的報酬を考慮した新しい報酬を設計し予測 
 ● 提案2: Adaptive ϵ-greedy Policy
 ○ 解決したい課題: 減衰率が高すぎる場合における探索不足 
 ○ 提案: (状態, アクション値)のQ値の分布に基づき、探索確率を動的に調整 
 5

Slide 6

Slide 6 text

Background: 予算制約付き入札 
 予算制約付き入札の目標 
 xはインプしたか、vはインプごとの価値を表現 
 
 
 
 
 
 セカンドプライスオークションでの最適入札戦略 
 λはスケーリングパラメータ
 リアルタイムかつ非定常な環境では最適なλを得ることが困難 
 
 
 
 
 6

Slide 7

Slide 7 text

Background: 強化学習と制約付きマルコフ決定過程 
 エージェントが環境と相互作用する 
 順次アクションと結果の観察を繰り返し累積報酬の最大化を目指す 
 
 マルコフ決定過程(Markov Decision Process, MDP)としてモデル化されることが多く 
 コストCの制約条件下で割引報酬関数Rを最大化させるような最適ポリシーπを学習する 
 
 
 
 
 
 
 
 7

Slide 8

Slide 8 text

提案手法のモデル 
 CMDPフレームワーク内で予算制約付き入札をλ制御問題としてモデル化し、 
 モデルフリーRL(Deep Q-network)を使用して解決することを提案 
 状態sでアクションaを取った際の行動価値関数(    )をQ-学習で更新 
 ステップごとにλを更新し入札価格 を計算 
 
 
 8 Figure 1: Illustration of λ control process in budget constrained bidding. 
 (A) Agent training process. (B) Agent online predicting process. 
 


Slide 9

Slide 9 text

長期的な報酬を考慮した報酬設計 
 解決したい課題: 予算制約の無視 
 即時報酬でのQ-学習は予算制約を考慮しておらず、 
 早い段階で予算消化してしまうような学習をしてしまうリスクがある 
 
 全体を考慮した報酬設計 
 エピソード(e)内のすべての状態-アクションペア(s, a)に適用する報酬と考える 
 9

Slide 10

Slide 10 text

Adaptive ϵ-greedy Policy 
 解決したい課題: 適切な減衰速度が困難 
 非定常な環境において固定の原則速度で収束するような値設定を行うことが難しい 
 
 Q値の分布に合わせた探索確率の動的変化 
 分布が異常(多峰性やランダム性)なら探索確率を一時的に増加 
 
 10 Figure 2: Distribution examples of action-value Q during training. (a) Normal distribution. (b) Abnormal distribution. 
 (a)
 (b)
 ✍各ステップで最適なλが保証されているため
 収束していればを単峰性であると仮定している


Slide 11

Slide 11 text

深層強化学習による入札(DRLB) 
 前述の設計を組み合わせてDeep Reinforcement Learning to Bid(DRLB)を構築 
 1. Adaptive ϵ-greedy Policyを用いて状態sからアクションaを選択しλを計算 
 2. 1.で得られたλを用いて入札額を決定 
 3. 入札結果から報酬と次の状態を取得し1.に戻る 
 🤖 状態-アクションに基づく累積報酬は深層学習で予測(RewardNet) 
 11 Figure 3: Illustration of Deep Reinforcement Learning to Bid. 


Slide 12

Slide 12 text

実験設定
 使用データと評価指標 
 ● Dataset A: 実世界のeコマース広告ログ(10日間、20億インプレッション) 
 ○ 累積予測CTR
 ● Dataset B: iPinYouデータセット
 ○ 実際のクリック数
 比較手法
 ● Fixed Linear Bidding (FLB)
 ○ 固定されたλを使用して線形的に入札 
 ● Budget Smoothed Linear Bidding (BSLB) 
 ○ 予算消化率を考慮して動的にλを調整 
 ● Reinforcement Learning to Bid (RLB) 
 ○ オークションプロセスをMDPとして形式化したモデルベースRL 
 12

Slide 13

Slide 13 text

実験結果: eコマース広告ログ(Dataset A) 
 提案手法が他の手法と比較し全体で16.8%改善 
 初期値のズレが大きい場合でも安定して高いパフォーマンス 
 
 13 Table 1: The R/R∗ improvements of DRLB over other three methods in 9 groups of λdeviation based on Dataset A. 
 


Slide 14

Slide 14 text

実験結果: eコマース広告ログ(Dataset A) 
 提案手法が他の手法と比較し全体で16.8%改善 
 初期値のズレが大きい場合でも安定して高いパフォーマンス 
 
 14 Table 1: The R/R∗ improvements of DRLB over other three methods in 9 groups of λdeviation based on Dataset A. 
 


Slide 15

Slide 15 text

実験結果: iPinYouデータセット 
 クリック数においてDRLBがRLBに対して平均4.3%改善 
 AUCが低いキャンペーンでRLBの方が良い傾向 
 15 Table 2: Detailed AUC and real clicks for DRLB and RLB (T = 1000 and c0 = 1/16) in Dataset B. 


Slide 16

Slide 16 text

実験結果: 即時報酬関数との収束比較 
 RewardNetとImmediate Reward(即時報酬)を使用した2つのモデルで収束挙動を比較 
 (a): RewardNetは短いステップで最適な報酬付近(R/R^* = 0.893)に収束 
 (b): 即時報酬が前半で予算を使い果たすがRewardNetでは継続して報酬獲得 
 
 16 Figure 4: Comparison between RewardNet and immediate R/R∗ reward. (a) The R/R∗ of two models over steps. 
 (b) Reward distribution of two models along with the ideal one in an episode. display adverti 
 (a)
 (b)


Slide 17

Slide 17 text

実験結果: Adaptive ε- Greedy Policyの有効性 
 2つの異なるεの減衰率で通常のε- Greedy Policyと比較 
 減衰率が高い設定ほど提案手法と通常の収束率で差が大きくなった 
 
 
 17 Figure 5: Performance of adaptive ϵ-greedy and original ϵ- greedy. (a) rϵ=2e-5. (b) rϵ=1e-5.
 (a)
 (b)


Slide 18

Slide 18 text

まとめ
 貢献
 ● 予算制約付き入札問題を線形入札方程式に基づく λ制御問題 として再定式化 
 ● 即時報酬の代わりに RewardNet を設計し、長期的な目標に適した報酬を生成 
 ● Adaptive ε- Greedy Policyを導入し、探索不足を緩和 
 
 成果
 ● 提案モデルは迅速に収束し、既存の入札手法を大幅に上回る性能を実現 
 ● RewardNetの汎用性により、他の長期的最適化問題への応用も期待できる。 
 
 18

Slide 19

Slide 19 text

Appendix. 
 19

Slide 20

Slide 20 text

DRLBのアルゴリズム: 入札 
 20

Slide 21

Slide 21 text

DRLBのアルゴリズム: 報酬の予測 
 21

Slide 22

Slide 22 text

実験設定
 1. ネットワーク構造:
 a. 状態-アクション値関数 Q とRewardNet: 
 i. 構造: 全結合ニューラルネットワーク、3隠れ層、各層100ノード。 
 2. ハイパーパラメータ設定: 
 a. ミニバッチサイズ: 32 
 b. リプレイメモリサイズ: 100,000 
 3. λ調整率:
 a. 候補: -8%、-3%、-1%、0%、1%、3%、8% 
 4. ε -greedyポリシー: 
 a. 初期値: 0.9
 b. 最終値: 0.05
 c. 減衰式: ε = max(0.95 - r_ε* t, 0.05) 
 d. 適応型ポリシー:
 i. アクション値分布が単峰型でない場合: \epsilon = \max(\epsilon, 0.5) 
 5. 学習設定:
 a. ターゲットネットワークの更新: C = 100 ステップごとにθを更新 
 b. 学習率: 0.001
 c. モーメント: 0.95
 22

Slide 23

Slide 23 text

所感
 小売アプリ上での広告配信プロダクトへの応用を考えてみた 
 
 ● 大規模在庫のある小売アプリ上でRTBした場合でも有効な手段なのかなと思った 
 ○ 一方で金子さんの指摘のとおり在庫の問題とか先に解くべき課題がありそう 
 ● 起動時ポップでの広告配信がクリック率高いため、もし適用するなら誤クリックを除外する工夫 が必要だと思った
 23

Slide 24

Slide 24 text

関連研究と課題 
 関連研究の概要
 ● 静的手法: 固定スケールでの入札調整(例: FLB、BSLB) 
 ● モデルベース強化学習 (例: RLB) 
 
 問題点
 ● 静的手法: 環境の動的変化に対応できない 
 ● モデルベース: 状態遷移をモデル化する必要があり計算コストが高い 
 
 
 24