Slide 1

Slide 1 text

Real-Time Bidding with 
 Multi-Agent Reinforcement Learning in Display Advertising 
 
 アドテクDS勉強会 第6回 
 AI事業本部 協業DX Div. モビリティカンパニー
 徳住 友稜 / Tokusumi Tomoro


Slide 2

Slide 2 text

自己紹介
 徳住 友稜 / Tomoro Tokusumi 
 
 所属:AI事業本部 協業DX Div. モビリティカンパニー ANAX局 
 職種:データサイエンティスト
 入社:2023年4月中途入社
 業務:配信DSPの入札ロジック設計や効果検証等 
 趣味:旅行✈、サウナ🧖
 
 2

Slide 3

Slide 3 text

1. 論文紹介 2. 研究背景と課題 3. 提案手法 4. 実験と評価 5. 考察とまとめ 6. 所感 7. Appendix 3

Slide 4

Slide 4 text

1. 論文紹介 2. 研究背景と課題 3. 提案手法 4. 実験と評価 5. 考察とまとめ 6. 所感 7. Appendix 4

Slide 5

Slide 5 text

タイトル
 ● Real-Time Bidding with Multi-Agent Reinforcement Learning in Display Advertising 
 著者
 ● DSPをやっているJunqi Jinら (Alibabaグループ)とReinforcement Learning (RL) を専門としている Jun Wang (University College London), Weinan Zhang (上海交通大学) 
 題材
 ● RTB
 ● 複数の広告主や複数のキャンペーンが存在する環境下での入札最適化問題 
 結論
 ● 競合をAgentとするMulti-Agent RLの問題としてBID最適化を定式化した 
 ● clustering methodであるA practical Distributed Coordinated Multi-Agent Bidding (DCMAB) を提 案し、産業規模の実データでSingle-Agentの最適化手法と比較し、有効性を示した 
 論文紹介
 5

Slide 6

Slide 6 text

1. 論文紹介 2. 研究背景と課題 3. 提案手法 4. 実験と評価 5. 考察とまとめ 6. 所感 7. Appendix 6

Slide 7

Slide 7 text

Bid最適化 
 
 ● 所与の拘束条件 (予算制約など) の下でKPIを最大化するように各オークションの入札額を決定 する問題
 ● 発展の歴史は金子さんのIntroスライド参照 
 7

Slide 8

Slide 8 text

TaoBao Display Ad System 
 ● e-commerce system
 ● RTBと同等な戦略をとっている
 ○ 各ad (商品) がDSPに対応
 ○ 予算に応じて応札可否を決定
 ○ 各adごとにeCPMを算出しそれに 応じて掲載ad・請求額を決定 (2nd price オークション)
 ○ CPC課金
 ● 消費者、広告主、プラットフォーマー3者 の全体最適を目指している
 
 8

Slide 9

Slide 9 text

関連研究 (RTBにおけるBid最適化) 
 ● 定常
 ○ 線形アプローチ (Perlich et al.)
 ○ 非線形アプローチ (Zhang et al.)
 ● 非定常 (budget allocationを考慮する) 
 ○ Single-Agent Reinforcement Learning 
 ■ Markov Decision Process (Cai et al.), DQN (Wang et al.) 
 ■ 欠点: 競合を環境の一部分として考慮するが1広告主のBID最適化に止まる 
 ○ Pacing Algorithm
 ■ 欠点: 競合の影響を顕にモデリングできていない 
 
 9

Slide 10

Slide 10 text

本研究の意義と新規性 
 ● Multi-Agent Reinforcement Learning 
 ○ 非定常なオークションを仮定 (budget allocationを考慮) 
 ○ 複数広告主の全体最適化
 ● Clustering method
 ○ 大量な広告主 (agent) を考慮可能に 
 ● 現実的な産業データを使った検証 
 ○ TaoBao Ad Systemのデータ
 10

Slide 11

Slide 11 text

1. 論文紹介 2. 研究背景と課題 3. 提案手法 4. 実験と評価 5. 考察とまとめ 6. 所感 7. Appendix 11

Slide 12

Slide 12 text

A practical Distributed Coordinated Multi-Agent Bidding (DCMAB) 
 主に以下の3つにより構成される手法を提案した 
 ● Multi Agent RL
 ● Agent Clustering
 ● Fully Coordination Bidding
 
 12

Slide 13

Slide 13 text

MARLの設定 
 ● state
 ○ 全てのagentの (cost, revenue)
 ● action
 ○ a i : agent iのaction
 ○ bratio k : impression-level feature
 ○ bid k : ベースの入札額
 
 
 
 
 
 ● reward
 ○ revenue (予算制約あり)
 13

Slide 14

Slide 14 text

MARLの設定 
 Critic (Q関数): すべてのagentのactionを入力する 
 
 
 
 deterministic policy gradientを採用 
 a i = μ i (s) : actor μ を導入する
 ここで、bidding actionがナッシュ均衡となる場合を考える。 
 
 
 
 
 
 上記の制約のもとで最適なμ (actor) を求める。 
 これを、alternative gradient descentアプローチで解いた。 
 14

Slide 15

Slide 15 text

目的関数
 ● critic Qの更新: 以下のL(θ)の最小化 
 
 
 
 
 
 
 
 ● actor μの更新:
 15

Slide 16

Slide 16 text

目的関数 (分散学習用に拡張) 
 ● Critic QとActor μの更新
 
 16

Slide 17

Slide 17 text

Agent Clusters 
 
 計算コスト削減のため、
 独立にclusterを形成させる
 ● Merchants cluster 
 ○ feature: revenue
 ● Consumers cluster
 ○ feature: revenue
 
 actionのみcluster単位
 
 ただし、clusterサイズは
 ハイパーパラメータ
 17

Slide 18

Slide 18 text

1. 論文紹介 2. 研究背景と課題 3. 提案手法 4. 実験と評価 5. 考察とまとめ 6. 所感 7. Appendix 18

Slide 19

Slide 19 text

実験設定 (データセット) 
 TaoBao Display Ad Systemのデータセットを利用する 
 
 
 19 training data test data registered consumers 150,134 150,134 imp count 203,195 212,910 log num 1/20 uniformly sampled 1/20 uniformly sampled term 3 hours in 2018/01/10 3 hours in 2028/01/11 registered merchants 294,768 294,768

Slide 20

Slide 20 text

評価指標
 以下2つの指標で評価。ただし、各agentの値とtotal trafficの値で評価する。 
 ● ROI (:= revenue/budget)
 ● CPA (:= cost/click)
 
 
 20

Slide 21

Slide 21 text

評価方法
 以下の、offline simulatorを用いる 
 1. 該当Episode内のオークションを改めて行う (actionの更新により入札額が変更) 
 2. 提案アルゴリズムにしたがってstate、actionを更新する 
 a. 現実的なフィードバックは受け取れないので、以下の値を学習・評価に使う 
 i. expected CPC :=        where   
 ii. expected revenue := 
 3. 次のEpisodeに進む (1に戻る) 
 
 注: Episode Length
 ● 1回/h
 ● 本データセットは3時間分のデータなので上記のstateの遷移は3ステップ 
 21

Slide 22

Slide 22 text

比較手法
 以下の手法をベースラインとして比較する 
 ● Manually Set Bids
 ● Contextual Bandit
 ○ 他のagentのactionを特徴量に加えた。主な相違点は時間に応じてbudgetのアロケーショ ンを最適化していないこと
 ● Advantageous Actor-critic (A2C) 
 ○ memory replayなし・on-policyのactor-criticアルゴリズム。critic function Qは他のagent のactionが入力されない 
 ● DDPG
 ○ memory replayあり・off-policyの学習アルゴリズム。critic function Qは他のagentのaction が入力されない 
 ● (提案手法) DCMAB
 ○ critic function Qは他のagentのactionが入力される 
 
 22

Slide 23

Slide 23 text

実験結果 (Hyperparameter Tuning) 
 23 2種類の報酬に対して、clusterサイズと評価指標 (total traffic revenue) の関係を調べた。 
 ● “Coord”: 各clusterの報酬はtotal traffic revenue 
 ● “Self-Interest”: 各clusterの報酬はそのclusterのrevenue 
 
 
 
 
 
 
 実線: episodeごとの獲得報酬の平均値 
 色付け領域: episodeごとの獲得報酬の標準偏差 
 いずれの報酬に対して以下の理由で、 clusterサイズ=3が最適と判断した。
 - (a) total revenueが最大
 - (b) budgetが小さいagentでも高いtotal revenueを獲得 
 clusterサイズ=3の”Coord” rewardとManual Set Bidsの 比較


Slide 24

Slide 24 text

実験結果 (既存手法との比較) 
 24 ● 比較手法と同程度のコストで、効率的なCPA、高いROIを実現している 
 


Slide 25

Slide 25 text

実験結果 (Coordination vs Self-Interest Bidding) 
 ● Coordination reward (各agentの報酬はtotal traffic revenue) が性能がよい 
 ● つまり、各agentが自身の最適化のみ目指すよりも、全体最適化を目標とした方が全体の評価 指標がよくなった
 25 (b) Manual Set Bids, 1partially Coord 
 2partially Coord, Fully Coordの比較 
 (a) Self-InterestとFully Coordの比較 


Slide 26

Slide 26 text

1. 論文紹介 2. 研究背景と課題 3. 提案手法 4. 実験と評価 5. まとめ 6. 所感 7. Appendix 26

Slide 27

Slide 27 text

結論と今後の展望 
 ● 競合をAgentとするMulti-Agent RLの問題としてBID最適化を定式化した 
 ● clustering methodであるA practical Distributed Coordinated Multi-Agent Bidding (DCMAB) を 提案し、産業規模の実データでSingle-Agentの最適化手法と比較し、有効性を示した 
 ● TaoBao ad platform (特にモバイル) でのオンラインA/Bテストを計画している 
 27

Slide 28

Slide 28 text

1. 論文紹介 2. 研究背景と課題 3. 提案手法 4. 実験と評価 5. 考察とまとめ 6. 所感 7. Appendix 28

Slide 29

Slide 29 text

所感
 ● Open RTBに参加する1DSPとしては全く参考にならない 
 ● オウンドメディアなどで独占的に配信している場合は一考の余地ありかも 
 ○ ただし、本論と比べてagent (広告主) が圧倒的に少ないのでDDPGで十分かも 
 29

Slide 30

Slide 30 text

1. 論文紹介 2. 研究背景と課題 3. 提案手法 4. 実験と評価 5. 考察とまとめ 6. 所感 7. Appendix 30