Upgrade to Pro — share decks privately, control downloads, hide ads and more …

広告クリエイティブ最適化と評価のためのBandit

 広告クリエイティブ最適化と評価のためのBandit

https://cfml.connpass.com/event/205217/

2021年3月13日に開催されたCF + Fin ML勉強会の登壇資料です.
自分の所属するプロダクト.Dynalystを例に挙げた広告クリエイティブ配信の最適化と評価のためのBanditと個人のリサーチプロジェクトについての発表です.

Yusuke Kaneko

March 13, 2021
Tweet

More Decks by Yusuke Kaneko

Other Decks in Research

Transcript

  1. 自己紹介 2 金子 雄祐(28) 職業: CyberAgent AI事業本部 Dynalyst データサイエンスチームリーダー 経歴:

    2016年: 東京大学経済学部卒 2018年: 東京大学大学院経済学研究科統計学コース卒(修士: 因果推論) 2018年: CyberAgent 新卒入社 やってるタスク: 予測モデル開発, クリエイティブ評価&最適化改善, チームマネジメント 論文: Kenshi Abe, Yusuke Kaneko: “Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games” AAMAS 2020 Gota Morishita, Kenshi Abe, Kazuhisa Ogawa, Yusuke Kaneko: “Online Learning for Bidding Agent in First Price Auction”, AAAI 2020 Workshop on Reinforcement Learning in Games, 2020 twitter: @coldstart_p 
 kaggle:
 @ykaneko1992
 (Kaggle Master)

  2. 考えたいこと 6 • クリエイティブ配信の最適化 ◦ よりクリックが稼げるクリエイティブに対して配信を寄せたい ◦ できれば属性(特徴量)も考慮したい ◦ 累積報酬最大化のためのcontextual

    bandit • クリエイティブ評価 ◦ どのクリエイティブが良いかを適切に評価したい ◦ 限られたサンプルサイズの中で効率的にいいクリエイティブを選ぶ ◦ 最適腕識別としてのBandit 「いいクリエイティブ」を配信するためのBanditを2つの側面で用いていく
  3. 広告配信のプロセス 14 <タグ> SSP DSP DSP DSP • SSPがDSPに入札リクエストを送る •

    入札リクエストの中身 ◦ 表示日時 ◦ 表示サイト ◦ 枠のサイズ ◦ デバイスのOS ◦ etc.
  4. RTBに関わるプレイヤー 17 広告主 A DSP A DSP B SSP A

    SSP B SSP C メディア A 広告主 B 広告主 C メディア B メディア C ユーザー 閲覧 発注 注文 RTB
  5. Contextual Bandit 22 • ユーザーや腕の特徴量によって各腕の報酬分布が変化すると仮定 ◦ 例: r t =

    <A t , θ> + ε t ▪ r t : 報酬, A t :context,θ:未知のパラメータ,ε t :ノイズ ◦ 取られたActionもcontextに相当 ◦ どのactionを取るかによってcontextが変化する ◦ よって,期待報酬もどのactionを取るかで変化する • メリット ◦ 状況ごとに適切な腕を選択 ▪ 例:配信面ごとに各クリエイティブのCTRが大きく異なる ◦ 新しい腕が入ってきたときにある程度事前に報酬を推定可能 ▪ 例:新しい画像のサイズは320*50 → 別の320*50の画像の配信結 果から推定
  6. 問題点 23 • 広告のような環境だと,特徴量は非常に高次元になることが知られている ◦ 特徴量例: 配信面,ユーザーID, 交差項 etc.. ◦

    愚直にone-hot encodingなどすると次元が例えば 2^24とかになる ◦ これらを全てcontextual banditに入れると学習が困難になる • このような問題をどのように解決するか?
  7. THLassoBandit 25 • 仮定: 特徴量のごく一部の要素だけが報酬に寄与している A t = (x 1

    , x 2 , x 3 , x 4 , … , x 10000 ) θ = (θ 1 , θ 2 , θ 3 ,θ 4 , … , θ 10000 ) r t = <A t , θ> + ε t 報酬に寄与 報酬に寄与しない ≠0 =0
  8. 手法 26 1. これまでの配信データから報酬に寄与する特徴量を推定 ◦ 具体的にはLassoとThresholdingを使用 2. 寄与すると推定された特徴量のみを使用して,報酬分布のパラメータθを推 定.腕を選択. ◦

    推定サポート上で最小二乗法を走らせてθを推定 θ = (θ 1 , θ 2 , θ 3 , θ 4 , … , θ 10000 ) 
 1. 0じゃない部分を推定
 2. 0じゃない部分の具体的な値を推定

  9. 手法のメリット 27 • メリット ◦ 元の特徴量の次元がregretのオーダーに与える影響が小さい ▪ 要は多く特徴量を突っ込んでもワークする可能性が高い ◦ 実装もそこそこ簡易

    ▪ Lassoと最小二乗法を定期的に回すだけで良い ◦ (おそらく)バッチ更新でもそこそこまっとうに動く ▪ ロジスティックモデルに差し替えも一応可能 ▪ LRの場合は適切な仮定の元では同様の理論的なオーダー保証可能
  10. 広告クリエイティブ評価の難点 32 • 広告ならサンプルサイズが十分というイメージがあるが... ◦ 広告主単位で実験するとなると意外とサンプルサイズが少ない ◦ 検定で見たい差を十分に判断できるサンプルサイズに満たない • ベイジアンABというフレームワークは提唱されている

    ◦ どちらの腕の確率がいいか,というようなoutputが出る ◦ bayesABというRのパッケージも存在 ◦ この問題点は以下のWWWのpaperで指摘 Deng, Alex. "Objective bayesian two sample hypothesis testing for online controlled experiments." Proceedings of the 24th International Conference on World Wide Web. 2015.
  11. Banditの2つの問題設定 33 • 「限られたサンプルサイズで一番良い腕を発見する確率を最大化する」こ とを考える • バンディット問題の文脈では,「最適腕識別」という問題設定となる ◦ Ch.2の話は「累積報酬最大化」という問題設定だった •

    バンディットにおける2つの問題設定をまとめると以下のようになる ◦ 累積報酬最大化 ▪ 期待値最大の腕もしくは期待値最大の腕に限りなく近い期待値の腕をできる限り多 く引いて累積報酬を最大化することが目的 ◦ 最適腕識別 ▪ 期待値最大の腕を高確率で識別することが目的
  12. 最適腕識別の問題設定 34 • 各期 tにおいて,K個の腕のなかから腕を1つを選ぶ • プレイヤーは各t期においてa ∈ [K] ≔

    {1, ... , K} を選ぶ ◦ 報酬r a, t ∼ ν a を観測. ◦ ただし, r a, t ∈ [0,1] かつE[r a, t ]= μ a とする • 厳密に最適腕 argmax a μ a を発見することは難しい ◦ そこで「期待値が (max a μ a ) - ε 以上の腕を1つ以上発見する」という問題に落とし込む ◦ これを,ε-最適腕識別と呼ぶ • 最適腕識別はABテストの一般化とみなせる ◦ 最適腕識別の誤差εはいわゆる効果量に相当
  13. 固定予算の最適腕識別問題 36 • 総選択数(腕を引ける回数,サンプルサイズ)が t回までと固定 • 目的: ◦ 合計 t回腕を引いた後に最適な腕

    a*の推定値 a*(t) を出力し,それが 誤りである確率(誤識別率)の最小化を目指す 誤識別率: P e = P( a*(t) ≠ a*) 

  14. 広告クリエイティブ評価と最適腕識別 37 • 広告主からは一定額の予算を貰ってDSPは配信している • clickがされると発生する単価が決まっていて,予算が消化されていく設定 • 基本的には,予算とクリック単価,CTRが分かればサンプルサイズ t は

    ざっくり見積もれる ◦ あとは最適腕識別をやればいい ◦ KPIの改善率はRCTほど厳密にわからないが「どの要素を入れたクリ エイティブがいいか」は一番高い確率でわかる
  15. 参考文献 41 Deng, Alex. "Objective bayesian two sample hypothesis testing

    for online controlled experiments." Proceedings of the 24th International Conference on World Wide Web. 2015. Ariu, Kaito, Kenshi Abe, and Alexandre Proutière. "Thresholded LASSO Bandit." arXiv preprint arXiv:2010.11994 (2020). 計量経済学ゼミ-最適腕識別1(AI Lab 加藤 スライド)