Slide 1

Slide 1 text

広告クリエイティブ 最適化と評価のため のBandit CF + Fin ML勉強会 2021.3.13 金子 雄祐 1

Slide 2

Slide 2 text

自己紹介 2 金子 雄祐(28) 職業: CyberAgent AI事業本部 Dynalyst データサイエンスチームリーダー 経歴: 2016年: 東京大学経済学部卒 2018年: 東京大学大学院経済学研究科統計学コース卒(修士: 因果推論) 2018年: CyberAgent 新卒入社 やってるタスク: 予測モデル開発, クリエイティブ評価&最適化改善, チームマネジメント 論文: Kenshi Abe, Yusuke Kaneko: “Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games” AAMAS 2020 Gota Morishita, Kenshi Abe, Kazuhisa Ogawa, Yusuke Kaneko: “Online Learning for Bidding Agent in First Price Auction”, AAAI 2020 Workshop on Reinforcement Learning in Games, 2020 twitter: @coldstart_p 
 kaggle:
 @ykaneko1992
 (Kaggle Master)


Slide 3

Slide 3 text

0. 前談 3

Slide 4

Slide 4 text

考えるお題 4 (例えばEC系の広告で)どちらの広告クリエイティブを見せるべきか Creative A(人物あり) Creative B(文字メイン)

Slide 5

Slide 5 text

考えるお題 5 (例えばEC系の広告で)どちらの広告クリエイティブを見せるべきか → よりクリックされやすそうな広告を見せるべき(KPIがCTRなら) Creative A(人物あり) Creative B(文字メイン)

Slide 6

Slide 6 text

考えたいこと 6 ● クリエイティブ配信の最適化 ○ よりクリックが稼げるクリエイティブに対して配信を寄せたい ○ できれば属性(特徴量)も考慮したい ○ 累積報酬最大化のためのcontextual bandit ● クリエイティブ評価 ○ どのクリエイティブが良いかを適切に評価したい ○ 限られたサンプルサイズの中で効率的にいいクリエイティブを選ぶ ○ 最適腕識別としてのBandit 「いいクリエイティブ」を配信するためのBanditを2つの側面で用いていく

Slide 7

Slide 7 text

目次 7 1. 広告プラットフォームの話 2. 広告クリエイティブ配信最適化 3. 広告クリエイティブ配信評価の話 4. まとめ

Slide 8

Slide 8 text

1. 広告プラットフォームとDSP 8

Slide 9

Slide 9 text

プロダクトの話 9 ● Dynalyst ○ ゲーム特化のスマホ向けダイナミックリターゲティング広告配信DSP ○ RTBによる広告在庫買い付け ○ 月間数千億リクエストを捌く ○ ユーザーごとに最適化した広告配信 リターゲティング広告? RTB? DSP?

Slide 10

Slide 10 text

リターゲティング 10 ● ゲームの休眠ユーザーに離反後に広告を別appで表示することで復帰を促す ● 非ゲームにおける代表的なリタゲ広告プロダクト: Criteo

Slide 11

Slide 11 text

広告配信のプロセス 11 ● Yahoo!Japan のトップページ ● 赤枠の部分が広告

Slide 12

Slide 12 text

広告配信のプロセス 12 ● 最初から広告内容が決まってるわけではない ○ 広告枠だけが存在 ● 広告枠にはJS等で書かれたタグが埋め込まれてる <タグ>

Slide 13

Slide 13 text

広告配信のプロセス 13 ● サイトへアクセスがあると、リクエストが送信 ● SSPへのアクセスが行われる. <タグ> SSP

Slide 14

Slide 14 text

広告配信のプロセス 14 <タグ> SSP DSP DSP DSP ● SSPがDSPに入札リクエストを送る ● 入札リクエストの中身 ○ 表示日時 ○ 表示サイト ○ 枠のサイズ ○ デバイスのOS ○ etc.

Slide 15

Slide 15 text

広告配信のプロセス 15 入札額: 100円 それぞれのDSPが入札額を決定 もちろん入札しなくてもよい 入札額: 80円 <タグ> SSP DSP DSP DSP

Slide 16

Slide 16 text

広告配信のプロセス 16 <タグ> SSP DSP DSP DSP 勝者が落札。Win通知に対して出したい 広告を返し、広告が表示される 広告表示

Slide 17

Slide 17 text

RTBに関わるプレイヤー 17 広告主 A DSP A DSP B SSP A SSP B SSP C メディア A 広告主 B 広告主 C メディア B メディア C ユーザー 閲覧 発注 注文 RTB

Slide 18

Slide 18 text

DSPの役割 18 ● 広告主(や広告代理店)から注文を受け,広告配信予算を預かる ● SSPを通じて広告配信を行う ● RTBオークションに適切に入札することで広告主のKPI最大化を図る ● 広告がクリックされた際に得る課金額(CPC)がDSPの売上となる ● ユーザーの興味を惹く広告クリエイティブの配信が以下につながる ○ 広告主のKPI向上 ○ DSPの売上向上

Slide 19

Slide 19 text

2. 広告クリエイティブ配信最 適化 19

Slide 20

Slide 20 text

考えるお題 その1 20 よりクリックが稼げるクリエイティブに対してどう広告配信を寄せるか? → 予算内で配信した後に,総clickが最大化されているようにしたい Creative A(人物あり) Creative B(文字メイン)

Slide 21

Slide 21 text

バンディットアルゴリズム 21 ● 複数の候補から最もいいものを逐次的に探す ● 「探索」と「活用」のトレードオフ ● 広告などの設定では非常によく用いられる ● 今回は広告主のクリエイティブの候補(腕)から,最もCTRが高いものを選ぶという設定 ○ 累積期待報酬(クリック)最大化を目標とする

Slide 23

Slide 23 text

問題点 23 ● 広告のような環境だと,特徴量は非常に高次元になることが知られている ○ 特徴量例: 配信面,ユーザーID, 交差項 etc.. ○ 愚直にone-hot encodingなどすると次元が例えば 2^24とかになる ○ これらを全てcontextual banditに入れると学習が困難になる ● このような問題をどのように解決するか?

Slide 24

Slide 24 text

提案手法 24 ● 弊社インターン 蟻生さんと弊社 AI Lab研究員 阿部の共著 ● Thresholded Lasso Bandit(TH Lasso Bandit)という提案手法について

Slide 25

Slide 25 text

THLassoBandit 25 ● 仮定: 特徴量のごく一部の要素だけが報酬に寄与している A t = (x 1 , x 2 , x 3 , x 4 , … , x 10000 ) θ = (θ 1 , θ 2 , θ 3 ,θ 4 , … , θ 10000 ) r t = + ε t 報酬に寄与 報酬に寄与しない ≠0 =0

Slide 26

Slide 26 text

手法 26 1. これまでの配信データから報酬に寄与する特徴量を推定 ○ 具体的にはLassoとThresholdingを使用 2. 寄与すると推定された特徴量のみを使用して,報酬分布のパラメータθを推 定.腕を選択. ○ 推定サポート上で最小二乗法を走らせてθを推定 θ = (θ 1 , θ 2 , θ 3 , θ 4 , … , θ 10000 ) 
 1. 0じゃない部分を推定
 2. 0じゃない部分の具体的な値を推定


Slide 27

Slide 27 text

手法のメリット 27 ● メリット ○ 元の特徴量の次元がregretのオーダーに与える影響が小さい ■ 要は多く特徴量を突っ込んでもワークする可能性が高い ○ 実装もそこそこ簡易 ■ Lassoと最小二乗法を定期的に回すだけで良い ○ (おそらく)バッチ更新でもそこそこまっとうに動く ■ ロジスティックモデルに差し替えも一応可能 ■ LRの場合は適切な仮定の元では同様の理論的なオーダー保証可能

Slide 28

Slide 28 text

今何をやっているか? 28 ● 元論文ではオンラインABテストはやっていない ○ また,実データを用いたオフライン実験も行っていない ● 現在は,蟻生さん+阿部+金子でオンラインABの実験実装中 ○ 実データを用いたオフライン実験も同時に ○ 実験完了 & 追加の理論ができ次第 arxivに公開予定 ○ ローカル検証ではそこそこワークしそう

Slide 29

Slide 29 text

3. 広告クリエイティブ評価 29

Slide 30

Slide 30 text

考えるお題 その2 30 どのクリエイティブが良いかを適切に評価したい → 文字で訴求したほうがいいのか,人物ありで訴求したほうがいいのか → クリエイティブ制作のための知見にしたい Creative A(人物あり) Creative B(文字メイン)

Slide 31

Slide 31 text

クリエイティブ評価の理想 31 ● TiktokやGoogleの動画クリエイティブレポート ● 何の要素が何のKPIに効くかを明確にレポートできている ○ 別の広告クリエイティブにも横転可能 ● A/Bテストなどの実験を通じてこの検証をしていきたい

Slide 32

Slide 32 text

広告クリエイティブ評価の難点 32 ● 広告ならサンプルサイズが十分というイメージがあるが... ○ 広告主単位で実験するとなると意外とサンプルサイズが少ない ○ 検定で見たい差を十分に判断できるサンプルサイズに満たない ● ベイジアンABというフレームワークは提唱されている ○ どちらの腕の確率がいいか,というようなoutputが出る ○ bayesABというRのパッケージも存在 ○ この問題点は以下のWWWのpaperで指摘 Deng, Alex. "Objective bayesian two sample hypothesis testing for online controlled experiments." Proceedings of the 24th International Conference on World Wide Web. 2015.

Slide 33

Slide 33 text

Banditの2つの問題設定 33 ● 「限られたサンプルサイズで一番良い腕を発見する確率を最大化する」こ とを考える ● バンディット問題の文脈では,「最適腕識別」という問題設定となる ○ Ch.2の話は「累積報酬最大化」という問題設定だった ● バンディットにおける2つの問題設定をまとめると以下のようになる ○ 累積報酬最大化 ■ 期待値最大の腕もしくは期待値最大の腕に限りなく近い期待値の腕をできる限り多 く引いて累積報酬を最大化することが目的 ○ 最適腕識別 ■ 期待値最大の腕を高確率で識別することが目的

Slide 34

Slide 34 text

最適腕識別の問題設定 34 ● 各期 tにおいて,K個の腕のなかから腕を1つを選ぶ ● プレイヤーは各t期においてa ∈ [K] ≔ {1, ... , K} を選ぶ ○ 報酬r a, t ∼ ν a を観測. ○ ただし, r a, t ∈ [0,1] かつE[r a, t ]= μ a とする ● 厳密に最適腕 argmax a μ a を発見することは難しい ○ そこで「期待値が (max a μ a ) - ε 以上の腕を1つ以上発見する」という問題に落とし込む ○ これを,ε-最適腕識別と呼ぶ ● 最適腕識別はABテストの一般化とみなせる ○ 最適腕識別の誤差εはいわゆる効果量に相当

Slide 35

Slide 35 text

ABテストの一般化としての最適腕識別 35 ● ABテストとして考えると,最適腕識別は以下の2つの問題を考えられる ○ 達成したい検定の精度を固定して,サンプルサイズを決定する ○ 使えるサンプルサイズを固定して,そのもとで達成できる検定の精度を調べる ● 最適腕識別の分野では,それぞれ前者は固定信頼度,後者は固定予算の設 定と呼ばれる ● 固定予算での最適腕識別は固定信頼度の場合と比較してかなり難しい ○ 現状は実用的なアルゴリズムはまだ考えられていない ● 今回は固定予算の話を扱う

Slide 36

Slide 36 text

固定予算の最適腕識別問題 36 ● 総選択数(腕を引ける回数,サンプルサイズ)が t回までと固定 ● 目的: ○ 合計 t回腕を引いた後に最適な腕 a*の推定値 a*(t) を出力し,それが 誤りである確率(誤識別率)の最小化を目指す 誤識別率: P e = P( a*(t) ≠ a*) 


Slide 37

Slide 37 text

広告クリエイティブ評価と最適腕識別 37 ● 広告主からは一定額の予算を貰ってDSPは配信している ● clickがされると発生する単価が決まっていて,予算が消化されていく設定 ● 基本的には,予算とクリック単価,CTRが分かればサンプルサイズ t は ざっくり見積もれる ○ あとは最適腕識別をやればいい ○ KPIの改善率はRCTほど厳密にわからないが「どの要素を入れたクリ エイティブがいいか」は一番高い確率でわかる

Slide 38

Slide 38 text

今何をやっているか? 38 ● 固定予算の設定での広告配信の問題について共同研究中 ○ 早稲田大学ポスドク石原さんとAI Lab加藤+ 金子 ● オフラインの検証だとそこそこ上手く行っている ● 3 ~ 4月にはarxivなどにあげられれば

Slide 39

Slide 39 text

4. まとめ 39

Slide 40

Slide 40 text

まとめ 40 ● 広告クリエイティブ配信による報酬最大化と評価について ● Banditの2つの側面を紹介 ○ 累積期待報酬最大化: THLassoBandit ○ 最適腕識別 ● 現在進行中のリサーチに関して(軽く)紹介

Slide 41

Slide 41 text

参考文献 41 Deng, Alex. "Objective bayesian two sample hypothesis testing for online controlled experiments." Proceedings of the 24th International Conference on World Wide Web. 2015. Ariu, Kaito, Kenshi Abe, and Alexandre Proutière. "Thresholded LASSO Bandit." arXiv preprint arXiv:2010.11994 (2020). 計量経済学ゼミ-最適腕識別1(AI Lab 加藤 スライド)