広告クリエイティブ最適化と評価のためのBandit

広告クリエイティブ最適化と評価のためのBandit CF + Fin ML勉強会 2021.3.13 金子雄祐
1

自己紹介 2 金子雄祐(28) 職業: CyberAgent AI事業本部 Dynalyst データサイエンスチームリーダー経歴:
2016年: 東京大学経済学部卒 2018年: 東京大学大学院経済学研究科統計学コース卒(修士: 因果推論) 2018年: CyberAgent 新卒入社やってるタスク: 予測モデル開発, クリエイティブ評価&最適化改善, チームマネジメント論文: Kenshi Abe, Yusuke Kaneko: “Oﬀ-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games” AAMAS 2020 Gota Morishita, Kenshi Abe, Kazuhisa Ogawa, Yusuke Kaneko: “Online Learning for Bidding Agent in First Price Auction”, AAAI 2020 Workshop on Reinforcement Learning in Games, 2020 twitter: @coldstart_p   kaggle:  @ykaneko1992  (Kaggle Master) 

0. 前談 3

考えるお題 4 （例えばEC系の広告で)どちらの広告クリエイティブを見せるべきか Creative A(人物あり) Creative B(文字メイン)

考えるお題 5 （例えばEC系の広告で)どちらの広告クリエイティブを見せるべきか → よりクリックされやすそうな広告を見せるべき(KPIがCTRなら) Creative A(人物あり) Creative B(文字メイン)

考えたいこと 6 • クリエイティブ配信の最適化 ◦ よりクリックが稼げるクリエイティブに対して配信を寄せたい ◦ できれば属性(特徴量)も考慮したい ◦ 累積報酬最大化のためのcontextual
bandit • クリエイティブ評価 ◦ どのクリエイティブが良いかを適切に評価したい ◦ 限られたサンプルサイズの中で効率的にいいクリエイティブを選ぶ ◦ 最適腕識別としてのBandit 「いいクリエイティブ」を配信するためのBanditを2つの側面で用いていく

目次 7 1. 広告プラットフォームの話 2. 広告クリエイティブ配信最適化 3. 広告クリエイティブ配信評価の話 4. まとめ

1. 広告プラットフォームとDSP 8

プロダクトの話 9 • Dynalyst ◦ ゲーム特化のスマホ向けダイナミックリターゲティング広告配信DSP ◦ RTBによる広告在庫買い付け ◦ 月間数千億リクエストを捌く
◦ ユーザーごとに最適化した広告配信リターゲティング広告? RTB? DSP?

リターゲティング 10 • ゲームの休眠ユーザーに離反後に広告を別appで表示することで復帰を促す • 非ゲームにおける代表的なリタゲ広告プロダクト: Criteo

広告配信のプロセス 11 • Yahoo!Japan のトップページ • 赤枠の部分が広告

広告配信のプロセス 12 • 最初から広告内容が決まってるわけではない ◦ 広告枠だけが存在 • 広告枠にはJS等で書かれたタグが埋め込まれてる <タグ>

広告配信のプロセス 13 • サイトへアクセスがあると、リクエストが送信 • SSPへのアクセスが行われる． <タグ> SSP

広告配信のプロセス 14 <タグ> SSP DSP DSP DSP • SSPがDSPに入札リクエストを送る •
入札リクエストの中身 ◦ 表示日時 ◦ 表示サイト ◦ 枠のサイズ ◦ デバイスのOS ◦ etc.

広告配信のプロセス 15 入札額: 100円それぞれのDSPが入札額を決定もちろん入札しなくてもよい入札額: 80円 <タグ> SSP
DSP DSP DSP

広告配信のプロセス 16 <タグ> SSP DSP DSP DSP 勝者が落札。Win通知に対して出したい広告を返し、広告が表示される広告表示

RTBに関わるプレイヤー 17 広告主 A DSP A DSP B SSP A
SSP B SSP C メディア A 広告主 B 広告主 C メディア B メディア C ユーザー閲覧発注注文 RTB

DSPの役割 18 • 広告主(や広告代理店)から注文を受け，広告配信予算を預かる • SSPを通じて広告配信を行う • RTBオークションに適切に入札することで広告主のKPI最大化を図る • 広告がクリックされた際に得る課金額(CPC)がDSPの売上となる
• ユーザーの興味を惹く広告クリエイティブの配信が以下につながる ◦ 広告主のKPI向上 ◦ DSPの売上向上

2. 広告クリエイティブ配信最適化 19

考えるお題その1 20 よりクリックが稼げるクリエイティブに対してどう広告配信を寄せるか? → 予算内で配信した後に，総clickが最大化されているようにしたい Creative A(人物あり) Creative B(文字メイン)

バンディットアルゴリズム 21 • 複数の候補から最もいいものを逐次的に探す • 「探索」と「活用」のトレードオフ • 広告などの設定では非常によく用いられる • 今回は広告主のクリエイティブの候補(腕)から，最もCTRが高いものを選ぶという設定
◦ 累積期待報酬(クリック)最大化を目標とする

Contextual Bandit 22 • ユーザーや腕の特徴量によって各腕の報酬分布が変化すると仮定 ◦ 例: r t =
<A t , θ> + ε ｔ ▪ r t : 報酬, A t :context，θ:未知のパラメータ，ε ｔ :ノイズ ◦ 取られたActionもcontextに相当 ◦ どのactionを取るかによってcontextが変化する ◦ よって，期待報酬もどのactionを取るかで変化する • メリット ◦ 状況ごとに適切な腕を選択 ▪ 例:配信面ごとに各クリエイティブのCTRが大きく異なる ◦ 新しい腕が入ってきたときにある程度事前に報酬を推定可能 ▪ 例:新しい画像のサイズは320*50 → 別の320*50の画像の配信結果から推定

問題点 23 • 広告のような環境だと，特徴量は非常に高次元になることが知られている ◦ 特徴量例: 配信面，ユーザーID, 交差項 etc.. ◦
愚直にone-hot encodingなどすると次元が例えば 2^24とかになる ◦ これらを全てcontextual banditに入れると学習が困難になる • このような問題をどのように解決するか?

提案手法 24 • 弊社インターン蟻生さんと弊社 AI Lab研究員阿部の共著 • Thresholded
Lasso Bandit(TH Lasso Bandit)という提案手法について

THLassoBandit 25 • 仮定: 特徴量のごく一部の要素だけが報酬に寄与している A t = (x 1
, x 2 , x 3 , x 4 , … , x 10000 ) θ = (θ 1 , θ 2 , θ 3 ,θ 4 , … , θ 10000 ) r t = <A t , θ> + ε ｔ報酬に寄与報酬に寄与しない ≠0 =0

手法 26 1. これまでの配信データから報酬に寄与する特徴量を推定 ◦ 具体的にはLassoとThresholdingを使用 2. 寄与すると推定された特徴量のみを使用して，報酬分布のパラメータθを推定．腕を選択． ◦
推定サポート上で最小二乗法を走らせてθを推定 θ = (θ 1 , θ 2 , θ 3 , θ 4 , … , θ 10000 )   1. 0じゃない部分を推定  2. 0じゃない部分の具体的な値を推定 

手法のメリット 27 • メリット ◦ 元の特徴量の次元がregretのオーダーに与える影響が小さい ▪ 要は多く特徴量を突っ込んでもワークする可能性が高い ◦ 実装もそこそこ簡易
▪ Lassoと最小二乗法を定期的に回すだけで良い ◦ (おそらく)バッチ更新でもそこそこまっとうに動く ▪ ロジスティックモデルに差し替えも一応可能 ▪ LRの場合は適切な仮定の元では同様の理論的なオーダー保証可能

今何をやっているか? 28 • 元論文ではオンラインABテストはやっていない ◦ また，実データを用いたオフライン実験も行っていない • 現在は，蟻生さん+阿部+金子でオンラインABの実験実装中 ◦ 実データを用いたオフライン実験も同時に
◦ 実験完了 & 追加の理論ができ次第 arxivに公開予定 ◦ ローカル検証ではそこそこワークしそう

3. 広告クリエイティブ評価 29

考えるお題その2 30 どのクリエイティブが良いかを適切に評価したい → 文字で訴求したほうがいいのか，人物ありで訴求したほうがいいのか → クリエイティブ制作のための知見にしたい Creative A(人物あり)
Creative B(文字メイン)

クリエイティブ評価の理想 31 • TiktokやGoogleの動画クリエイティブレポート • 何の要素が何のKPIに効くかを明確にレポートできている ◦ 別の広告クリエイティブにも横転可能 • A/Bテストなどの実験を通じてこの検証をしていきたい

広告クリエイティブ評価の難点 32 • 広告ならサンプルサイズが十分というイメージがあるが... ◦ 広告主単位で実験するとなると意外とサンプルサイズが少ない ◦ 検定で見たい差を十分に判断できるサンプルサイズに満たない • ベイジアンABというフレームワークは提唱されている
◦ どちらの腕の確率がいいか，というようなoutputが出る ◦ bayesABというRのパッケージも存在 ◦ この問題点は以下のWWWのpaperで指摘 Deng, Alex. "Objective bayesian two sample hypothesis testing for online controlled experiments." Proceedings of the 24th International Conference on World Wide Web. 2015.

Banditの2つの問題設定 33 • 「限られたサンプルサイズで一番良い腕を発見する確率を最大化する」ことを考える • バンディット問題の文脈では，「最適腕識別」という問題設定となる ◦ Ch.2の話は「累積報酬最大化」という問題設定だった •
バンディットにおける2つの問題設定をまとめると以下のようになる ◦ 累積報酬最大化 ▪ 期待値最大の腕もしくは期待値最大の腕に限りなく近い期待値の腕をできる限り多く引いて累積報酬を最大化することが目的 ◦ 最適腕識別 ▪ 期待値最大の腕を高確率で識別することが目的

最適腕識別の問題設定 34 • 各期 tにおいて，K個の腕のなかから腕を1つを選ぶ • プレイヤーは各t期においてa ∈ [K] ≔
{1, ... , K} を選ぶ ◦ 報酬r a, t ∼ ν a を観測. ◦ ただし， r a, t ∈ [0,1] かつE[r a, t ]= μ a とする • 厳密に最適腕 argmax a μ a を発見することは難しい ◦ そこで「期待値が (max a μ a ) - ε 以上の腕を1つ以上発見する」という問題に落とし込む ◦ これを，ε-最適腕識別と呼ぶ • 最適腕識別はABテストの一般化とみなせる ◦ 最適腕識別の誤差εはいわゆる効果量に相当

ABテストの一般化としての最適腕識別 35 • ABテストとして考えると，最適腕識別は以下の2つの問題を考えられる ◦ 達成したい検定の精度を固定して，サンプルサイズを決定する ◦ 使えるサンプルサイズを固定して，そのもとで達成できる検定の精度を調べる • 最適腕識別の分野では，それぞれ前者は固定信頼度，後者は固定予算の設
定と呼ばれる • 固定予算での最適腕識別は固定信頼度の場合と比較してかなり難しい ◦ 現状は実用的なアルゴリズムはまだ考えられていない • 今回は固定予算の話を扱う

固定予算の最適腕識別問題 36 • 総選択数(腕を引ける回数，サンプルサイズ)が t回までと固定 • 目的: ◦ 合計 t回腕を引いた後に最適な腕
a*の推定値 a*(t) を出力し，それが誤りである確率（誤識別率)の最小化を目指す誤識別率: P e = P( a*(t) ≠ a*)  

広告クリエイティブ評価と最適腕識別 37 • 広告主からは一定額の予算を貰ってDSPは配信している • clickがされると発生する単価が決まっていて，予算が消化されていく設定 • 基本的には，予算とクリック単価，CTRが分かればサンプルサイズ t は
ざっくり見積もれる ◦ あとは最適腕識別をやればいい ◦ KPIの改善率はRCTほど厳密にわからないが「どの要素を入れたクリエイティブがいいか」は一番高い確率でわかる

今何をやっているか? 38 • 固定予算の設定での広告配信の問題について共同研究中 ◦ 早稲田大学ポスドク石原さんとAI Lab加藤+ 金子 • オフラインの検証だとそこそこ上手く行っている
• 3 ~ 4月にはarxivなどにあげられれば

4. まとめ 39

まとめ 40 • 広告クリエイティブ配信による報酬最大化と評価について • Banditの2つの側面を紹介 ◦ 累積期待報酬最大化: THLassoBandit ◦
最適腕識別 • 現在進行中のリサーチに関して(軽く)紹介

参考文献 41 Deng, Alex. "Objective bayesian two sample hypothesis testing
for online controlled experiments." Proceedings of the 24th International Conference on World Wide Web. 2015. Ariu, Kaito, Kenshi Abe, and Alexandre Proutière. "Thresholded LASSO Bandit." arXiv preprint arXiv:2010.11994 (2020). 計量経済学ゼミ-最適腕識別１(AI Lab 加藤スライド)

広告クリエイティブ最適化と評価のためのBandit

広告クリエイティブ最適化と評価のためのBandit

Yusuke Kaneko

More Decks by Yusuke Kaneko

Other Decks in Research

Featured

Transcript

広告クリエイティブ最適化と評価のためのBandit CF + Fin ML勉強会 2021.3.13 金子雄祐

自己紹介 2 金子雄祐(28) 職業: CyberAgent AI事業本部 Dynalyst データサイエンスチームリーダー経歴:

0. 前談 3

考えるお題 4 （例えばEC系の広告で)どちらの広告クリエイティブを見せるべきか Creative A(人物あり) Creative B(文字メイン)

考えるお題 5 （例えばEC系の広告で)どちらの広告クリエイティブを見せるべきか → よりクリックされやすそうな広告を見せるべき(KPIがCTRなら) Creative A(人物あり) Creative B(文字メイン)

考えたいこと 6 • クリエイティブ配信の最適化 ◦ よりクリックが稼げるクリエイティブに対して配信を寄せたい ◦ できれば属性(特徴量)も考慮したい ◦ 累積報酬最大化のためのcontextual

目次 7 1. 広告プラットフォームの話 2. 広告クリエイティブ配信最適化 3. 広告クリエイティブ配信評価の話 4. まとめ

1. 広告プラットフォームとDSP 8

プロダクトの話 9 • Dynalyst ◦ ゲーム特化のスマホ向けダイナミックリターゲティング広告配信DSP ◦ RTBによる広告在庫買い付け ◦ 月間数千億リクエストを捌く

リターゲティング 10 • ゲームの休眠ユーザーに離反後に広告を別appで表示することで復帰を促す • 非ゲームにおける代表的なリタゲ広告プロダクト: Criteo

広告配信のプロセス 11 • Yahoo!Japan のトップページ • 赤枠の部分が広告

広告配信のプロセス 12 • 最初から広告内容が決まってるわけではない ◦ 広告枠だけが存在 • 広告枠にはJS等で書かれたタグが埋め込まれてる <タグ>

広告配信のプロセス 13 • サイトへアクセスがあると、リクエストが送信 • SSPへのアクセスが行われる． <タグ> SSP

広告配信のプロセス 14 <タグ> SSP DSP DSP DSP • SSPがDSPに入札リクエストを送る •

広告配信のプロセス 15 入札額: 100円それぞれのDSPが入札額を決定もちろん入札しなくてもよい入札額: 80円 <タグ> SSP

広告配信のプロセス 16 <タグ> SSP DSP DSP DSP 勝者が落札。Win通知に対して出したい広告を返し、広告が表示される広告表示

RTBに関わるプレイヤー 17 広告主 A DSP A DSP B SSP A

2. 広告クリエイティブ配信最適化 19

考えるお題その1 20 よりクリックが稼げるクリエイティブに対してどう広告配信を寄せるか? → 予算内で配信した後に，総clickが最大化されているようにしたい Creative A(人物あり) Creative B(文字メイン)

Contextual Bandit 22 • ユーザーや腕の特徴量によって各腕の報酬分布が変化すると仮定 ◦ 例: r t =

問題点 23 • 広告のような環境だと，特徴量は非常に高次元になることが知られている ◦ 特徴量例: 配信面，ユーザーID, 交差項 etc.. ◦

提案手法 24 • 弊社インターン蟻生さんと弊社 AI Lab研究員阿部の共著 • Thresholded

THLassoBandit 25 • 仮定: 特徴量のごく一部の要素だけが報酬に寄与している A t = (x 1

手法 26 1. これまでの配信データから報酬に寄与する特徴量を推定 ◦ 具体的にはLassoとThresholdingを使用 2. 寄与すると推定された特徴量のみを使用して，報酬分布のパラメータθを推定．腕を選択． ◦

手法のメリット 27 • メリット ◦ 元の特徴量の次元がregretのオーダーに与える影響が小さい ▪ 要は多く特徴量を突っ込んでもワークする可能性が高い ◦ 実装もそこそこ簡易

3. 広告クリエイティブ評価 29

考えるお題その2 30 どのクリエイティブが良いかを適切に評価したい → 文字で訴求したほうがいいのか，人物ありで訴求したほうがいいのか → クリエイティブ制作のための知見にしたい Creative A(人物あり)

最適腕識別の問題設定 34 • 各期 tにおいて，K個の腕のなかから腕を1つを選ぶ • プレイヤーは各t期においてa ∈ [K] ≔

固定予算の最適腕識別問題 36 • 総選択数(腕を引ける回数，サンプルサイズ)が t回までと固定 • 目的: ◦ 合計 t回腕を引いた後に最適な腕

今何をやっているか? 38 • 固定予算の設定での広告配信の問題について共同研究中 ◦ 早稲田大学ポスドク石原さんとAI Lab加藤+ 金子 • オフラインの検証だとそこそこ上手く行っている

4. まとめ 39

まとめ 40 • 広告クリエイティブ配信による報酬最大化と評価について • Banditの2つの側面を紹介 ◦ 累積期待報酬最大化: THLassoBandit ◦

参考文献 41 Deng, Alex. "Objective bayesian two sample hypothesis testing