WWW2020

WWWでの論文採択と A/Bテストを評価地点とする広告AI開発 JSAI 2020 藤田光明

自己紹介藤田光明 Data Scientist • 職歴 ◦ 2018.4 -
▪ サイバーエージェント AI事業本部 Dynalyst ▪ 広告配信アルゴリズムの開発 / 実装 ▪ A/Bテストシステムの改善 • 興味 ◦ A/Bテストを通したプロダクトグロース ◦ ビジネス x 経済学 / Counterfactual Machine Learning 2

WWWとは？ • ウェブ・データマイニング系のトップカンファレンス • 正式名称: The Web Conference • WWW
(International World Wide Web Conference)は旧称 • 今年は4月に台北で開催される予定だった ◦ が，コロナでオンラインに

おことわり • 本来のタイトルは「WWW2020の参加報告と研究紹介」 • 参加してません ◦ コロナのため ◦ この発表が決まったときは参加する予定でしたが．．． •
以下のことを話します ◦ CAの論文と研究プロジェクトを通して考えた広告AI開発について ◦ （時間があれば）読んだ広告系の論文1本

目次 • A Feedback Shift Correction in Predicting Conversion Rates
under Delayed Feedback • A/Bテストを評価地点とする広告AI開発 • Why Do Competitive Markets Converge to First-Price Auctions?

A Feedback Shift Correction in Predicting Conversion Rates under Delayed
Feedback Yasui Shota, Gota Morishita, Komei Fujita, and Masashi Shibata.

サイバーエージェント AI Lab x Dynalystの論文 • AI Lab ◦ デジタル広告配信技術の研究を行う組織
◦ Ad Econチーム • Dynalyst ◦ ダイナミックリターゲティング広告のDSP

広告配信システムにおけるコンバージョン(CV)予測 8 学習予測予測予測　time 5/1 5/8 5/11
5/10 5/9 予測 5/14 performance 学習学習学習できるだけ新しいデータを使って学習するのが基本 • 教師あり学習では，学習データの分布にフィットするようにモデルを作る • 予測したい分布に近いデータを使って学習したい ◦ 新しいメディアの登場，トレンド，ユーザの興味の変遷などによって時間経過とともに分布が変わるため

遅れコンバージョン問題 9

問題点の例 CV = 100 nonCV = 400 ある特徴X’を持つデータ CV =
50 nonCV = 400 nonCV = 50 正常に観測できる遅れによってCV = 0に変換される CVR = 20% CVR = 10% モデルはこの事象を正として学習してしまう CV = 100 nonCV = 400 予測したいデータ CVR = 20% 出力した予測値と正解のCVRで解離が発生してしまう →精度が悪化する

解決のアイディア CV = 100 nonCV = 400 ある特徴X’を持つデータ CV =
50 -> 112 nonCV = 400 nonCV = 50 CVR = 20% CVR = 20% CV = 100 nonCV = 400 予測したいデータ CVR = 20% 出力した予測値と正解のCVRの乖離が小さくなる →精度が改善する

傾向スコアを用いたバイアスの補正 • 傾向スコア: Propensity Score, PS • ある特徴Xについて，CVが起こる場合にどれくらいの確率で現在までにCVが観測されるか(= PS)を推定する
12

どう傾向スコアを推定するか？ • 定義 ◦ Y: 学習データ期間内にコンバージョンが観測されるか ◦ C: コンバージョンが起きるか(本当に興味があるもの) ◦
S: コンバージョンが学習期間内に正しく観測されるか，Propensity Score ◦ X: 特徴量学習データ内でラベルが1になる確率 = 真のラベルが1である確率 x 学習データ内でラベルが正しく観測される確率そもそも予測したいものが必要ラベルが正しく観測される確率Sを推定する

ラベルが正しく観測される確率Sをどう推定するか？ • Sも遅れCVにより観測不可能 • そこで過去のデータを使ってSを推定し，傾向スコアを得る ◦ 遅れの分布が変わらないことを仮定 CVR予測 Sの推定 CV確定
CV未確定 CVが確定したデータでSを学習 Sを予測する -> 傾向スコアを得る 6/4 6/9(現在) 6/6 設定 • CV確定期間: 3day ◦ clickから3日までのCVを有効なCVとする • CVR予測の学習期間: 5day 学習データ

損失関数を定義する • 推定したPSの逆数で重みづけたunbiasedな損失関数を定義する • その最小化によって本当に予測したい分布に対しての予測が可能に PSの逆数で重み付け

オフラインでの精度遅れCVを考慮しないモデルや，criteoのDFMモデルと比べて精度が上がっている

プロダクトへの導入結果 • Dynalystへの導入し，A/Bテストによる効果の検証を行なった • 遅れCVを考慮しないベースラインモデルとの比較 • 売上, CVが増加した一方で，購買獲得効率(CPA)はほぼ変化なし 17

A/Bテストを評価地点とする広告AI開発

A/BテストしないとAIのビジネスインパクトは不明瞭 • 横軸: ◦ 既存モデルと新モデルのオフライン性能比（auroc, loglossなど） • 縦軸: ◦
既存モデルと新モデルのA/BテストでのビジネスKPIの比 (CVRなど) 150 successful Machine Learning models: 6 lessons learned at Booking.com, KDD2019 “OFFLINE MODEL PERFORMANCE IS JUST A HEALTH CHECK”

学術研究でもA/Bテストは評価される “... This paper strikes a good balance between analytic
and empirical results. The problem itself is grounded in a real-world issue without being overly speciﬁc to a single narrow area, and is beneﬁcial in practice.” 遅れCV論文のレビュワーコメントより抜粋

実際A/Bテストまでやっている論文ってどれくらい？ • WWW2020で調査 • タイトル or 本文にadvertisingを含むもの: 100 • うち，オンラインでA/Bテストを行なったもの:
6 注: https://dl.acm.org/ を使って自分で調査．数え間違いがあるかも

実際A/Bテストまでやっている論文ってどれくらい？ • WWW2020で調査 • タイトル or 本文にadvertisingを含むもの: 100 • うち，オンラインでA/Bテストを行なったもの:
6 • 内訳 ◦ アメリカ: 3 (Etsy.com, Microsoft, Pinterest) ◦ スウェーデン: 1 (Spotify) ◦ 中国: 1 (Huawei) ◦ 日本: 1 (CyberAgent) 注: https://dl.acm.org/ を使って自分で調査．数え間違いがあるかも参考: KDD2019ではadvertising 57のうち14がオンラインA/Bをしている advertisingではないが，NTT Docomoさんの論文がA/Bテストまで行なって採択されている！もっと増やしていきたい！欧米 or 中国発のグローバルテック企業がほとんど

A/Bテストまで行けた研究開発プロジェクト体制 • メンバーはすべてCA社員 • メンバーとその役割 ◦ 安井: PM, アイディアの考案，手法の開発，オフライン検証 ◦
森下: 手法の開発，オフライン検証 ◦ 藤田: プロダクトでの実装，A/Bテストの設計（DS） ◦ 芝田: ライブラリlibﬀmへの機能追加 (リサーチエンジニア) • リサーチャーとリサーチエンジニア，プロダクトのDSがうまく協業できた

• 適切なA/Bテストの設計の重要性 ◦ 研究側とプロダクト側で実験したいものは必ずしも一致しない ▪ 研究側: できるだけ論文になりやすいもの ▪ プロダクト側: 売上や利益に直結
/既存システムの資産が流用 / 実験後もメンテしやすいもの ◦ すり合わせないと，論文は書けるがプロダクトでは使えないものが出来上がる • DSがプロダクトとしてのインセンティブマッチを担保すべき ◦ ビジネスモデルやシステム構造の理解、最新の研究内容のキャッチアップが重要 • プロダクトの真の価値を上げるような研究をする ◦ このプロジェクトも，もっとうまくやれた部分がたくさんプロダクト所属のDSとして研究に関わる

広告AI開発でビジネス価値を生み出す理想を目指して • 開発 / 研究した広告AIがプロダクト上で運用される • A/BテストのフィードバックからAIをアップデートする ◦ ビジネスKPIがどれだけ上げられるか？ •
その結果をトップカンファレンスに載せまくる • そんな理想をみんなで目指しませんか？

時間が残っていれば論文を紹介します

Why Do Competitive Markets Converge to First-Price Auctions? Renato Paes
Leme, Balasubramanian Sivan, and Yifeng Teng.

概要 • Googleの論文 • 背景 ◦ ディスプレイ広告市場における2nd price auctionから1st price
auctionへの業界的な移行 ◦ Googleも2019年に行った • 本論文ではゲーム理論を用いて，どのad exchangeも1st price auctionを採用することが均衡になることを示した • 論文の設定 ◦ bidder ▪ 複数のad exchangeが開催するオークションに参加 ▪ 平均的な入札をする (ad exchangeごとに入札戦略を変えない) ◦ ad exchange ▪ オークション形式を選択する (1st price auction or 2nd price auction)

詳細 • 収入同値定理 (Revenue Equivalence Theorem) ◦ マーケット内のすべてのad exchangeの収入の合計はオークション形式によらず同じ •
したがって，マーケット内の固定のパイをad exchange同士でどう奪い合うかという問題になる • このとき，ad exchangeたちが1st price auctionを採用することがNash均衡に ◦ ほかのad exchange（すべて or 一部）が2ndを採用している場合，1stへ移行することで収入が増加 ◦ ほかのすべてのad exchangeが1stを採用している場合: 2ndへ移行すると収入が下がる

まとめ • 最近SSPが1st price auctionに移行しているのは理論的にも説明可能なアクション • ただ，bidderが1st / 2nd
price auctionを区別しない入札をする仮定のもとでの話 ◦ この仮定のもとではそうなるよなという気も．．

WWW2020

WWW2020

Komei Fujita

More Decks by Komei Fujita

Other Decks in Science

Featured

Transcript

WWWでの論文採択と A/Bテストを評価地点とする広告AI開発 JSAI 2020 藤田光明

自己紹介藤田光明 Data Scientist • 職歴 ◦ 2018.4 -

WWWとは？ • ウェブ・データマイニング系のトップカンファレンス • 正式名称: The Web Conference • WWW

おことわり • 本来のタイトルは「WWW2020の参加報告と研究紹介」 • 参加してません ◦ コロナのため ◦ この発表が決まったときは参加する予定でしたが．．． •

目次 • A Feedback Shift Correction in Predicting Conversion Rates

A Feedback Shift Correction in Predicting Conversion Rates under Delayed

サイバーエージェント AI Lab x Dynalystの論文 • AI Lab ◦ デジタル広告配信技術の研究を行う組織

広告配信システムにおけるコンバージョン(CV)予測 8 学習予測予測予測　time 5/1 5/8 5/11

遅れコンバージョン問題 9

問題点の例 CV = 100 nonCV = 400 ある特徴X’を持つデータ CV =

解決のアイディア CV = 100 nonCV = 400 ある特徴X’を持つデータ CV =

傾向スコアを用いたバイアスの補正 • 傾向スコア: Propensity Score, PS • ある特徴Xについて，CVが起こる場合にどれくらいの確率で現在までにCVが観測されるか(= PS)を推定する

どう傾向スコアを推定するか？ • 定義 ◦ Y: 学習データ期間内にコンバージョンが観測されるか ◦ C: コンバージョンが起きるか(本当に興味があるもの) ◦

ラベルが正しく観測される確率Sをどう推定するか？ • Sも遅れCVにより観測不可能 • そこで過去のデータを使ってSを推定し，傾向スコアを得る ◦ 遅れの分布が変わらないことを仮定 CVR予測 Sの推定 CV確定

損失関数を定義する • 推定したPSの逆数で重みづけたunbiasedな損失関数を定義する • その最小化によって本当に予測したい分布に対しての予測が可能に PSの逆数で重み付け

オフラインでの精度遅れCVを考慮しないモデルや，criteoのDFMモデルと比べて精度が上がっている

プロダクトへの導入結果 • Dynalystへの導入し，A/Bテストによる効果の検証を行なった • 遅れCVを考慮しないベースラインモデルとの比較 • 売上, CVが増加した一方で，購買獲得効率(CPA)はほぼ変化なし 17

A/Bテストを評価地点とする広告AI開発

A/BテストしないとAIのビジネスインパクトは不明瞭 • 横軸: ◦ 既存モデルと新モデルのオフライン性能比（auroc, loglossなど） • 縦軸: ◦

学術研究でもA/Bテストは評価される “... This paper strikes a good balance between analytic

実際A/Bテストまでやっている論文ってどれくらい？ • WWW2020で調査 • タイトル or 本文にadvertisingを含むもの: 100 • うち，オンラインでA/Bテストを行なったもの:

実際A/Bテストまでやっている論文ってどれくらい？ • WWW2020で調査 • タイトル or 本文にadvertisingを含むもの: 100 • うち，オンラインでA/Bテストを行なったもの:

A/Bテストまで行けた研究開発プロジェクト体制 • メンバーはすべてCA社員 • メンバーとその役割 ◦ 安井: PM, アイディアの考案，手法の開発，オフライン検証 ◦

• 適切なA/Bテストの設計の重要性 ◦ 研究側とプロダクト側で実験したいものは必ずしも一致しない ▪ 研究側: できるだけ論文になりやすいもの ▪ プロダクト側: 売上や利益に直結

広告AI開発でビジネス価値を生み出す理想を目指して • 開発 / 研究した広告AIがプロダクト上で運用される • A/BテストのフィードバックからAIをアップデートする ◦ ビジネスKPIがどれだけ上げられるか？ •

時間が残っていれば論文を紹介します

Why Do Competitive Markets Converge to First-Price Auctions? Renato Paes

概要 • Googleの論文 • 背景 ◦ ディスプレイ広告市場における2nd price auctionから1st price

詳細 • 収入同値定理 (Revenue Equivalence Theorem) ◦ マーケット内のすべてのad exchangeの収入の合計はオークション形式によらず同じ •

まとめ • 最近SSPが1st price auctionに移行しているのは理論的にも説明可能なアクション • ただ，bidderが1st / 2nd