Slide 1

Slide 1 text

WWWでの論文採択と A/Bテストを評価地点とする広告AI開発 JSAI 2020 藤田 光明

Slide 2

Slide 2 text

自己紹介 藤田 光明 Data Scientist ● 職歴 ○ 2018.4 - ■ サイバーエージェント AI事業本部 Dynalyst ■ 広告配信アルゴリズムの開発 / 実装 ■ A/Bテストシステムの改善 ● 興味 ○ A/Bテストを通したプロダクトグロース ○ ビジネス x 経済学 / Counterfactual Machine Learning 2

Slide 3

Slide 3 text

WWWとは? ● ウェブ・データマイニング系のトップカンファレンス ● 正式名称: The Web Conference ● WWW (International World Wide Web Conference)は旧称 ● 今年は4月に台北で開催される予定だった ○ が,コロナでオンラインに

Slide 4

Slide 4 text

おことわり ● 本来のタイトルは「WWW2020の参加報告と研究紹介」 ● 参加してません ○ コロナのため ○ この発表が決まったときは参加する予定でしたが... ● 以下のことを話します ○ CAの論文と研究プロジェクトを通して考えた広告AI開発について ○ (時間があれば)読んだ広告系の論文1本

Slide 5

Slide 5 text

目次 ● A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback ● A/Bテストを評価地点とする広告AI開発 ● Why Do Competitive Markets Converge to First-Price Auctions?

Slide 6

Slide 6 text

A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback Yasui Shota, Gota Morishita, Komei Fujita, and Masashi Shibata.

Slide 7

Slide 7 text

サイバーエージェント AI Lab x Dynalystの論文 ● AI Lab ○ デジタル広告配信技術の研究を行う組織 ○ Ad Econチーム ● Dynalyst ○ ダイナミックリターゲティング広告のDSP

Slide 8

Slide 8 text

広告配信システムにおけるコンバージョン(CV)予測 8 学習 予測 予測 予測  time 5/1 5/8 5/11 5/10 5/9 予測 5/14 performance 学習 学習 学習 できるだけ新しいデータを使って学習するのが基本 ● 教師あり学習では,学習データの分布にフィットするようにモデルを作る ● 予測したい分布に近いデータを使って学習したい ○ 新しいメディアの登場,トレンド,ユーザの興味の変遷などによって時間経過とともに分布が変わるため

Slide 9

Slide 9 text

遅れコンバージョン問題 9

Slide 10

Slide 10 text

問題点の例 CV = 100 nonCV = 400 ある特徴X’を持つデータ CV = 50 nonCV = 400 nonCV = 50 正常に観測できる 遅れによってCV = 0に変換される CVR = 20% CVR = 10% モデルはこの事象を正と して学習してしまう CV = 100 nonCV = 400 予測したいデータ CVR = 20% 出力した予測値と正解のCVRで 解離が発生してしまう →精度が悪化する

Slide 11

Slide 11 text

解決のアイディア CV = 100 nonCV = 400 ある特徴X’を持つデータ CV = 50 -> 112 nonCV = 400 nonCV = 50 CVR = 20% CVR = 20% CV = 100 nonCV = 400 予測したいデータ CVR = 20% 出力した予測値と正解のCVRの 乖離が小さくなる →精度が改善する

Slide 12

Slide 12 text

傾向スコアを用いたバイアスの補正 ● 傾向スコア: Propensity Score, PS ● ある特徴Xについて,CVが起こる場合にどれくらいの確率で現在まで にCVが観測されるか(= PS)を推定する 12

Slide 13

Slide 13 text

どう傾向スコアを推定するか? ● 定義 ○ Y: 学習データ期間内にコンバージョンが観測されるか ○ C: コンバージョンが起きるか(本当に興味があるもの) ○ S: コンバージョンが学習期間内に正しく観測されるか,Propensity Score ○ X: 特徴量 学習データ内でラベルが1になる確率 = 真のラベルが1である確率 x 学習データ内でラベルが正しく観測される確率 そもそも予測したい ものが必要 ラベルが正しく観測される確率Sを推定する

Slide 14

Slide 14 text

ラベルが正しく観測される確率Sをどう推定するか? ● Sも遅れCVにより観測不可能 ● そこで過去のデータを使ってSを推定し,傾向スコアを得る ○ 遅れの分布が変わらないことを仮定 CVR予測 Sの推定 CV確定 CV未確定 CVが確定したデータでSを学習 Sを予測する -> 傾向スコアを得る 6/4 6/9(現在) 6/6 設定 ● CV確定期間: 3day ○ clickから3日までのCVを 有効なCVとする ● CVR予測の学習期間: 5day 学習データ

Slide 15

Slide 15 text

損失関数を定義する ● 推定したPSの逆数で重みづけたunbiasedな損失関数を定義する ● その最小化によって本当に予測したい分布に対しての予測が可能に PSの逆数で重み付け

Slide 16

Slide 16 text

オフラインでの精度 遅れCVを考慮しないモデルや,criteoのDFMモデルと比べて精度が上がっている

Slide 17

Slide 17 text

プロダクトへの導入結果 ● Dynalystへの導入し,A/Bテストによる効果の検証を行なった ● 遅れCVを考慮しないベースラインモデルとの比較 ● 売上, CVが増加した一方で,購買獲得効率(CPA)はほぼ変化なし 17

Slide 18

Slide 18 text

A/Bテストを評価地点とする 広告AI開発

Slide 19

Slide 19 text

A/BテストしないとAIのビジネスインパクトは不明瞭 ● 横軸: ○ 既存モデルと新モデルのオフライン性 能比(auroc, loglossなど) ● 縦軸: ○ 既存モデルと新モデルのA/Bテストで のビジネスKPIの比 (CVRなど) 150 successful Machine Learning models: 6 lessons learned at Booking.com, KDD2019 “OFFLINE MODEL PERFORMANCE IS JUST A HEALTH CHECK”

Slide 20

Slide 20 text

学術研究でもA/Bテストは評価される “... This paper strikes a good balance between analytic and empirical results. The problem itself is grounded in a real-world issue without being overly specific to a single narrow area, and is beneficial in practice.” 遅れCV論文のレビュワーコメントより抜粋

Slide 21

Slide 21 text

実際A/Bテストまでやっている論文ってどれくらい? ● WWW2020で調査 ● タイトル or 本文にadvertisingを含むもの: 100 ● うち,オンラインでA/Bテストを行なったもの: 6 注: https://dl.acm.org/ を使って自分で調査.数え間違いがあるかも

Slide 22

Slide 22 text

実際A/Bテストまでやっている論文ってどれくらい? ● WWW2020で調査 ● タイトル or 本文にadvertisingを含むもの: 100 ● うち,オンラインでA/Bテストを行なったもの: 6 ● 内訳 ○ アメリカ: 3 (Etsy.com, Microsoft, Pinterest) ○ スウェーデン: 1 (Spotify) ○ 中国: 1 (Huawei) ○ 日本: 1 (CyberAgent) 注: https://dl.acm.org/ を使って自分で調査.数え間違いがあるかも 参考: KDD2019ではadvertising 57のうち14がオンラインA/Bをしている advertisingではないが,NTT Docomoさんの論文がA/Bテストまで行なって採択されている! もっと増やしていきたい! 欧米 or 中国発のグローバル テック企業がほとんど

Slide 23

Slide 23 text

A/Bテストまで行けた研究開発プロジェクト体制 ● メンバーはすべてCA社員 ● メンバーとその役割 ○ 安井: PM, アイディアの考案,手法の開発,オフライン検証 ○ 森下: 手法の開発,オフライン検証 ○ 藤田: プロダクトでの実装,A/Bテストの設計(DS) ○ 芝田: ライブラリlibffmへの機能追加 (リサーチエンジニア) ● リサーチャーとリサーチエンジニア,プロダクトのDSがう まく協業できた

Slide 24

Slide 24 text

● 適切なA/Bテストの設計の重要性 ○ 研究側とプロダクト側で実験したいものは必ずしも一致しない ■ 研究側: できるだけ論文になりやすいもの ■ プロダクト側: 売上や利益に直結 /既存システムの資産が流用 / 実験後もメンテしやすいもの ○ すり合わせないと,論文は書けるがプロダクトでは使えないものが出来上がる ● DSがプロダクトとしてのインセンティブマッチを担保すべき ○ ビジネスモデルやシステム構造の理解、最新の研究内容のキャッチアップが重要 ● プロダクトの真の価値を上げるような研究をする ○ このプロジェクトも,もっとうまくやれた部分がたくさん プロダクト所属のDSとして研究に関わる

Slide 25

Slide 25 text

広告AI開発でビジネス価値を生み出す理想を目指して ● 開発 / 研究した広告AIがプロダクト上で運用される ● A/BテストのフィードバックからAIをアップデートする ○ ビジネスKPIがどれだけ上げられるか? ● その結果をトップカンファレンスに載せまくる ● そんな理想をみんなで目指しませんか?

Slide 26

Slide 26 text

時間が残っていれば論文を紹介します

Slide 27

Slide 27 text

Why Do Competitive Markets Converge to First-Price Auctions? Renato Paes Leme, Balasubramanian Sivan, and Yifeng Teng.

Slide 28

Slide 28 text

概要 ● Googleの論文 ● 背景 ○ ディスプレイ広告市場における2nd price auctionから1st price auctionへの業界的な移行 ○ Googleも2019年に行った ● 本論文ではゲーム理論を用いて,どのad exchangeも1st price auctionを採 用することが均衡になることを示した ● 論文の設定 ○ bidder ■ 複数のad exchangeが開催するオークションに参加 ■ 平均的な入札をする (ad exchangeごとに入札戦略を変えない) ○ ad exchange ■ オークション形式を選択する (1st price auction or 2nd price auction)

Slide 29

Slide 29 text

詳細 ● 収入同値定理 (Revenue Equivalence Theorem) ○ マーケット内のすべてのad exchangeの収入の合計はオークション形式によらず同じ ● したがって,マーケット内の固定のパイをad exchange同士でどう奪い合うかと いう問題になる ● このとき,ad exchangeたちが1st price auctionを採用することがNash均衡に ○ ほかのad exchange(すべて or 一部)が2ndを採用している場合,1stへ移行することで収入が増加 ○ ほかのすべてのad exchangeが1stを採用している場合: 2ndへ移行すると収入が下がる

Slide 30

Slide 30 text

まとめ ● 最近SSPが1st price auctionに移行しているのは理論的 にも説明可能なアクション ● ただ,bidderが1st / 2nd price auctionを区別しない入 札をする仮定のもとでの話 ○ この仮定のもとではそうなるよなという気も..