WWW2020

 WWW2020

JSAI2020の「広告とAI」というオーガナイズドセッションで、「WWWでの論文採択とA/Bテストを評価地点とする広告AI開発」というタイトルで発表しました。

097c045028b149ca7fd4ca42ff859cd9?s=128

Komei Fujita

June 09, 2020
Tweet

Transcript

  1. WWWでの論文採択と A/Bテストを評価地点とする広告AI開発 JSAI 2020 藤田 光明

  2. 自己紹介 藤田 光明 Data Scientist • 職歴 ◦ 2018.4 -

    ▪ サイバーエージェント AI事業本部 Dynalyst ▪ 広告配信アルゴリズムの開発 / 実装 ▪ A/Bテストシステムの改善 • 興味 ◦ A/Bテストを通したプロダクトグロース ◦ ビジネス x 経済学 / Counterfactual Machine Learning 2
  3. WWWとは? • ウェブ・データマイニング系のトップカンファレンス • 正式名称: The Web Conference • WWW

    (International World Wide Web Conference)は旧称 • 今年は4月に台北で開催される予定だった ◦ が,コロナでオンラインに
  4. おことわり • 本来のタイトルは「WWW2020の参加報告と研究紹介」 • 参加してません ◦ コロナのため ◦ この発表が決まったときは参加する予定でしたが... •

    以下のことを話します ◦ CAの論文と研究プロジェクトを通して考えた広告AI開発について ◦ (時間があれば)読んだ広告系の論文1本
  5. 目次 • A Feedback Shift Correction in Predicting Conversion Rates

    under Delayed Feedback • A/Bテストを評価地点とする広告AI開発 • Why Do Competitive Markets Converge to First-Price Auctions?
  6. A Feedback Shift Correction in Predicting Conversion Rates under Delayed

    Feedback Yasui Shota, Gota Morishita, Komei Fujita, and Masashi Shibata.
  7. サイバーエージェント AI Lab x Dynalystの論文 • AI Lab ◦ デジタル広告配信技術の研究を行う組織

    ◦ Ad Econチーム • Dynalyst ◦ ダイナミックリターゲティング広告のDSP
  8. 広告配信システムにおけるコンバージョン(CV)予測 8 学習 予測 予測 予測  time 5/1 5/8 5/11

    5/10 5/9 予測 5/14 performance 学習 学習 学習 できるだけ新しいデータを使って学習するのが基本 • 教師あり学習では,学習データの分布にフィットするようにモデルを作る • 予測したい分布に近いデータを使って学習したい ◦ 新しいメディアの登場,トレンド,ユーザの興味の変遷などによって時間経過とともに分布が変わるため
  9. 遅れコンバージョン問題 9

  10. 問題点の例 CV = 100 nonCV = 400 ある特徴X’を持つデータ CV =

    50 nonCV = 400 nonCV = 50 正常に観測できる 遅れによってCV = 0に変換される CVR = 20% CVR = 10% モデルはこの事象を正と して学習してしまう CV = 100 nonCV = 400 予測したいデータ CVR = 20% 出力した予測値と正解のCVRで 解離が発生してしまう →精度が悪化する
  11. 解決のアイディア CV = 100 nonCV = 400 ある特徴X’を持つデータ CV =

    50 -> 112 nonCV = 400 nonCV = 50 CVR = 20% CVR = 20% CV = 100 nonCV = 400 予測したいデータ CVR = 20% 出力した予測値と正解のCVRの 乖離が小さくなる →精度が改善する
  12. 傾向スコアを用いたバイアスの補正 • 傾向スコア: Propensity Score, PS • ある特徴Xについて,CVが起こる場合にどれくらいの確率で現在まで にCVが観測されるか(= PS)を推定する

    12
  13. どう傾向スコアを推定するか? • 定義 ◦ Y: 学習データ期間内にコンバージョンが観測されるか ◦ C: コンバージョンが起きるか(本当に興味があるもの) ◦

    S: コンバージョンが学習期間内に正しく観測されるか,Propensity Score ◦ X: 特徴量 学習データ内でラベルが1になる確率 = 真のラベルが1である確率 x 学習データ内でラベルが正しく観測される確率 そもそも予測したい ものが必要 ラベルが正しく観測される確率Sを推定する
  14. ラベルが正しく観測される確率Sをどう推定するか? • Sも遅れCVにより観測不可能 • そこで過去のデータを使ってSを推定し,傾向スコアを得る ◦ 遅れの分布が変わらないことを仮定 CVR予測 Sの推定 CV確定

    CV未確定 CVが確定したデータでSを学習 Sを予測する -> 傾向スコアを得る 6/4 6/9(現在) 6/6 設定 • CV確定期間: 3day ◦ clickから3日までのCVを 有効なCVとする • CVR予測の学習期間: 5day 学習データ
  15. 損失関数を定義する • 推定したPSの逆数で重みづけたunbiasedな損失関数を定義する • その最小化によって本当に予測したい分布に対しての予測が可能に PSの逆数で重み付け

  16. オフラインでの精度 遅れCVを考慮しないモデルや,criteoのDFMモデルと比べて精度が上がっている

  17. プロダクトへの導入結果 • Dynalystへの導入し,A/Bテストによる効果の検証を行なった • 遅れCVを考慮しないベースラインモデルとの比較 • 売上, CVが増加した一方で,購買獲得効率(CPA)はほぼ変化なし 17

  18. A/Bテストを評価地点とする 広告AI開発

  19. A/BテストしないとAIのビジネスインパクトは不明瞭 • 横軸: ◦ 既存モデルと新モデルのオフライン性 能比(auroc, loglossなど) • 縦軸: ◦

    既存モデルと新モデルのA/Bテストで のビジネスKPIの比 (CVRなど) 150 successful Machine Learning models: 6 lessons learned at Booking.com, KDD2019 “OFFLINE MODEL PERFORMANCE IS JUST A HEALTH CHECK”
  20. 学術研究でもA/Bテストは評価される “... This paper strikes a good balance between analytic

    and empirical results. The problem itself is grounded in a real-world issue without being overly specific to a single narrow area, and is beneficial in practice.” 遅れCV論文のレビュワーコメントより抜粋
  21. 実際A/Bテストまでやっている論文ってどれくらい? • WWW2020で調査 • タイトル or 本文にadvertisingを含むもの: 100 • うち,オンラインでA/Bテストを行なったもの:

    6 注: https://dl.acm.org/ を使って自分で調査.数え間違いがあるかも
  22. 実際A/Bテストまでやっている論文ってどれくらい? • WWW2020で調査 • タイトル or 本文にadvertisingを含むもの: 100 • うち,オンラインでA/Bテストを行なったもの:

    6 • 内訳 ◦ アメリカ: 3 (Etsy.com, Microsoft, Pinterest) ◦ スウェーデン: 1 (Spotify) ◦ 中国: 1 (Huawei) ◦ 日本: 1 (CyberAgent) 注: https://dl.acm.org/ を使って自分で調査.数え間違いがあるかも 参考: KDD2019ではadvertising 57のうち14がオンラインA/Bをしている advertisingではないが,NTT Docomoさんの論文がA/Bテストまで行なって採択されている! もっと増やしていきたい! 欧米 or 中国発のグローバル テック企業がほとんど
  23. A/Bテストまで行けた研究開発プロジェクト体制 • メンバーはすべてCA社員 • メンバーとその役割 ◦ 安井: PM, アイディアの考案,手法の開発,オフライン検証 ◦

    森下: 手法の開発,オフライン検証 ◦ 藤田: プロダクトでの実装,A/Bテストの設計(DS) ◦ 芝田: ライブラリlibffmへの機能追加 (リサーチエンジニア) • リサーチャーとリサーチエンジニア,プロダクトのDSがう まく協業できた
  24. • 適切なA/Bテストの設計の重要性 ◦ 研究側とプロダクト側で実験したいものは必ずしも一致しない ▪ 研究側: できるだけ論文になりやすいもの ▪ プロダクト側: 売上や利益に直結

    /既存システムの資産が流用 / 実験後もメンテしやすいもの ◦ すり合わせないと,論文は書けるがプロダクトでは使えないものが出来上がる • DSがプロダクトとしてのインセンティブマッチを担保すべき ◦ ビジネスモデルやシステム構造の理解、最新の研究内容のキャッチアップが重要 • プロダクトの真の価値を上げるような研究をする ◦ このプロジェクトも,もっとうまくやれた部分がたくさん プロダクト所属のDSとして研究に関わる
  25. 広告AI開発でビジネス価値を生み出す理想を目指して • 開発 / 研究した広告AIがプロダクト上で運用される • A/BテストのフィードバックからAIをアップデートする ◦ ビジネスKPIがどれだけ上げられるか? •

    その結果をトップカンファレンスに載せまくる • そんな理想をみんなで目指しませんか?
  26. 時間が残っていれば論文を紹介します

  27. Why Do Competitive Markets Converge to First-Price Auctions? Renato Paes

    Leme, Balasubramanian Sivan, and Yifeng Teng.
  28. 概要 • Googleの論文 • 背景 ◦ ディスプレイ広告市場における2nd price auctionから1st price

    auctionへの業界的な移行 ◦ Googleも2019年に行った • 本論文ではゲーム理論を用いて,どのad exchangeも1st price auctionを採 用することが均衡になることを示した • 論文の設定 ◦ bidder ▪ 複数のad exchangeが開催するオークションに参加 ▪ 平均的な入札をする (ad exchangeごとに入札戦略を変えない) ◦ ad exchange ▪ オークション形式を選択する (1st price auction or 2nd price auction)
  29. 詳細 • 収入同値定理 (Revenue Equivalence Theorem) ◦ マーケット内のすべてのad exchangeの収入の合計はオークション形式によらず同じ •

    したがって,マーケット内の固定のパイをad exchange同士でどう奪い合うかと いう問題になる • このとき,ad exchangeたちが1st price auctionを採用することがNash均衡に ◦ ほかのad exchange(すべて or 一部)が2ndを採用している場合,1stへ移行することで収入が増加 ◦ ほかのすべてのad exchangeが1stを採用している場合: 2ndへ移行すると収入が下がる
  30. まとめ • 最近SSPが1st price auctionに移行しているのは理論的 にも説明可能なアクション • ただ,bidderが1st / 2nd

    price auctionを区別しない入 札をする仮定のもとでの話 ◦ この仮定のもとではそうなるよなという気も..