Upgrade to Pro — share decks privately, control downloads, hide ads and more …

How Causal Inference Findings Solve Tech Companies' Challenges

How Causal Inference Findings Solve Tech Companies' Challenges

日経学会2020年度春季大会の企画セッションで話した内容です。
https://cyberagent.ai/blog/pr/release_event/13050/

Komei Fujita

May 30, 2020
Tweet

More Decks by Komei Fujita

Other Decks in Technology

Transcript

  1. 自己紹介 藤田 光明 Data Scientist • 経歴 ◦ 2012 -

    2016 ▪ 上智大学経済学部 ◦ 2016 - 2018 ▪ 東京大学経済学研究科 ▪ 実証産業組織論,離散選択 ◦ 2018.4 - ▪ サイバーエージェント AI事業本部 Dynalyst ▪ 広告配信アルゴリズムの開発 / 実装 ▪ A/Bテスト(RCT)システムの改善 • 興味 ◦ A/Bテストを通したプロダクトグロース ◦ ビジネス x 経済学 / 機械学習 2
  2. 自己紹介: 大学院時代にやっていたこと • 修論 ◦ “A Comparison of the Effectiveness

    of Advertisement in Discrete Choice Models with Random and Non-Random Choice Sets” ◦ 広告が消費者の需要に与える影響の分析において2つの離散選択モデルを比較 ▪ BLP(1995)タイプ: full informationのもとで広告がutility functionの中に入る ▪ Goeree(2008)タイプ: limited informationのもとで広告がchoice setに入る確率を上げる ◦ 日本の自動車マーケットのデータを使用 ◦ 指導教官: 若森先生 • リサーチアシスタント ◦ 一橋ICSの宮川先生のもとで1年くらいRAをしていた 3
  3. RTB: 数10ms内の広告オークション 9 ネットに広告を 出したい会社 DSP SSP User / Site

    a b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 サイト収益を最大 化するためにオー クションを開催
  4. 入札戦略,クリック率,購入率の予測 10 ネットに広告を 出したい会社 DSP SSP User / Site a

    b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 入札額の決定... 入札戦略, クリック率, 購入率の予測
  5. 広告予算のペーシング 11 ネットに広告を 出したい会社 DSP SSP User / Site a

    b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 100円 80円 50円 予算,広告素材 広告主の予算を効率的に配分する... 予算ペーシング
  6. 広告画像選択 12 ネットに広告を 出したい会社 DSP SSP User / Site a

    b c B C 広告リクエスト 入札リクエスト 広告画像 入札額,広告画像 予算,広告素材 100円 80円 50円 より効果の高い広告画像を選ぶ... 広告画像選択ロジック
  7. 機械学習 / 経済学が使われている例 • 入札 ◦ 入札戦略, 1st price auction,

    2nd price auction (オークション理論) ◦ クリック予測, 購入予測 (教師あり学習, 因果推論) • 予算ペーシング ◦ PID制御 • 広告画像選択 ◦ バンディットアルゴリズム (強化学習) ◦ オフライン評価 (因果推論) 13 以降では,機械学習 x 因果推論の事例に絞って紹介する

  8. • 広告画像の候補からもっとも効果が高いものを選びたい • しかし,事前にどの広告画像が良いかは不明 • RCTをする? ◦ 各広告画像の効果を判断できるまでに同数の配信をする必要がある ◦ 自動化(勝手にRCTして,勝手に良い画像を選ぶ)が難しい

    ◦ 広告配信の目的は効果の高い広告画像を見つけることではなく配信全体で効果を上げること               バンディットを使う • バンディットは配信全体の報酬(クリック数,購買数)を最大化する ◦ バンディットが最適化するものと広告配信の目的がマッチ なぜ広告画像選択でバンディットを使うのか? 19
  9. Thompson Samplingで実際にやっていること 23 1. click, not clickの数を集計 2. アームごとの集計結果から, Beta(1

    + click, 1 + not click)というクリック率の事後分布を得る 3. 事後分布から発生させた乱数が一番大きいアームを選択する a. アーム3が選ばれる確率は,「(この時点で)アーム3のクリック率の期待値が最も高い確率」に一致
  10. バンディットの拡張 • 今まで紹介した例は多腕バンディットと呼ばれるもの ◦ Multi Armed Bandit; MAB ◦ 各リクエストごとの報酬がi.i.dであることを仮定

    • その拡張版であるコンテキスト付きバンディットを考える ◦ Contextual Bandit; CB 26 …... candidate bandit selected
  11. 報酬のオフライン評価の難しさ 33 context candidate X1 a,b,c,d,e a d X2 a,b,c

    c c eval NA 1 click 0 1 old logic new logic 旧ロジックと新ロジックの選択が異なる 場合,クリック有無は観測不可能 一致した場合,クリック有無を観測可能 Biased!!! たとえば,選択が一致したものだけで評価を行う ...? 配信データ シミュレーション
  12. バンディットをどうオフライン評価するか • 新旧ロジックの選択が一致したもののみで評価を行う → バイアス ◦ 旧ロジックのログのデータの分布 ≠ 実際のデータの分布 ◦

    興味の対象は既存ロジックと新ロジックが異なる選択をしていたときどういう報酬を得てい たか 34 Replay Methodでオフライン評価ができる
  13. Replay Method [Li 2012]とは • ランダム選択から生まれるログを用いる ◦ Dynalystでは一定割合をランダム選択によって配信している • ランダムの選択と新ロジックの選択が一致すれば報酬の評価に使う

    ◦ 一致しなければ使わない • そこでは,評価に使えるか使えないかの選択がランダムに行われる 35 評価に使えるデータ = 全体からランダムにサンプリングして得られたデータ と考えることができるため,unbiasedな評価が可能になる
  14. Replay Methodの例 36 context candidate X1 a,b,c,d,e a d X2

    a,b,c c c X3 c,d d d X4 a,c,d a a X5 a,d,e,f,g e f eval NA 1 0 1 NA click 0 1 0 1 1 評価に使う 新ロジックをオフラインで評価した際の クリック率は2/3 評価に使わない 評価に使わない 配信データ シミュレーション
  15. Replay Methodでのオフライン評価の流れ 1. Replay MethodでCBのクリック率(CTR)をシミュレーション 2. 学習モデル / 特徴量 /

    ハイパーパラメータを変えて,よりCTRが高くなる設定を探す 最も効果が高かった設定での結果↓ 37 青: CBのCTR(オフライン) 赤: MABのCTR(オンライン) オンラインでRCTして みよう! CTR Day
  16. サイバーエージェントでの研究 “Efficient Counterfactual Learning from Bandit Feedback” Narita, Yasui, Yata

    (AAAI 2019) Replay Methodの欠点 • 評価の分散を下げるためにはより多くのランダム配信ログが必要 ◦ 一方で,ランダム配信を増やすほど全体の効果は下がってしまう バンディットの配信ログを使って新ロジックを評価できないか? 39 Propensity Scoreを使ってオフライン評価ができる
  17. Inverse Propensity Weighting (IPW) 40 40 X Y_A X1 1

    a b X2 1 c c X3 0 b b X4 1 a a X5 1 b c eval NA 1 0 1 NA Aが選ばれる条件付き確率 Propensity Score selected arm selected arm
  18. IPW (Estimated) 41 X Y_A X1 1 a b X2

    1 c c X3 0 b b X4 1 a a X5 1 b c eval NA 1 0 1 NA Estimated Propensity Score by Logistic Regression, GBDT, Random Forest 真のPSを用いるより推定されたPSを用いることで,オフライン評価の分散が小さくなる
  19. コンバージョン予測とは • コンバージョン(Conversion, CV)とは... ◦ 最終的な成果のこと ◦ 購入や資料請求などを指すことが多い ◦ CVR:

    Conversion Rate • 効果的な広告配信のためには,精度の高いCVR予測が必要 ◦ ユーザ x 広告 x ...の組み合わせについてのCVRをRTBの入札額決定に用いる 43 30% 15% 5%
  20. コンバージョン予測をシステムで使うためのフロー 44 配信ログ 学習 データ 計測 データ抽出 予測モデル デプロイ 学習

    広告システム モデルは一度作れば終わりではない 広告システムで使われる 予測モデルが新しいもの へと入れ替わる
  21. 同じ学習データを使うケース 45 学習 予測 予測 予測  time  5/1  5/8  5/11

     5/10  5/9 予測  5/14 • 5/8に5/1-7のデータを使ってモデル作成,以後そのモデルを使い続ける • 時間経過とともに学習データと本番データの分布の乖離が大きくなる ◦ 新しいメディアの登場,トレンド / ユーザの興味の変遷,etc • 教師あり学習では,学習データの分布にフィットするようにモデルを作るため, データの分布の乖離はモデルの精度を大きく下げる performance
  22. 問題点の例 CV = 100 nonCV = 400 ある特徴X’を持つデータ CV =

    50 nonCV = 400 nonCV = 50 正常に観測できる 遅れによってCV = 0に変換される CVR = 20% CVR = 10% モデルはこの事象を正と して学習してしまう CV = 100 nonCV = 400 予測したいデータ CVR = 20% 出力した予測値と正解のCVRで 解離が発生してしまう →精度が悪化する
  23. 解決のアイディア CV = 100 nonCV = 400 ある特徴X’を持つデータ CV =

    50 -> 112 nonCV = 400 nonCV = 50 CVR = 20% CVR = 20% CV = 100 nonCV = 400 予測したいデータ CVR = 20% 出力した予測値と正解のCVRの 乖離が小さくなる →精度が改善する
  24. Inversed Propensity Scoreを用いたバイアスの補正 • ある特徴Xについて,CVされる場合にどれくらいの確率で現在までに CVが観測されるか(= PS)を推定する ◦ クリックからの時間 /

    ユーザ属性 /クリックした広告情報などが特徴量 • 推定したPSの逆数で重みづけたunbiasedな損失関数を定義する • その最小化によって本当に予測したい分布に対しての予測が可能に 50
  25. • 経済学やってきたからこそできる人工知能分野への貢献 ◦ MLにはデータのバイアスによる問題が多くあるが,MLコミュニティでは無視されがち ◦ CAの経済学出身チームがそういった課題を改善する活動してきた結果 • プロダクトでRCTしてビジネスKPIを上げた点も評価された ◦ MLの応用系のトップ会議では実社会での実装が重要視される

    ◦ 手法をプロダクト実装してビジネスKPIを上げ,その論文がトップ会議に採択されたのは国内 では珍しい ML系トップカンファレンスでの論文採択 52 “A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback.” Yasui, Morishita, Fujita, and Shibata (WWW 2020)
  26. 経済学出身データサイエンティストとして働く • 自分は非リサーチャー • プロダクトの売上 / 利益を上げることが目的 • 自分ができることは …

    ? ◦ ビジネスマンやエンジニアより経済学がちょっとわかる ◦ 経済学者よりビジネスやエンジニアリングがちょっとわかる 54
  27. 経済学出身データサイエンティストの価値とは • 経済学 / 因果推論の知見で解けるタスクを作ること ◦ プロダクトのビジネスモデルやシステムから課題を発見しどう解くべきか考える ◦ 何によってバイアスが生じるか,それを除くためにはどうすればよいかという大学院でのトレーニングが生きる ◦

    研究レベルの課題であれば,リサーチャーを巻き込んで一緒に解く ▪ 遅れCVもそういう経緯でプロジェクトがスタート • (リサーチャーと協力して)解いた課題をビジネス / システム運用に落とし込む ◦ ここまでやって初めてプロダクトの価値となる ◦ 泥臭いが面白い • もっと広い目線で,マーケットが求める課題を経済学の知見で解けないか考える ◦ そのためにはプロダクトのビジネスモデルだけでなく業界全体を知る必要がある 55
  28. 参考リンク • 企業の中の経済学 by Yusuke Kaneko • Bandit Algorithm and

    Causal Inference by Yasui Shota • Unbiased Offline Evaluation of Contextual-bandit-based News Article Recommendation Algorithms • Efficient Counterfactual Learning from Bandit Feedback • A Contextual Bandit Algorithm for Ad Creative under Ad Fatigue • A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback 58