Slide 1

Slide 1 text

CFML@KDD2019
 1

Slide 2

Slide 2 text

自己紹介 藤田 光明(ふじた こうめい) ◉ CyberAgent18新卒 ◉ アドテクスタジオのDynalystというプロダクトに所属 ○ 広告配信ロジックの開発・実装を担当 ◉ ビジネス x 機械学習に興味あり ◉ R/Python/Scala ... ◉ 学生時代は経済学を勉強していました ○ 専門は実証産業組織論・計量経済学 2

Slide 3

Slide 3 text

この発表で話すこと
 ● ビジネスの現場において、
 なぜCouterfactual MLが必要とされているのか?
 ● KDD2019のCFML関連の論文を簡単に紹介
 ○ 特にモチベーション部分を中心に


Slide 4

Slide 4 text

目次
 ● KDD全体感
 ● ビジネスとCFML
 ● CFMLのトーク/ペーパーの紹介
 ● まとめ
 


Slide 5

Slide 5 text

KDD全体感


Slide 6

Slide 6 text

KDDとは?
 ● KDD(Knowledge Discovery and Data Mining)
 ● 応用系の機械学習/データマイニングのトップカンファレンス
 ● 学術機関における研究のみでなく様々な企業での研究や応用事例につい ての発表がある
 ● 実ビジネスや社会でMLをどのように使ってどう評価するかという側面に重 きが置かれている印象
 


Slide 7

Slide 7 text

paper@KDD2019
 ● 1179 submissions
 ○ 111 accepted for oral 
 ○ 63 accepted for posters 
 ● 多かったテーマ
 ○ グラフやネットワーク構造 
 ○ AIのexplainability 
 ○ Deep Learning
 ● その他雑感
 ○ 企業の論文多め 
 ○ RTB系は少ない 
 ○ CFML系は5本くらい? 
 画像はhttps://twitter.com/dirkvandenpoelから引用


Slide 8

Slide 8 text

オンライン実験
 ● 実際に提案モデルを実社会にデプロイしたという論文も多い 
 ○ シンプルなモデルでも採択されているのはこういうパターン 
 ● システムのアーキテクチャの説明もされている 
 ○ walmartの商品価格の異常検知の論文の例 
 Anomaly Detection for an E-commerce Pricing System 


Slide 9

Slide 9 text

Tutorial / Workshop
 ● 8/4 tutorial day, 8/5 workshop day
 ● tutorial
 ○ A/Bテストのtutorialが2つも
 ○ hands onのチュートリアルもある
 ● workshop
 ○ ADKDD (since 2007)
 ■ criteo, google, Microsoft, Tencentなどが発表 
 ○ オフライン評価系のwsもある
 画像はhttps://twitter.com/dirkvandenpoelから引用


Slide 10

Slide 10 text

Offline and Online Evaluation of Interactive Systems
 ● オフライン評価系のワークショップ(2回目)
 ○ http://evalworkshop.com/2nd/index.html
 ● 発表企業
 ○ Netflix, Intel, Google, Adobe, Linkedinなど
 ● Keynote Speaker
 ○ Thorsten Joachims: コーネル大、CFML系の大御所 など


Slide 11

Slide 11 text

ビジネスとCFML


Slide 12

Slide 12 text

実ビジネスでCFMLが必要とされる理由は?
 事例をいくつか紹介する
 1. Booking.com (for 意思決定) “150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com” 2. Netflix (for Uplift) “Quantifying the Impact of a Recommendation” 3. Search engine (for モデルのパフォーマンス改善) “Unbiased Evaluation for Unbiased Rankings”

Slide 13

Slide 13 text

1. Booking.com


Slide 14

Slide 14 text

Q. これは何の図でしょう?


Slide 15

Slide 15 text

A. オフラインのモデルパフォーマンスとオンラインでのビジネス指標の関係
 相関係数 ≒ -0.1
 ● 横軸 
 新旧モデルのAUC等の差
 ○ 右にいくほど旧モデルに比べてオフライン性能高
 ○ 指標: ROC, AUC, MRRなど
 ● 縦軸
 新旧モデルのオンラインでのビジネス指標 の差
 ○ 上にいくほど新モデルに比べてオンライン性能高
 ○ A/Bテストをしている
 ○ 指標: CVRなど
 
 


Slide 16

Slide 16 text

“OFFLINE MODEL PERFORMANCE IS JUST A HEALTH CHECK”


Slide 17

Slide 17 text

なぜオフラインとオンラインの結果が乖離するのか?
 考えられる要因
 ● Value Performance Saturation
 ○ あるラインまではビジネス指標とオフラインのモデル性能には正の相関があるが、そこを 超えるとそのカーブがサチる
 ● Uncanny Valley effect
 ○ 精度良すぎると逆に消費者にとって気持ち悪い 
 ● Proxy Over-optimization
 ○ 例: CTRを最大化するレコメンドは必ずしもCVRを最大化するわけではない 


Slide 18

Slide 18 text

オフライン vs オンライン問題をどう解決するか?
 A/Bテストをしまくる!!!(by booking.com)


Slide 19

Slide 19 text

A/Bテストのコスト
 基本A/Bテストをやるべきだが、、、 ● 常にプロダクト実装のコストがある ○ 事前の検証で効果がよくないとわかるのであれば, 実装する必要がない ● 新ロジックが良くない場合,売上/利益を下げてしまう ● 事前に特徴量やハイパーパラメータのチューニングができない ○ これらをA/Bテストでするにしても,パターンの数に限界 ● 結果がわかるまで時間がかかる可能性がある 19 Counterfactual(反実仮想)を考えたい!


Slide 20

Slide 20 text

● 過去のログデータを用いて、仮に新ポリシーが導入されていた場合、どの ような報酬を得ていたかを推計する
 ○ A/Bテストをする前にポリシーの評価ができる 
 ○ モデルのパフォーマンス(AUC等) でなく、報酬(興味のあるビジネス指標に近いもの) で評価
 ● しかし、ログデータは既存ポリシーが生み出したもの
 ○ バイアスが存在(既存ポリシーが選んだものにしかラベルがつかない) 
 
 
 Counterfactualを考える
 CFMLの出番!!


Slide 21

Slide 21 text

2. Netflix 
 番組のレコメンド
 
 
 ステータス 毎週見てる 95% 5回くらい見 てる 30% 知らない 72% レコメンド無の 視聴確率 95% 10% 70% レコメンド有の 視聴確率 仮に両方の確率が わかったとすると

Slide 22

Slide 22 text

2. Netflix 
 番組のレコメンド
 
 ステータス 毎週見てる 95% 5回くらい見 てる 30% 知らない 72% レコメンド無の 視聴確率 95% 10% 70% レコメンド有の 視聴確率 最も上昇幅が 大きいものを 推薦すべき

Slide 23

Slide 23 text

レコメンドにおけるUplift
 ● 推薦できるスペースには限りがある
 ● 推薦しなくても見るような番組を推薦する必要はない
 ● 推薦することによって、仮に推薦しなかった場合と比較して
 最も視聴確率が上がる(Uplift)番組を推薦したい
 ○ 反実仮想を考える必要あり
 CFMLの出番!!


Slide 24

Slide 24 text

モデリング
 従来のML
 1. p(watch)を予測するモデルを作る
 2. p(watch)が最も高い番組を推薦
 
 CFML
 1. p(watch | recommend show)とp(watch | no rec)を予測するモデルを作る
 2. lift = p(watch | rec) - p(watch | no rec)が最も高い番組を推薦
 
 ランダムにトリートメントを割り振るようなログデータが必要
 


Slide 25

Slide 25 text

3. Search engine
 ● “counterfactual machine learning” 
 というクエリに対して、どういう記事をランキン グするか?
 ● フィードバックはクリックから


Slide 26

Slide 26 text

新ランキングポリシーを考える際の問題点
 ● あるランキングに対してユーザからクリックというフィードバックをもらう
 ● click = observed ∧ relevant と仮定する
 ● 問題: クリックされていないのは、
 ユーザが見なかったからなのか関連がなかったからなのかがわからない
 not click ⇔ not observed ∨ not relevant
 ● 既存ポリシーが上位にランキングするものに正ラベルがつきやすい
 ○ 新ポリシーの学習のためには、このバイアスを補正する必要がある
 
 CFMLの出番!! 


Slide 27

Slide 27 text

CFMLのトーク/ペーパーの紹介


Slide 28

Slide 28 text

紹介するトーク/ペーパー
 ● Unbiased Evaluation for Unbiased Rankings
 ● Focused Context Balancing for Robust Offline Policy Evaluation


Slide 29

Slide 29 text

Unbiased Evaluation for Unbiased Rankings
 ● Joachimsのinvited talk
 ● Search engineのランキング問題を扱う


Slide 30

Slide 30 text

新ランキングポリシーを考える際の問題点(再掲)
 ● あるランキングに対してユーザからクリックというフィードバックをもらう
 ● click = observed ∧ relevant と仮定する
 ● 問題: クリックされていないのは、
 ユーザが見なかったからなのか関連がなかったからなのかがわからない
 not click ⇔ not observed ∨ not relevant
 ● 既存ポリシーが上位にランキングするものに正ラベルがつきやすい
 ○ 新ポリシーを学習するには、このバイアスを補正する必要がある
 


Slide 31

Slide 31 text

問題設定
 ● query: x
 ● ranking: y
 ● relevance: r
 ● observation: o
 ● loss: ⊿(y|x, r)
 ○ rank of relevant document 
 ● feedback: click, c
 ● Assume: (c = 1) ⇔ (o = 1) ∧ (r = 1)
 ● Problem: (c = 0) ⇔ (o = 0) ∨ (r = 0)


Slide 32

Slide 32 text

Inverse Propensity Score(IPS)によるバイアス補正
 ● Observation Propensitiesを定義する
 ○ 
 ● 新しいランキングポリシーのlossのIPS Estimator:
 ○ 
 ● これは真のloss⊿(y|x, r)の不偏推定量になっている
 ● 不偏なlossを用いて学習する(詳細は省略)


Slide 33

Slide 33 text

Experiments
 ● Yahoo Web Search Dataset
 ○ relevanceについての情報が完全なデータセット 
 ● 合成Clickデータを作成
 ○ position based propensity modelを考える 
 


Slide 34

Slide 34 text

Scaling with Training Set Size
 ● IPS -> 
 low bias, high variance
 ● データサイズが小さいところで は影響大
 ● データサイズが大きくなると varianceが低下


Slide 35

Slide 35 text

Increasing Click Noise


Slide 36

Slide 36 text

Misspecified Propensities
 ● clippingが有効


Slide 37

Slide 37 text

Focused Context Balancing for Robust Offline Policy Evaluation
 ● バンディットなどの新しいポリシーの報酬評価
 ● 既存手法はIPSなどで既存ポリシーによる分布シフトの影響を除去 している
 ● しかし、新ポリシーによっても分布のシフトは起こる
 ○ それらは無視されてきた
 ○ この分布シフトの影響も除去することにトライ


Slide 38

Slide 38 text

まとめ


Slide 39

Slide 39 text

まとめ
 ● CFMLはビジネスのさまざまな場面で必要とされている 
 ● 意思決定を助ける
 ○ 新ポリシーをプロダクトでA/Bテストする前にオフライン評価
 ● Upliftを考慮する
 ○ 最も反実仮想的な効果があるレコメンドを行う
 ● モデルのパフォーマンスを改善する
 ○ IPSで補正したlossでの学習


Slide 40

Slide 40 text

References (paper)
 ● Anomaly Detection for an E-commerce Pricing System
 ○ https://arxiv.org/abs/1902.09566 
 ● 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com
 ○ https://dl.acm.org/citation.cfm?doid=3292500.3330744 ● Focused Context Balancing for Robust Offline Policy Evaluation ○ https://dl.acm.org/citation.cfm?id=3330852 ● Unbiased Learning-to-Rank with Biased Feedback ○ http://www.cs.cornell.edu/people/tj/publications/joachims_etal_17a.pdf

Slide 41

Slide 41 text

References (workshop)
 ● 2nd Workshop on Offline and Online Evaluation of Interactive Systems ○ http://evalworkshop.com/2nd/index.html ● “Unbiased Evaluation for Unbiased Rankings” ○ http://evalworkshop.com/2nd/slides_unbiasedLTR_KDD19EvalWS.pdf ● “Quantifying the Impact of a Recommendation” ○ https://docs.google.com/presentation/d/1_nf7hNX8nsJIznRg4nF-dBV3btcqHSDXVwWiNVtI9M4/edit#slide=id. g5f816bccb1_0_0