CFML at KDD2019 - Speaker Deck

CFML at KDD2019

by Komei Fujita

Slide 1

Slide 1 text

CFML@KDD2019  1

Slide 2

Slide 2 text

自己紹介藤田光明(ふじたこうめい) ◉ CyberAgent18新卒 ◉ アドテクスタジオのDynalystというプロダクトに所属 ○ 広告配信ロジックの開発・実装を担当 ◉ ビジネス x 機械学習に興味あり ◉ R/Python/Scala ... ◉ 学生時代は経済学を勉強していました ○ 専門は実証産業組織論・計量経済学 2

Slide 3

Slide 3 text

この発表で話すこと  ● ビジネスの現場において、  なぜCouterfactual MLが必要とされているのか？  ● KDD2019のCFML関連の論文を簡単に紹介  ○ 特にモチベーション部分を中心に 

Slide 4

Slide 4 text

目次  ● KDD全体感  ● ビジネスとCFML  ● CFMLのトーク/ペーパーの紹介  ● まとめ   

Slide 5

Slide 5 text

KDD全体感 

Slide 6

Slide 6 text

KDDとは？  ● KDD(Knowledge Discovery and Data Mining)  ● 応用系の機械学習/データマイニングのトップカンファレンス  ● 学術機関における研究のみでなく様々な企業での研究や応用事例についての発表がある  ● 実ビジネスや社会でMLをどのように使ってどう評価するかという側面に重きが置かれている印象   

Slide 7

Slide 7 text

paper@KDD2019  ● 1179 submissions  ○ 111 accepted for oral   ○ 63 accepted for posters   ● 多かったテーマ  ○ グラフやネットワーク構造   ○ AIのexplainability   ○ Deep Learning  ● その他雑感  ○ 企業の論文多め   ○ RTB系は少ない   ○ CFML系は5本くらい？   画像はhttps://twitter.com/dirkvandenpoelから引用 

Slide 8

Slide 8 text

オンライン実験  ● 実際に提案モデルを実社会にデプロイしたという論文も多い   ○ シンプルなモデルでも採択されているのはこういうパターン   ● システムのアーキテクチャの説明もされている   ○ walmartの商品価格の異常検知の論文の例   Anomaly Detection for an E-commerce Pricing System  

Slide 9

Slide 9 text

Tutorial / Workshop  ● 8/4 tutorial day, 8/5 workshop day  ● tutorial  ○ A/Bテストのtutorialが2つも  ○ hands onのチュートリアルもある  ● workshop  ○ ADKDD (since 2007)  ■ criteo, google, Microsoft, Tencentなどが発表   ○ オフライン評価系のwsもある  画像はhttps://twitter.com/dirkvandenpoelから引用 

Slide 10

Slide 10 text

Offline and Online Evaluation of Interactive Systems  ● オフライン評価系のワークショップ(2回目)  ○ http://evalworkshop.com/2nd/index.html  ● 発表企業  ○ Netflix, Intel, Google, Adobe, Linkedinなど  ● Keynote Speaker  ○ Thorsten Joachims: コーネル大、CFML系の大御所など 

Slide 11

Slide 11 text

ビジネスとCFML 

Slide 12

Slide 12 text

実ビジネスでCFMLが必要とされる理由は？  事例をいくつか紹介する  1. Booking.com (for 意思決定) “150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com” 2. Netflix (for Uplift) “Quantifying the Impact of a Recommendation” 3. Search engine (for モデルのパフォーマンス改善) “Unbiased Evaluation for Unbiased Rankings”

Slide 13

Slide 13 text

1. Booking.com 

Slide 14

Slide 14 text

Q. これは何の図でしょう？ 

Slide 15

Slide 15 text

A. オフラインのモデルパフォーマンスとオンラインでのビジネス指標の関係  相関係数 ≒ -0.1  ● 横軸   新旧モデルのAUC等の差  ○ 右にいくほど旧モデルに比べてオフライン性能高  ○ 指標: ROC, AUC, MRRなど  ● 縦軸  新旧モデルのオンラインでのビジネス指標の差  ○ 上にいくほど新モデルに比べてオンライン性能高  ○ A/Bテストをしている  ○ 指標: CVRなど     

Slide 16

Slide 16 text

“OFFLINE MODEL PERFORMANCE IS JUST A HEALTH CHECK” 

Slide 17

Slide 17 text

なぜオフラインとオンラインの結果が乖離するのか？  考えられる要因  ● Value Performance Saturation  ○ あるラインまではビジネス指標とオフラインのモデル性能には正の相関があるが、そこを超えるとそのカーブがサチる  ● Uncanny Valley effect  ○ 精度良すぎると逆に消費者にとって気持ち悪い   ● Proxy Over-optimization  ○ 例: CTRを最大化するレコメンドは必ずしもCVRを最大化するわけではない  

Slide 18

Slide 18 text

オフライン vs オンライン問題をどう解決するか？  A/Bテストをしまくる！！！(by booking.com) 

Slide 19

Slide 19 text

A/Bテストのコスト  基本A/Bテストをやるべきだが、、、 ● 常にプロダクト実装のコストがある ○ 事前の検証で効果がよくないとわかるのであれば，実装する必要がない ● 新ロジックが良くない場合，売上/利益を下げてしまう ● 事前に特徴量やハイパーパラメータのチューニングができない ○ これらをA/Bテストでするにしても，パターンの数に限界 ● 結果がわかるまで時間がかかる可能性がある 19 Counterfactual(反実仮想)を考えたい！ 

Slide 20

Slide 20 text

● 過去のログデータを用いて、仮に新ポリシーが導入されていた場合、どのような報酬を得ていたかを推計する  ○ A/Bテストをする前にポリシーの評価ができる   ○ モデルのパフォーマンス(AUC等) でなく、報酬(興味のあるビジネス指標に近いもの) で評価  ● しかし、ログデータは既存ポリシーが生み出したもの  ○ バイアスが存在（既存ポリシーが選んだものにしかラベルがつかない）       Counterfactualを考える  CFMLの出番！！ 

Slide 21

Slide 21 text

2. Netflix   番組のレコメンド      ステータス毎週見てる 95% 5回くらい見てる 30% 知らない 72% レコメンド無の視聴確率 95% 10% 70% レコメンド有の視聴確率仮に両方の確率がわかったとすると

Slide 22

Slide 22 text

2. Netflix   番組のレコメンド    ステータス毎週見てる 95% 5回くらい見てる 30% 知らない 72% レコメンド無の視聴確率 95% 10% 70% レコメンド有の視聴確率最も上昇幅が大きいものを推薦すべき

Slide 23

Slide 23 text

レコメンドにおけるUplift  ● 推薦できるスペースには限りがある  ● 推薦しなくても見るような番組を推薦する必要はない  ● 推薦することによって、仮に推薦しなかった場合と比較して  最も視聴確率が上がる(Uplift)番組を推薦したい  ○ 反実仮想を考える必要あり  CFMLの出番！！ 

Slide 24

Slide 24 text

モデリング  従来のML  1. p(watch)を予測するモデルを作る  2. p(watch)が最も高い番組を推薦    CFML  1. p(watch | recommend show)とp(watch | no rec)を予測するモデルを作る  2. lift = p(watch | rec) - p(watch | no rec)が最も高い番組を推薦    ランダムにトリートメントを割り振るようなログデータが必要   

Slide 25

Slide 25 text

3. Search engine  ● “counterfactual machine learning”   というクエリに対して、どういう記事をランキングするか？  ● フィードバックはクリックから 

Slide 26

Slide 26 text

新ランキングポリシーを考える際の問題点  ● あるランキングに対してユーザからクリックというフィードバックをもらう  ● click = observed ∧ relevant と仮定する  ● 問題: クリックされていないのは、  ユーザが見なかったからなのか関連がなかったからなのかがわからない  not click ⇔ not observed ∨ not relevant  ● 既存ポリシーが上位にランキングするものに正ラベルがつきやすい  ○ 新ポリシーの学習のためには、このバイアスを補正する必要がある    CFMLの出番！！  

Slide 27

Slide 27 text

CFMLのトーク/ペーパーの紹介 

Slide 28

Slide 28 text

紹介するトーク/ペーパー  ● Unbiased Evaluation for Unbiased Rankings  ● Focused Context Balancing for Robust Offline Policy Evaluation 

Slide 29

Slide 29 text

Unbiased Evaluation for Unbiased Rankings  ● Joachimsのinvited talk  ● Search engineのランキング問題を扱う 

Slide 30

Slide 30 text

新ランキングポリシーを考える際の問題点(再掲)  ● あるランキングに対してユーザからクリックというフィードバックをもらう  ● click = observed ∧ relevant と仮定する  ● 問題: クリックされていないのは、  ユーザが見なかったからなのか関連がなかったからなのかがわからない  not click ⇔ not observed ∨ not relevant  ● 既存ポリシーが上位にランキングするものに正ラベルがつきやすい  ○ 新ポリシーを学習するには、このバイアスを補正する必要がある   

Slide 31

Slide 31 text

問題設定  ● query: x  ● ranking: y  ● relevance: r  ● observation: o  ● loss: ⊿(y|x, r)  ○ rank of relevant document   ● feedback: click, c  ● Assume: (c = 1) ⇔ (o = 1) ∧ (r = 1)  ● Problem: (c = 0) ⇔ (o = 0) ∨ (r = 0) 

Slide 32

Slide 32 text

Inverse Propensity Score(IPS)によるバイアス補正  ● Observation Propensitiesを定義する  ○   ● 新しいランキングポリシーのlossのIPS Estimator:  ○   ● これは真のloss⊿(y|x, r)の不偏推定量になっている  ● 不偏なlossを用いて学習する（詳細は省略） 

Slide 33

Slide 33 text

Experiments  ● Yahoo Web Search Dataset  ○ relevanceについての情報が完全なデータセット   ● 合成Clickデータを作成  ○ position based propensity modelを考える    

Slide 34

Slide 34 text

Scaling with Training Set Size  ● IPS ->   low bias, high variance  ● データサイズが小さいところでは影響大  ● データサイズが大きくなると varianceが低下 

Slide 35

Slide 35 text

Increasing Click Noise 

Slide 36

Slide 36 text

Misspecified Propensities  ● clippingが有効 

Slide 37

Slide 37 text

Focused Context Balancing for Robust Offline Policy Evaluation  ● バンディットなどの新しいポリシーの報酬評価  ● 既存手法はIPSなどで既存ポリシーによる分布シフトの影響を除去している  ● しかし、新ポリシーによっても分布のシフトは起こる  ○ それらは無視されてきた  ○ この分布シフトの影響も除去することにトライ 

Slide 38

Slide 38 text

まとめ 

Slide 39

Slide 39 text

まとめ  ● CFMLはビジネスのさまざまな場面で必要とされている   ● 意思決定を助ける  ○ 新ポリシーをプロダクトでA/Bテストする前にオフライン評価  ● Upliftを考慮する  ○ 最も反実仮想的な効果があるレコメンドを行う  ● モデルのパフォーマンスを改善する  ○ IPSで補正したlossでの学習 

Slide 40

Slide 40 text

References (paper)  ● Anomaly Detection for an E-commerce Pricing System  ○ https://arxiv.org/abs/1902.09566   ● 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com  ○ https://dl.acm.org/citation.cfm?doid=3292500.3330744 ● Focused Context Balancing for Robust Offline Policy Evaluation ○ https://dl.acm.org/citation.cfm?id=3330852 ● Unbiased Learning-to-Rank with Biased Feedback ○ http://www.cs.cornell.edu/people/tj/publications/joachims_etal_17a.pdf

Slide 41

Slide 41 text

References (workshop)  ● 2nd Workshop on Offline and Online Evaluation of Interactive Systems ○ http://evalworkshop.com/2nd/index.html ● “Unbiased Evaluation for Unbiased Rankings” ○ http://evalworkshop.com/2nd/slides_unbiasedLTR_KDD19EvalWS.pdf ● “Quantifying the Impact of a Recommendation” ○ https://docs.google.com/presentation/d/1_nf7hNX8nsJIznRg4nF-dBV3btcqHSDXVwWiNVtI9M4/edit#slide=id. g5f816bccb1_0_0