CFML at KDD2019

CFML@KDD2019  1

自己紹介藤田光明(ふじたこうめい) ◉ CyberAgent18新卒 ◉ アドテクスタジオのDynalystというプロダクトに所属 ◦ 広告配信ロジックの開発・実装を担当
◉ ビジネス x 機械学習に興味あり ◉ R/Python/Scala ... ◉ 学生時代は経済学を勉強していました ◦ 専門は実証産業組織論・計量経済学 2

この発表で話すこと  • ビジネスの現場において、  なぜCouterfactual MLが必要とされているのか？  • KDD2019のCFML関連の論文を簡単に紹介  ◦ 特にモチベーション部分を中心に 

目次  • KDD全体感  • ビジネスとCFML  • CFMLのトーク/ペーパーの紹介  • まとめ   

KDD全体感 

KDDとは？  • KDD(Knowledge Discovery and Data Mining)  • 応用系の機械学習/データマイニングのトップカンファレンス  •
学術機関における研究のみでなく様々な企業での研究や応用事例についての発表がある  • 実ビジネスや社会でMLをどのように使ってどう評価するかという側面に重きが置かれている印象   

paper@KDD2019  • 1179 submissions  ◦ 111 accepted for oral  
◦ 63 accepted for posters   • 多かったテーマ  ◦ グラフやネットワーク構造   ◦ AIのexplainability   ◦ Deep Learning  • その他雑感  ◦ 企業の論文多め   ◦ RTB系は少ない   ◦ CFML系は5本くらい？   画像はhttps://twitter.com/dirkvandenpoelから引用 

オンライン実験  • 実際に提案モデルを実社会にデプロイしたという論文も多い   ◦ シンプルなモデルでも採択されているのはこういうパターン   • システムのアーキテクチャの説明もされている  
◦ walmartの商品価格の異常検知の論文の例   Anomaly Detection for an E-commerce Pricing System  

Tutorial / Workshop  • 8/4 tutorial day, 8/5 workshop day 
• tutorial  ◦ A/Bテストのtutorialが2つも  ◦ hands onのチュートリアルもある  • workshop  ◦ ADKDD (since 2007)  ▪ criteo, google, Microsoft, Tencentなどが発表   ◦ オフライン評価系のwsもある  画像はhttps://twitter.com/dirkvandenpoelから引用 

Offline and Online Evaluation of Interactive Systems  • オフライン評価系のワークショップ(2回目)  ◦
http://evalworkshop.com/2nd/index.html  • 発表企業  ◦ Netflix, Intel, Google, Adobe, Linkedinなど  • Keynote Speaker  ◦ Thorsten Joachims: コーネル大、CFML系の大御所など 

ビジネスとCFML 

実ビジネスでCFMLが必要とされる理由は？  事例をいくつか紹介する  1. Booking.com (for 意思決定) “150 Successful Machine Learning
Models: 6 Lessons Learned at Booking.com” 2. Netflix (for Uplift) “Quantifying the Impact of a Recommendation” 3. Search engine (for モデルのパフォーマンス改善) “Unbiased Evaluation for Unbiased Rankings”

1. Booking.com 

Q. これは何の図でしょう？ 

A. オフラインのモデルパフォーマンスとオンラインでのビジネス指標の関係  相関係数 ≒ -0.1  • 横軸   新旧モデルのAUC等の差  ◦
右にいくほど旧モデルに比べてオフライン性能高  ◦ 指標: ROC, AUC, MRRなど  • 縦軸  新旧モデルのオンラインでのビジネス指標の差  ◦ 上にいくほど新モデルに比べてオンライン性能高  ◦ A/Bテストをしている  ◦ 指標: CVRなど     

“OFFLINE MODEL PERFORMANCE IS JUST A HEALTH CHECK” 

なぜオフラインとオンラインの結果が乖離するのか？  考えられる要因  • Value Performance Saturation  ◦ あるラインまではビジネス指標とオフラインのモデル性能には正の相関があるが、そこを超えるとそのカーブがサチる  •
Uncanny Valley effect  ◦ 精度良すぎると逆に消費者にとって気持ち悪い   • Proxy Over-optimization  ◦ 例: CTRを最大化するレコメンドは必ずしもCVRを最大化するわけではない  

オフライン vs オンライン問題をどう解決するか？  A/Bテストをしまくる！！！(by booking.com) 

A/Bテストのコスト  基本A/Bテストをやるべきだが、、、 • 常にプロダクト実装のコストがある ◦ 事前の検証で効果がよくないとわかるのであれば，実装する必要がない • 新ロジックが良くない場合，売上/利益を下げてしまう •
事前に特徴量やハイパーパラメータのチューニングができない ◦ これらをA/Bテストでするにしても，パターンの数に限界 • 結果がわかるまで時間がかかる可能性がある 19 Counterfactual(反実仮想)を考えたい！ 

• 過去のログデータを用いて、仮に新ポリシーが導入されていた場合、どのような報酬を得ていたかを推計する  ◦ A/Bテストをする前にポリシーの評価ができる   ◦ モデルのパフォーマンス(AUC等) でなく、報酬(興味のあるビジネス指標に近いもの) で評価 
• しかし、ログデータは既存ポリシーが生み出したもの  ◦ バイアスが存在（既存ポリシーが選んだものにしかラベルがつかない）       Counterfactualを考える  CFMLの出番！！ 

2. Netflix   番組のレコメンド      ステータス毎週見てる 95% 5回くらい見
てる 30% 知らない 72% レコメンド無の視聴確率 95% 10% 70% レコメンド有の視聴確率仮に両方の確率がわかったとすると

2. Netflix   番組のレコメンド    ステータス毎週見てる 95% 5回くらい見てる
30% 知らない 72% レコメンド無の視聴確率 95% 10% 70% レコメンド有の視聴確率最も上昇幅が大きいものを推薦すべき

レコメンドにおけるUplift  • 推薦できるスペースには限りがある  • 推薦しなくても見るような番組を推薦する必要はない  • 推薦することによって、仮に推薦しなかった場合と比較して  最も視聴確率が上がる(Uplift)番組を推薦したい  ◦ 反実仮想を考える必要あり 
CFMLの出番！！ 

モデリング  従来のML  1. p(watch)を予測するモデルを作る  2. p(watch)が最も高い番組を推薦    CFML  1. p(watch
| recommend show)とp(watch | no rec)を予測するモデルを作る  2. lift = p(watch | rec) - p(watch | no rec)が最も高い番組を推薦    ランダムにトリートメントを割り振るようなログデータが必要   

3. Search engine  • “counterfactual machine learning”   というクエリに対して、どういう記事をランキングするか？ 
• フィードバックはクリックから 

新ランキングポリシーを考える際の問題点  • あるランキングに対してユーザからクリックというフィードバックをもらう  • click = observed ∧ relevant と仮定する 
• 問題: クリックされていないのは、  ユーザが見なかったからなのか関連がなかったからなのかがわからない  not click ⇔ not observed ∨ not relevant  • 既存ポリシーが上位にランキングするものに正ラベルがつきやすい  ◦ 新ポリシーの学習のためには、このバイアスを補正する必要がある    CFMLの出番！！  

CFMLのトーク/ペーパーの紹介 

紹介するトーク/ペーパー  • Unbiased Evaluation for Unbiased Rankings  • Focused Context
Balancing for Robust Offline Policy Evaluation 

Unbiased Evaluation for Unbiased Rankings  • Joachimsのinvited talk  • Search
engineのランキング問題を扱う 

新ランキングポリシーを考える際の問題点(再掲)  • あるランキングに対してユーザからクリックというフィードバックをもらう  • click = observed ∧ relevant と仮定する 
• 問題: クリックされていないのは、  ユーザが見なかったからなのか関連がなかったからなのかがわからない  not click ⇔ not observed ∨ not relevant  • 既存ポリシーが上位にランキングするものに正ラベルがつきやすい  ◦ 新ポリシーを学習するには、このバイアスを補正する必要がある   

問題設定  • query: x  • ranking: y  • relevance: r 
• observation: o  • loss: ⊿(y|x, r)  ◦ rank of relevant document   • feedback: click, c  • Assume: (c = 1) ⇔ (o = 1) ∧ (r = 1)  • Problem: (c = 0) ⇔ (o = 0) ∨ (r = 0) 

Inverse Propensity Score(IPS)によるバイアス補正  • Observation Propensitiesを定義する  ◦   • 新しいランキングポリシーのlossのIPS
Estimator:  ◦   • これは真のloss⊿(y|x, r)の不偏推定量になっている  • 不偏なlossを用いて学習する（詳細は省略） 

Experiments  • Yahoo Web Search Dataset  ◦ relevanceについての情報が完全なデータセット   •
合成Clickデータを作成  ◦ position based propensity modelを考える    

Scaling with Training Set Size  • IPS ->   low
bias, high variance  • データサイズが小さいところでは影響大  • データサイズが大きくなると varianceが低下 

Increasing Click Noise 

Misspecified Propensities  • clippingが有効 

Focused Context Balancing for Robust Offline Policy Evaluation  • バンディットなどの新しいポリシーの報酬評価 
• 既存手法はIPSなどで既存ポリシーによる分布シフトの影響を除去している  • しかし、新ポリシーによっても分布のシフトは起こる  ◦ それらは無視されてきた  ◦ この分布シフトの影響も除去することにトライ 

まとめ 

まとめ  • CFMLはビジネスのさまざまな場面で必要とされている   • 意思決定を助ける  ◦ 新ポリシーをプロダクトでA/Bテストする前にオフライン評価  • Upliftを考慮する 
◦ 最も反実仮想的な効果があるレコメンドを行う  • モデルのパフォーマンスを改善する  ◦ IPSで補正したlossでの学習 

References (paper)  • Anomaly Detection for an E-commerce Pricing System 
◦ https://arxiv.org/abs/1902.09566   • 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com  ◦ https://dl.acm.org/citation.cfm?doid=3292500.3330744 • Focused Context Balancing for Robust Offline Policy Evaluation ◦ https://dl.acm.org/citation.cfm?id=3330852 • Unbiased Learning-to-Rank with Biased Feedback ◦ http://www.cs.cornell.edu/people/tj/publications/joachims_etal_17a.pdf

References (workshop)  • 2nd Workshop on Offline and Online Evaluation
of Interactive Systems ◦ http://evalworkshop.com/2nd/index.html • “Unbiased Evaluation for Unbiased Rankings” ◦ http://evalworkshop.com/2nd/slides_unbiasedLTR_KDD19EvalWS.pdf • “Quantifying the Impact of a Recommendation” ◦ https://docs.google.com/presentation/d/1_nf7hNX8nsJIznRg4nF-dBV3btcqHSDXVwWiNVtI9M4/edit#slide=id. g5f816bccb1_0_0

CFML at KDD2019

CFML at KDD2019

More Decks by Komei Fujita

Other Decks in Technology

Featured

Transcript