[論文紹介] Field-aware Probabilistic Embedding Neural Network for CTR Prediction [RecSys 2018] / Paper summary of Field-aware Probabilistic Embedding Neural Network for CTR Prediction

Field-aware Probabilistic Embedding Neural Network for CTR Prediction Weiwen Liu1,
Ruiming Tang2, Jiajin Li1, Jinkai Yu2, Huifeng Guo3, Xiuqiang He4, Shengyu Zhang1,5 1The Chinese University of Hong Kong, 2Noah’s Ark Lab, Huawei, 3Shenzhen Graduate School, Harbin Institute of Technology, 4Data service center, MIG, Tencent, 5Tencent Quantum Lab, Tencent Presented by Shunsuke KITADA Gunosy DM in Gunosy Inc. Dec 6, 2018

自己紹介 2 • 北田俊輔 (Shunsuke KITADA) @shunk031 shunk031 ◦
法政大学大学院理工学研究科 M1 彌冨研所属 ▪ 文字形状に着目した CJK 自然言語処理 ▪ 皮膚障害画像を用いた自動診断システムの構築 ▪ 広告自動生成に向けた基礎研究 ◦ 100本程度読んだ論文のサマリを公開しています https://shunk031.github.io/paper-survey/

文献情報 Liu, Weiwen and Tang, Ruiming and Li, Jiajin and
Yu, Jinkai and Guo, Huifeng and He, Xiuqiang and Zhang, Shengyu "Field-aware Probabilistic Embedding Neural Network for CTR Prediction" Proceedings of the 12th ACM Conference on Recommender Systems (RecSys) 2018 https://dl.acm.org/citation.cfm?id=3240396 3

TL;DR • CTR予測のためのモデル “Field-aware Probabilistic Embedding Neural Network” (FPENN) を提案
◦ 先行研究と比べて高い精度・汎化性能の向上を確認 ◦ 確率的埋め込みを導入し特徴表現の確率的振る舞いを学習 ◦ 低次元・高次元の相互作用をそれぞれを効果的に学習する複数のコンポーネントを内包したアーキテクチャ • この論文を選んだ理由 ◦ 情報推薦・推薦システムのトップカンファレンスである RecSysにて採択されている ◦ 近年のCTR予測モデルがどのようなものか知りたかった 4

Introduction • Click-Through Rate (CTR) 予測 ◦ 検索・レコメンド・オンライン広告において重要 ▪ システムがクリックされやすい商品を表示可能
• CTR予測の鍵は特徴の”選択”と”組み合わせ” ◦ ロジスティック回帰 (LR) [Richardson+ 2007] Factorization Machine (FM) [Rendie 2010] ▪ CTR予測で頻繁に用いられるshallowなモデル • 一般的な線形の特徴を捉えることが可能 • 簡単に実装が可能で計算量が少ない ✗ 高次元特徴の表現能力に乏しい 5 Introduction > Model > Experiments > Conclusion [Richardson+ 2007] Richardson, Matthew, Ewa Dominowska, and Robert Ragno. "Predicting clicks: estimating the click-through rate for new ads." Proceedings of the 16th international conference on World Wide Web. ACM, 2007. [Rendie, 2010] Rendle, Steffen. "Factorization machines." Data Mining (ICDM), 2010 IEEE 10th International Conference on. IEEE, 2010.

[Convington+ 2016] Covington, Paul, et al. "Deep neural networks for
youtube recommendations." Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016. [Lie+ 2015] Liu, Qiang et al. "A convolutional click prediction model." Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. ACM, 2015. [Qu+ 2016] Qu, Yanru et al.. “Product-based neural networks for user response prediction." Data Mining (ICDM), 2016 IEEE 16th International Conference on. IEEE, 2016. [Shan+ 2016] Shan, Ying, et al. "Deep crossing: Web-scale modeling without manually crafted combinatorial features." Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016. [Xiao+ 2017] Xiao, Jun, et al. "Attentional factorization machines: Learning the weight of feature interactions via attention networks." arXiv preprint arXiv:1708.04617 (2017). [Zhang+ 2016] Zhang, Weinan et al. "Deep learning over multi-field categorical data." European conference on information retrieval. Springer, Cham, 2016. [Zhou+ 2018] Zhou, Guorui, et al. "Deep interest network for click-through rate prediction." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018. [Cheng+ 2016] Cheng, Heng-Tze, et al. "Wide & deep learning for recommender systems." Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. ACM, 2016. [Guo+ 2017] Guo, Huifeng, et al. "DeepFM: a factorization-machine based neural network for CTR prediction." Proceedings of the 26th International Joint Conference on Artificial Intelligence. AAAI Press, 2017. Introduction • 近年提案されているCTR予測モデル ◦ 深層学習ベースの手法 [Convington+ 2016; Liu+ 2015; Shan+ 2016; Xiao+ 2017; Zhang+ 2016; Zhou+ 2018] ✗ 偏った高次元特徴の相互作用を学習してしまったりシンプルな低次元特徴を捉えられなかったりする ◦ 高次元特徴・低次元特徴の相互作用を捉えるモデル ▪ Wide & Deep [Cheng+ 2016] ▪ Deep FM [Guo+ 2017] 6 Introduction > Model > Experiments > Conclusion ✗ CTR予測に有効なフィールド情報を有効活用できていない

[Juan+ 2016] Juan, Yuchin, et al. "Field-aware factorization machines for
CTR prediction." Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016. Introduction • “Field-aware”な手法の登場 ◦ Field-aware Factorization Machines (FFM) [Juan+ 2016] ▪ CTR予測の精度向上のためにFMを拡張したモデル • Avazu・Criteo主催のコンペティションでSoTA • 意味的に似ている特徴量をグループ化し異なる特徴量どうしの相互作用を捉える手法 7 Introduction > Model > Experiments > Conclusion ✗ 容易に過学習してしまう傾向があるFFM ◦ 学習を進めるにつれてノイズにもフィットしてしまう ✗ 学習を止めるタイミングを見極めるのは困難 ✗ 止めるタイミングを間違えると精度が劇的に下落

Introduction • 先行研究の問題点を解決する “Field-aware Probabilistic Embedding” (FPE) を提案 ◦ 点推定の代わりに”埋め込みの確率分布”を推定
◦ 先行研究のdeterministicな手法と比較すると Probabilistic Embeddingは以下の利点がある： ▪ 事前知識の導入が正則化として働き過学習を抑制 ▪ 分布の平均や分散等を考慮して学習 • 分散が大きい場合は、推定される平均値の信頼性が低いことが確認可能 • 信頼性の低い平均値を扱う場合は TS-strategy・UCB-strategy を用いて推定値を修正 8 Introduction > Model > Experiments > Conclusion

Model • FPENN のモデルアーキテクチャ ◦ Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習
◦ 3つのコンポーネントで多様な特徴を学習 ▪ Linear term (LN) ▪ Quadratic term (QDR) ▪ Deep NN term (DNN) ◦ 埋め込みを確率分布としたときの学習手法の適用 ▪ Reparameterization trick [Kingma+ 2013; Ruiz+ 2016] 9 Introduction > Model > Experiments > Conclusion [Kingma+ 2013] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013). [Ruiz+ 2016] Ruiz, Francisco R., Michalis Titsias RC AUEB, and David Blei. "The generalized reparameterization gradient." Advances in neural information processing systems. 2016.

Model • Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習高次元で疎な入力を低次元で密な埋め込み表現として学習 ◦
埋め込み行列Vの平均・分散からなる確率分布を用いて確率的な振る舞いを導入 11 Introduction > Model > Experiments > Conclusion このままでは誤差逆伝播法による学習が不可能 ◦ ランダム性を導入することでモデルをロバストに

Model • Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習 Reparameterization trickを用いてFPEの学習を行う
◦ 埋め込み行列Vの平均・分散を持つ正規分布から埋め込み表現をサンプリングする場合誤差逆伝播が不可能 12 Introduction > Model > Experiments > Conclusion ◦ Reparameterization trick　 [Kingma+ 2013; Ruiz+ 2016] を適用することで以下の式に変形することができる：誤差逆伝搬による学習が可能

Model • Field-aware Probabilistic Embedding (FPE) による確率的埋め込みを用いた推論埋め込みの平均・分散情報の利用と過学習問題に対する戦略 ◦
TS-strategy (TS: Thompson Sampling) ▪ Thompson Samplingに従って、学習した埋め込み行列から埋め込み表現を得る： ◦ UCB-strategy (UCB: Upper Confidence Bound) ▪ Upper Confidence Boundに従って、学習した埋め込み行列から埋め込み表現を得る： 13 Introduction > Model > Experiments > Conclusion

Model • 3つのコンポーネントで多様な特徴を学習 ⭕ 低次元の相互作用を捉える Linear Component ⭕ 2次の相互作用を捉える Quadratic
Component 16 Introduction > Model > Experiments > Conclusion ⭕ 高次元の相互作用を捉える Deep Component

Experiments 17 Introduction > Model > Experiments > Conclusion •
実験設定 ◦ 対象の広告がクリックされたorされないの2値分類 • ハイパーパラメータ ◦ バッチサイズ：2,000、dropout率：0.2 ◦ 最適化手法は Adam [Kingma+ 2014] で学習率は 0.001 ◦ validでハイパーパラメータをチューニング • 評価方法 ◦ データセットを train : test = 8 : 2 で分割 ▪ train のうち20%を valid として使用 ◦ AUC (Area Under Curve) および Logloss (cross entropy) [Kingma+ 2014] Kingma, Diederik P., and Jimmy Ba. "Adam: A method for stochastic optimization." arXiv preprint arXiv:1412.6980 (2014).

データセットについて ◦ Avazu* dataset ▪ 40,000,000 レコード (24 カラム) からなるデータ ▪ 出現が 20 回より少ない特徴は1つにまとめた • 最終的に 645,195 特徴が得られた ◦ Criteo** dataset ▪ “day 6” から “day 13” までのデータを使用 (39 カラム) ▪ 最初の7日間で学習を行い、最終日でテスト ▪ 不均衡データのためダウンサンプリング ▪ 出現が20回より少ない特徴は1つにまとめた • 最終的に 1,178,909 特徴が得られた * https://www.kaggle.com/c/avazu-ctr-prediction ** http://labs.criteo.com/2013/12/download-terabyte-click-logs

比較手法について ◦ ロジスティック回帰 (LR) ◦ Factorization Machine (FM) ◦ Field-aware Factorization Machine (FFM) ◦ CCPM [Liu+ 2015] ▪ Convolutional Neural Network (CNN) ベースのモデル ◦ DeepFM [Guo+ 2017] ▪ FMとdeep learningの性質を併せ持ったモデル • (TS|UCB)-strategy の設定について ◦ 両者実験を行ったところUCBのほうが性能が良かった ▪ TSは過度なランダム性が性能を落としているのでは [Liu+ 2015] Liu, Qiang, et al. "A convolutional click prediction model." Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. ACM, 2015. [Guo+ 2017] Guo, Huifeng, et al. "Deepfm: a factorization-machine based neural network for ctr prediction." arXiv preprint arXiv:1703.04247 (2017). 以降、実験結果はUCB-strategyを用いたものを示す

汎化性能について (FPENN vs FFM) ◦ 提案手法であるFPENNは既存のFFMと比べて、学習を進めても過学習に陥りにくい ▪ モデルに事前知識を導入しているため過学習を抑止 ▪ FPENNに正則化を加えることで、より精度が安定

予測精度について ◦ 提案手法のFPENNがすべてのベースラインを超えた ▪ CCPMはFMをoutperformしたがFFMよりかは低い • CNNベースのモデルは近傍の特徴に影響を受ける ▪ FFMとDeepFMがよい性能を示した • Field-awareな特徴をよりよく捉えているのでは

Conclusion 22 Introduction > Model > Experiments > Conclusion •
Field-aware Probabilistic Embedding Neural Network (FPENN) を提案 ◦ 先行研究より汎化性能が高いモデルを構築 ▪ 学習時にランダム性を導入しモデルをロバストにした ▪ 複数のコンポーネントを用いて様々な相互作用を学習 • 気になった点 ◦ 未知の特徴量に対してFPEを適用する場合の処理 ◦ CTR予測の際のレスポンス速度について ▪ 文中に“50〜100ミリ秒以内に200〜300アプリのCTR値を予測”と書いてあったがはたして

[論文紹介] Field-aware Probabilistic Embedding Neur...

[論文紹介] Field-aware Probabilistic Embedding Neural Network for CTR Prediction [RecSys 2018] / Paper summary of Field-aware Probabilistic Embedding Neural Network for CTR Prediction

Shunsuke KITADA

More Decks by Shunsuke KITADA

Other Decks in Research

Featured

Transcript

Field-aware Probabilistic Embedding Neural Network for CTR Prediction Weiwen Liu1,

自己紹介 2 • 北田俊輔 (Shunsuke KITADA) @shunk031 shunk031 ◦

文献情報 Liu, Weiwen and Tang, Ruiming and Li, Jiajin and

TL;DR • CTR予測のためのモデル “Field-aware Probabilistic Embedding Neural Network” (FPENN) を提案

Introduction • Click-Through Rate (CTR) 予測 ◦ 検索・レコメンド・オンライン広告において重要 ▪ システムがクリックされやすい商品を表示可能

[Convington+ 2016] Covington, Paul, et al. "Deep neural networks for

[Juan+ 2016] Juan, Yuchin, et al. "Field-aware factorization machines for

Introduction • 先行研究の問題点を解決する “Field-aware Probabilistic Embedding” (FPE) を提案 ◦ 点推定の代わりに”埋め込みの確率分布”を推定

Model • FPENN のモデルアーキテクチャ ◦ Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習

Model • FPENN のモデルアーキテクチャ ◦ Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習

Model • Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習高次元で疎な入力を低次元で密な埋め込み表現として学習 ◦

Model • Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習 Reparameterization trickを用いてFPEの学習を行う

Model • Field-aware Probabilistic Embedding (FPE) による確率的埋め込みを用いた推論埋め込みの平均・分散情報の利用と過学習問題に対する戦略 ◦

Model • FPENN のモデルアーキテクチャ ◦ Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習

Model • FPENN のモデルアーキテクチャ ◦ Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習

Model • 3つのコンポーネントで多様な特徴を学習 ⭕ 低次元の相互作用を捉える Linear Component ⭕ 2次の相互作用を捉える Quadratic

Experiments 17 Introduction > Model > Experiments > Conclusion •

Experiments 18 Introduction > Model > Experiments > Conclusion •

Experiments 19 Introduction > Model > Experiments > Conclusion •

Experiments 20 Introduction > Model > Experiments > Conclusion •

Experiments 21 Introduction > Model > Experiments > Conclusion •

Conclusion 22 Introduction > Model > Experiments > Conclusion •