[論文紹介] Field-aware Probabilistic Embedding Neural Network for CTR Prediction [RecSys 2018] / Paper summary of Field-aware Probabilistic Embedding Neural Network for CTR Prediction

09ed5afcc83ed2abfea708651c975882?s=47 Shunsuke KITADA
December 06, 2018

[論文紹介] Field-aware Probabilistic Embedding Neural Network for CTR Prediction [RecSys 2018] / Paper summary of Field-aware Probabilistic Embedding Neural Network for CTR Prediction

2018/12/06 社内 Gunosy DM で発表した論文紹介のスライドです。

09ed5afcc83ed2abfea708651c975882?s=128

Shunsuke KITADA

December 06, 2018
Tweet

Transcript

  1. Field-aware Probabilistic Embedding Neural Network for CTR Prediction Weiwen Liu1,

    Ruiming Tang2, Jiajin Li1, Jinkai Yu2, Huifeng Guo3, Xiuqiang He4, Shengyu Zhang1,5 1The Chinese University of Hong Kong, 2Noah’s Ark Lab, Huawei, 3Shenzhen Graduate School, Harbin Institute of Technology, 4Data service center, MIG, Tencent, 5Tencent Quantum Lab, Tencent Presented by Shunsuke KITADA Gunosy DM in Gunosy Inc. Dec 6, 2018
  2. 自己紹介 2 • 北田 俊輔 (Shunsuke KITADA) @shunk031 shunk031 ◦

    法政大学大学院 理工学研究科 M1 彌冨研 所属 ▪ 文字形状に着目した CJK 自然言語処理 ▪ 皮膚障害画像を用いた自動診断システムの構築 ▪ 広告自動生成に向けた基礎研究 ◦ 100本程度読んだ論文のサマリを公開しています https://shunk031.github.io/paper-survey/
  3. 文献情報 Liu, Weiwen and Tang, Ruiming and Li, Jiajin and

    Yu, Jinkai and Guo, Huifeng and He, Xiuqiang and Zhang, Shengyu "Field-aware Probabilistic Embedding Neural Network for CTR Prediction" Proceedings of the 12th ACM Conference on Recommender Systems (RecSys) 2018 https://dl.acm.org/citation.cfm?id=3240396 3
  4. TL;DR • CTR予測のためのモデル “Field-aware Probabilistic Embedding Neural Network” (FPENN) を提案

    ◦ 先行研究と比べて高い精度・汎化性能の向上を確認 ◦ 確率的埋め込みを導入し特徴表現の確率的振る舞いを学習 ◦ 低次元・高次元の相互作用をそれぞれを効果的に学習する 複数のコンポーネントを内包したアーキテクチャ • この論文を選んだ理由 ◦ 情報推薦・推薦システムのトップカンファレンスである RecSysにて採択されている ◦ 近年のCTR予測モデルがどのようなものか知りたかった 4
  5. Introduction • Click-Through Rate (CTR) 予測 ◦ 検索・レコメンド・オンライン広告において重要 ▪ システムがクリックされやすい商品を表示可能

    • CTR予測の鍵は特徴の”選択”と”組み合わせ” ◦ ロジスティック回帰 (LR) [Richardson+ 2007] Factorization Machine (FM) [Rendie 2010] ▪ CTR予測で頻繁に用いられるshallowなモデル • 一般的な線形の特徴を捉えることが可能 • 簡単に実装が可能で計算量が少ない ✗ 高次元特徴の表現能力に乏しい 5 Introduction > Model > Experiments > Conclusion [Richardson+ 2007] Richardson, Matthew, Ewa Dominowska, and Robert Ragno. "Predicting clicks: estimating the click-through rate for new ads." Proceedings of the 16th international conference on World Wide Web. ACM, 2007. [Rendie, 2010] Rendle, Steffen. "Factorization machines." Data Mining (ICDM), 2010 IEEE 10th International Conference on. IEEE, 2010.
  6. [Convington+ 2016] Covington, Paul, et al. "Deep neural networks for

    youtube recommendations." Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016. [Lie+ 2015] Liu, Qiang et al. "A convolutional click prediction model." Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. ACM, 2015. [Qu+ 2016] Qu, Yanru et al.. “Product-based neural networks for user response prediction." Data Mining (ICDM), 2016 IEEE 16th International Conference on. IEEE, 2016. [Shan+ 2016] Shan, Ying, et al. "Deep crossing: Web-scale modeling without manually crafted combinatorial features." Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016. [Xiao+ 2017] Xiao, Jun, et al. "Attentional factorization machines: Learning the weight of feature interactions via attention networks." arXiv preprint arXiv:1708.04617 (2017). [Zhang+ 2016] Zhang, Weinan et al. "Deep learning over multi-field categorical data." European conference on information retrieval. Springer, Cham, 2016. [Zhou+ 2018] Zhou, Guorui, et al. "Deep interest network for click-through rate prediction." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018. [Cheng+ 2016] Cheng, Heng-Tze, et al. "Wide & deep learning for recommender systems." Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. ACM, 2016. [Guo+ 2017] Guo, Huifeng, et al. "DeepFM: a factorization-machine based neural network for CTR prediction." Proceedings of the 26th International Joint Conference on Artificial Intelligence. AAAI Press, 2017. Introduction • 近年提案されているCTR予測モデル ◦ 深層学習ベースの手法 [Convington+ 2016; Liu+ 2015; Shan+ 2016; Xiao+ 2017; Zhang+ 2016; Zhou+ 2018] ✗ 偏った高次元特徴の相互作用を学習してしまったり シンプルな低次元特徴を捉えられなかったりする ◦ 高次元特徴・低次元特徴の相互作用を捉えるモデル ▪ Wide & Deep [Cheng+ 2016] ▪ Deep FM [Guo+ 2017] 6 Introduction > Model > Experiments > Conclusion ✗ CTR予測に有効なフィールド情報を有効活用できていない
  7. [Juan+ 2016] Juan, Yuchin, et al. "Field-aware factorization machines for

    CTR prediction." Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016. Introduction • “Field-aware”な手法の登場 ◦ Field-aware Factorization Machines (FFM) [Juan+ 2016] ▪ CTR予測の精度向上のためにFMを拡張したモデル • Avazu・Criteo主催のコンペティションでSoTA • 意味的に似ている特徴量をグループ化し 異なる特徴量どうしの相互作用を捉える手法 7 Introduction > Model > Experiments > Conclusion ✗ 容易に過学習してしまう傾向があるFFM ◦ 学習を進めるにつれてノイズにもフィットしてしまう ✗ 学習を止めるタイミングを見極めるのは困難 ✗ 止めるタイミングを間違えると精度が劇的に下落
  8. Introduction • 先行研究の問題点を解決する “Field-aware Probabilistic Embedding” (FPE) を提案 ◦ 点推定の代わりに”埋め込みの確率分布”を推定

    ◦ 先行研究のdeterministicな手法と比較すると Probabilistic Embeddingは以下の利点がある: ▪ 事前知識の導入が正則化として働き過学習を抑制 ▪ 分布の平均や分散等を考慮して学習 • 分散が大きい場合は、推定される平均値の 信頼性が低いことが確認可能 • 信頼性の低い平均値を扱う場合は TS-strategy・UCB-strategy を用いて推定値を修正 8 Introduction > Model > Experiments > Conclusion
  9. Model • FPENN のモデルアーキテクチャ ◦ Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習

    ◦ 3つのコンポーネントで 多様な特徴を学習 ▪ Linear term (LN) ▪ Quadratic term (QDR) ▪ Deep NN term (DNN) ◦ 埋め込みを確率分布とした ときの学習手法の適用 ▪ Reparameterization trick [Kingma+ 2013; Ruiz+ 2016] 9 Introduction > Model > Experiments > Conclusion [Kingma+ 2013] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013). [Ruiz+ 2016] Ruiz, Francisco R., Michalis Titsias RC AUEB, and David Blei. "The generalized reparameterization gradient." Advances in neural information processing systems. 2016.
  10. Model • FPENN のモデルアーキテクチャ ◦ Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習

    ◦ 3つのコンポーネントで 多様な特徴を学習 ▪ Linear term (LN) ▪ Quadratic term (QDR) ▪ Deep NN term (DNN) ◦ 埋め込みを確率分布とした ときの学習手法の適用 ▪ Reparameterization trick [Kingma+ 2013; Ruiz+ 2016] 10 Introduction > Model > Experiments > Conclusion [Kingma+ 2013] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013). [Ruiz+ 2016] Ruiz, Francisco R., Michalis Titsias RC AUEB, and David Blei. "The generalized reparameterization gradient." Advances in neural information processing systems. 2016.
  11. Model • Field-aware Probabilistic Embedding (FPE) による 確率的埋め込みの学習 高次元で疎な入力を低次元で密な埋め込み表現として学習 ◦

    埋め込み行列Vの平均・分散からなる確率分布を用いて 確率的な振る舞いを導入 11 Introduction > Model > Experiments > Conclusion このままでは誤差逆伝播法に よる学習が不可能 ◦ ランダム性を導入することで モデルをロバストに
  12. Model • Field-aware Probabilistic Embedding (FPE) による 確率的埋め込みの学習 Reparameterization trickを用いてFPEの学習を行う

    ◦ 埋め込み行列Vの平均・分散を持つ正規分布から 埋め込み表現をサンプリングする場合誤差逆伝播が不可能 12 Introduction > Model > Experiments > Conclusion ◦ Reparameterization trick  [Kingma+ 2013; Ruiz+ 2016] を適 用することで以下の式に変形 することができる: 誤差逆伝搬による学習が可能
  13. Model • Field-aware Probabilistic Embedding (FPE) による 確率的埋め込みを用いた推論 埋め込みの平均・分散情報の利用と過学習問題に対する戦略 ◦

    TS-strategy (TS: Thompson Sampling) ▪ Thompson Samplingに従って、 学習した埋め込み行列から埋め込み表現を得る: ◦ UCB-strategy (UCB: Upper Confidence Bound) ▪ Upper Confidence Boundに従って、 学習した埋め込み行列から埋め込み表現を得る: 13 Introduction > Model > Experiments > Conclusion
  14. Model • FPENN のモデルアーキテクチャ ◦ Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習

    ◦ 3つのコンポーネントで 多様な特徴を学習 ▪ Linear term (LN) ▪ Quadratic term (QDR) ▪ Deep NN term (DNN) ◦ 埋め込みを確率分布とした ときの学習手法の適用 ▪ Reparameterization trick [Kingma+ 2013; Ruiz+ 2016] 14 Introduction > Model > Experiments > Conclusion [Kingma+ 2013] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013). [Ruiz+ 2016] Ruiz, Francisco R., Michalis Titsias RC AUEB, and David Blei. "The generalized reparameterization gradient." Advances in neural information processing systems. 2016.
  15. Model • FPENN のモデルアーキテクチャ ◦ Field-aware Probabilistic Embedding (FPE) による確率的埋め込みの学習

    ◦ 3つのコンポーネントで 多様な特徴を学習 ▪ Linear term (LN) ▪ Quadratic term (QDR) ▪ Deep NN term (DNN) ◦ 埋め込みを確率分布とした ときの学習手法の適用 ▪ Reparameterization trick [Kingma+ 2013; Ruiz+ 2016] 15 Introduction > Model > Experiments > Conclusion [Kingma+ 2013] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013). [Ruiz+ 2016] Ruiz, Francisco R., Michalis Titsias RC AUEB, and David Blei. "The generalized reparameterization gradient." Advances in neural information processing systems. 2016.
  16. Model • 3つのコンポーネントで多様な特徴を学習 ⭕ 低次元の相互作用を捉える Linear Component ⭕ 2次の相互作用を捉える Quadratic

    Component 16 Introduction > Model > Experiments > Conclusion ⭕ 高次元の相互作用を捉える Deep Component
  17. Experiments 17 Introduction > Model > Experiments > Conclusion •

    実験設定 ◦ 対象の広告がクリックされたorされないの2値分類 • ハイパーパラメータ ◦ バッチサイズ:2,000、dropout率:0.2 ◦ 最適化手法は Adam [Kingma+ 2014] で学習率は 0.001 ◦ validでハイパーパラメータをチューニング • 評価方法 ◦ データセットを train : test = 8 : 2 で分割 ▪ train のうち20%を valid として使用 ◦ AUC (Area Under Curve) および Logloss (cross entropy) [Kingma+ 2014] Kingma, Diederik P., and Jimmy Ba. "Adam: A method for stochastic optimization." arXiv preprint arXiv:1412.6980 (2014).
  18. Experiments 18 Introduction > Model > Experiments > Conclusion •

    データセットについて ◦ Avazu* dataset ▪ 40,000,000 レコード (24 カラム) からなるデータ ▪ 出現が 20 回より少ない特徴は1つにまとめた • 最終的に 645,195 特徴が得られた ◦ Criteo** dataset ▪ “day 6” から “day 13” までのデータを使用 (39 カラム) ▪ 最初の7日間で学習を行い、最終日でテスト ▪ 不均衡データのためダウンサンプリング ▪ 出現が20回より少ない特徴は1つにまとめた • 最終的に 1,178,909 特徴が得られた * https://www.kaggle.com/c/avazu-ctr-prediction ** http://labs.criteo.com/2013/12/download-terabyte-click-logs
  19. Experiments 19 Introduction > Model > Experiments > Conclusion •

    比較手法について ◦ ロジスティック回帰 (LR) ◦ Factorization Machine (FM) ◦ Field-aware Factorization Machine (FFM) ◦ CCPM [Liu+ 2015] ▪ Convolutional Neural Network (CNN) ベースのモデル ◦ DeepFM [Guo+ 2017] ▪ FMとdeep learningの性質を併せ持ったモデル • (TS|UCB)-strategy の設定について ◦ 両者実験を行ったところUCBのほうが性能が良かった ▪ TSは過度なランダム性が性能を落としているのでは [Liu+ 2015] Liu, Qiang, et al. "A convolutional click prediction model." Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. ACM, 2015. [Guo+ 2017] Guo, Huifeng, et al. "Deepfm: a factorization-machine based neural network for ctr prediction." arXiv preprint arXiv:1703.04247 (2017). 以降、実験結果はUCB-strategyを用いたものを示す
  20. Experiments 20 Introduction > Model > Experiments > Conclusion •

    汎化性能について (FPENN vs FFM) ◦ 提案手法であるFPENNは既存のFFMと比べて、 学習を進めても過学習に陥りにくい ▪ モデルに事前知識を導入しているため過学習を抑止 ▪ FPENNに正則化を加えることで、より精度が安定
  21. Experiments 21 Introduction > Model > Experiments > Conclusion •

    予測精度について ◦ 提案手法のFPENNがすべてのベースラインを超えた ▪ CCPMはFMをoutperformしたがFFMよりかは低い • CNNベースのモデルは近傍の特徴に影響を受ける ▪ FFMとDeepFMがよい性能を示した • Field-awareな特徴をよりよく捉えているのでは
  22. Conclusion 22 Introduction > Model > Experiments > Conclusion •

    Field-aware Probabilistic Embedding Neural Network (FPENN) を提案 ◦ 先行研究より汎化性能が高いモデルを構築 ▪ 学習時にランダム性を導入しモデルをロバストにした ▪ 複数のコンポーネントを用いて様々な相互作用を学習 • 気になった点 ◦ 未知の特徴量に対してFPEを適用する場合の処理 ◦ CTR予測の際のレスポンス速度について ▪ 文中に“50〜100ミリ秒以内に200〜300アプリのCTR値を 予測”と書いてあったがはたして