$30 off During Our Annual Pro Sale. View Details »

RecSys2023論文読み会 - Augmented Negative Sampling for Collaborative Filtering

Yudai Hayashi
October 21, 2023

RecSys2023論文読み会 - Augmented Negative Sampling for Collaborative Filtering

Yudai Hayashi

October 21, 2023
Tweet

More Decks by Yudai Hayashi

Other Decks in Research

Transcript

  1. © 2023 Wantedly, Inc.
    Augmented Negative Sampling
    for Collaborative Filtering
    RecSys2023 論文読み会
    Y. Zhao, R. Chen, R. Lai, Q. Han, H. Song, and L. Chen
    Oct. 21 2023 - Presenter: Yudai Hayashi

    View Slide

  2. © 2023 Wantedly, Inc.
    Self-introduction
    林 悠大
    ● 経歴:
    ○ 東京大学工学系研究科で博士号取得
    ○ 2022年にウォンテッドリーにデータサイ
    エンティストとして新卒入社
    ● Twitter(X): @python_walker
    ● 趣味:
    ○ 読書
    ○ 音楽聴くこと
    ○ ウイスキー
    Twitter

    View Slide

  3. © 2023 Wantedly, Inc.
    Short Summary
    ● 解決したかった課題:
    ○ Negative samplingするときに正例と近いサンプルを取ってこようと
    することが多いが、それ以外の負例にも学習に有用な情報はある
    はず
    ○ 負例の情報をもっと活用したい
    ● 手法:
    ○ 正例に近くない負例もaugmentationによって正例に近づけてやるこ
    とで学習効率を担保しつつ多くの情報を取り込む
    ● 結果:
    ○ CFモデルで性能の向上を実現

    View Slide

  4. © 2023 Wantedly, Inc.
    Introduction:CFとnegative sampling
    = x
    #User
    #Item
    User
    Vector
    Item Vector
    負例
    行列分解(Matrix Factorization, MF)

    View Slide

  5. © 2023 Wantedly, Inc.
    Introduction:CFとnegative sampling
    K. Mao et al., CIKM’21
    CFの性能に対するnegative
    samplingの効果
    CFにおいてnegative samplingが大きな効果を持つことはこれまでに知
    られていた

    View Slide

  6. © 2023 Wantedly, Inc.
    Introduction:negative samplingの手法
    RNS
    DNS
    コスト 負例の品質
    サンプリング戦

    ランダム
    高スコアの負例
    を選択




    View Slide

  7. © 2023 Wantedly, Inc.
    Introduction:negative samplingの手法
    RNS
    DNS
    コスト 負例の品質
    サンプリング戦

    ランダム
    高スコアの負例
    を選択




    View Slide

  8. © 2023 Wantedly, Inc.
    Introduction:negative samplingの手法
    モデルの出力スコアが高い負例 = 良い負例というのは正しいのか?
    RNS
    DNS
    コスト 負例の品質
    サンプリング戦

    ランダム
    高スコアの負例
    を選択



    高?

    View Slide

  9. © 2023 Wantedly, Inc.
    Motivation:既存手法の問題点
    ①Ambiguous trap
    学習が進むにつれて
    負例のスコア分布が
    低い方に寄る
    スコアの高い負例をサンプリングしてくるのがどんどん難しくなっていく

    View Slide

  10. © 2023 Wantedly, Inc.
    Motivation:既存手法の問題点
    ②Information discrimination:スコアの低い負例には有用な情報は無い?
    Hx:モデルxで当てたイ
    ンタラクション数
    x
    y PER(DNS, RNS)

    View Slide

  11. © 2023 Wantedly, Inc.
    Motivation:既存手法の問題点
    ②Information discrimination:スコアの低い負例には有用な情報は無い?
    スコアの低い負例を使わないと学習できない情報が多くある
    Hx:モデルxで当てたイ
    ンタラクション数
    x
    y
    PER(RNS, DNS)!

    View Slide

  12. © 2023 Wantedly, Inc.
    Method:ANS (Augmented Negative Sampling)
    :正例に近い成分

    View Slide

  13. © 2023 Wantedly, Inc.
    Method:ANS (Augmented Negative Sampling)
    負例の簡単な部分を
    正例に寄せる

    View Slide

  14. © 2023 Wantedly, Inc.
    Method:ANS (Augmented Negative Sampling)
    :正例に近い負例がほしい
    :もとはスコアが低かったサンプルの情報が ほ
    しい

    View Slide

  15. © 2023 Wantedly, Inc.
    Method:ANS (Augmented Negative Sampling)
    BPR-loss ベクトルの分離に
    関するロス

    View Slide

  16. © 2023 Wantedly, Inc.
    Results
    Top-10指標で10 %を超える大きな性能向上

    View Slide

  17. © 2023 Wantedly, Inc.
    Disentanglementの評価
    t-SNE
    ● negative_hard(nh)と
    positive_hard(ph)が近い
    ● nhをランダムサンプリングして
    学習させた結果HNSと同等の
    性能
    負例から正例に近い要素をうまく分離できている

    View Slide

  18. © 2023 Wantedly, Inc.
    Discussions
    Amazon-Baby dataset
    ANSではRecallの上昇が大きい状
    態を長く維持できている
    良い負例を継続的に取ってこれてい
    る (Ambiguous trapの緩和)
    DNS vs ANS の負例の被り度合い
    モデルスコアの低い負例まで満遍なく
    使えている(Information
    discriminationの緩和)

    View Slide

  19. © 2023 Wantedly, Inc.
    Conclusion
    ● 負例の情報を包括的に学習に用いることができるnegative sampling手
    法ANSを提案
    ● 負例サンプルからより正例に近いデータを作り出して学習に利用
    ● 既存のnegative sampling手法と比較してCFモデルの大幅な性能向上
    を実現

    View Slide

  20. © 2023 Wantedly, Inc.
    References
    ● Y. Zhao et al., Augmented Negative Sampling for Collaborative
    Filtering. 2023. In Seventeenth ACM Conference on Recommender
    Systems (RecSys ’23).
    ● K. Mao et al., SimpleX: A Simple and Strong Baseline for Collaborative
    Filtering. 2021. In Proceedings of the 30th ACM International
    Conference on Information and Knowledge Management (CIKM ’21)

    View Slide

  21. © 2023 Wantedly, Inc.

    View Slide

  22. © 2023 Wantedly, Inc.
    Appendix: ハイパーパラメータ依存性

    View Slide