© 2023 Wantedly, Inc.Augmented Negative Samplingfor Collaborative FilteringRecSys2023 論文読み会Y. Zhao, R. Chen, R. Lai, Q. Han, H. Song, and L. ChenOct. 21 2023 - Presenter: Yudai Hayashi
View Slide
© 2023 Wantedly, Inc.Self-introduction林 悠大● 経歴:○ 東京大学工学系研究科で博士号取得○ 2022年にウォンテッドリーにデータサイエンティストとして新卒入社● Twitter(X): @python_walker● 趣味:○ 読書○ 音楽聴くこと○ ウイスキーTwitter
© 2023 Wantedly, Inc.Short Summary● 解決したかった課題:○ Negative samplingするときに正例と近いサンプルを取ってこようとすることが多いが、それ以外の負例にも学習に有用な情報はあるはず○ 負例の情報をもっと活用したい● 手法:○ 正例に近くない負例もaugmentationによって正例に近づけてやることで学習効率を担保しつつ多くの情報を取り込む● 結果:○ CFモデルで性能の向上を実現
© 2023 Wantedly, Inc.Introduction:CFとnegative sampling= x#User#ItemUserVectorItem Vector負例行列分解(Matrix Factorization, MF)
© 2023 Wantedly, Inc.Introduction:CFとnegative samplingK. Mao et al., CIKM’21CFの性能に対するnegativesamplingの効果CFにおいてnegative samplingが大きな効果を持つことはこれまでに知られていた
© 2023 Wantedly, Inc.Introduction:negative samplingの手法RNSDNSコスト 負例の品質サンプリング戦略ランダム高スコアの負例を選択低高低高
© 2023 Wantedly, Inc.Introduction:negative samplingの手法モデルの出力スコアが高い負例 = 良い負例というのは正しいのか?RNSDNSコスト 負例の品質サンプリング戦略ランダム高スコアの負例を選択低高低高?
© 2023 Wantedly, Inc.Motivation:既存手法の問題点①Ambiguous trap学習が進むにつれて負例のスコア分布が低い方に寄るスコアの高い負例をサンプリングしてくるのがどんどん難しくなっていく
© 2023 Wantedly, Inc.Motivation:既存手法の問題点②Information discrimination:スコアの低い負例には有用な情報は無い?Hx:モデルxで当てたインタラクション数xy PER(DNS, RNS)
© 2023 Wantedly, Inc.Motivation:既存手法の問題点②Information discrimination:スコアの低い負例には有用な情報は無い?スコアの低い負例を使わないと学習できない情報が多くあるHx:モデルxで当てたインタラクション数xyPER(RNS, DNS)!
© 2023 Wantedly, Inc.Method:ANS (Augmented Negative Sampling):正例に近い成分
© 2023 Wantedly, Inc.Method:ANS (Augmented Negative Sampling)負例の簡単な部分を正例に寄せる
© 2023 Wantedly, Inc.Method:ANS (Augmented Negative Sampling):正例に近い負例がほしい:もとはスコアが低かったサンプルの情報が ほしい
© 2023 Wantedly, Inc.Method:ANS (Augmented Negative Sampling)BPR-loss ベクトルの分離に関するロス
© 2023 Wantedly, Inc.ResultsTop-10指標で10 %を超える大きな性能向上
© 2023 Wantedly, Inc.Disentanglementの評価t-SNE● negative_hard(nh)とpositive_hard(ph)が近い● nhをランダムサンプリングして学習させた結果HNSと同等の性能負例から正例に近い要素をうまく分離できている
© 2023 Wantedly, Inc.DiscussionsAmazon-Baby datasetANSではRecallの上昇が大きい状態を長く維持できている良い負例を継続的に取ってこれている (Ambiguous trapの緩和)DNS vs ANS の負例の被り度合いモデルスコアの低い負例まで満遍なく使えている(Informationdiscriminationの緩和)
© 2023 Wantedly, Inc.Conclusion● 負例の情報を包括的に学習に用いることができるnegative sampling手法ANSを提案● 負例サンプルからより正例に近いデータを作り出して学習に利用● 既存のnegative sampling手法と比較してCFモデルの大幅な性能向上を実現
© 2023 Wantedly, Inc.References● Y. Zhao et al., Augmented Negative Sampling for CollaborativeFiltering. 2023. In Seventeenth ACM Conference on RecommenderSystems (RecSys ’23).● K. Mao et al., SimpleX: A Simple and Strong Baseline for CollaborativeFiltering. 2021. In Proceedings of the 30th ACM InternationalConference on Information and Knowledge Management (CIKM ’21)
© 2023 Wantedly, Inc.
© 2023 Wantedly, Inc.Appendix: ハイパーパラメータ依存性