Slide 1

Slide 1 text

© 2023 LayerX Inc. 【論文紹介】(Petrov et al., 2023) gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling 2023/10/21 RecSys2023論文読み会 / Yuya Matsumura(@yu-ya4) https://dl.acm.org/doi/10.1145/3604915.3608783

Slide 2

Slide 2 text

© 2023 LayerX Inc. 2 バクラク事業部 Data&ML部 ML Group マネージャー 経歴 京都大学大学院情報学研究科修士課程修了。情報検索や情報推薦に関する研究に取り 組む。 2018年ウォンテッドリー株式会社に新卒入社。レコメンドチームの立ち上げに携わる。 その後、機械学習領域のテックリード、プロダクトマネージャー、エンジニアリングマネー ジャーを務める。 2022年9月に株式会社LayerXに入社。機械学習チームにて、法人支出管理SaaSバ クラクのAI-OCR機能をはじめとする機械学習を活用した機能の開発およびマネジメ ントに従事。 その他活動として、ウォンテッドリー株式会社の機械学習領域の技術顧問やスタート アップの技術支援、大学の非常勤講師、書籍の執筆など。 画像を入れてね 自己紹介 松村 優也(Yuya Matsumura) @yu__ya4

Slide 3

Slide 3 text

© 2023 LayerX Inc. 3 ● RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか? ○ NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。 ● RQ2 gBCEを利用することで予測される確率にどのような効果が出るか? ○ gBCEはOverconfidenceを緩和する。 ● RQ3 NSの割合(α)やパラメタtはgSASRecの性能にどのような影響を与えるのか? ○ tが1に近いほど(βがαに近いほど)、NSの割合(α)が大きいほど性能が向上する傾向 ● RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか? ○ NSが小さい際は他の損失関数に比べて性能が改善する。特にSASRecについては顕著である。 NSが大きくなると性能差が小さくなる。 ● RQ5 gSASRecは他のモデルと比べてどれほどの性能か? ○ すべてのデータセットにおいて少ない学習時間で最高もしくは2番目の性能を残した。 ○ 近年報告された他のモデルと比べても遜色ない性能である。 Summary Sequential RecommendationにおいてNegative Samplingなどにより生じる Overconfidenceの問題を解決するため、gBCE Loss並びにそれを利用したgSASResを提案

Slide 4

Slide 4 text

© 2023 LayerX Inc. 4 与えられたuser-itemのインタラクション系列の次のアイテムを予測するタスク Sequential Recommendation BERT4RecやSASRecなどTransformerベースのモデルが高い性能を示す RecSys2022におけるReproducibility paperによると、BERT4RecがSOTAとのこと。 background A E B H ? (Sun et al., 2019) (Kang et al., 2018) (Petrov et al., 2022)

Slide 5

Slide 5 text

© 2023 LayerX Inc. 5 negative samplingなどにより生じるOverconfidence ● 巨大なデータセットに対して効率的に学習するためにnegative sampling(NS)がよく利用される。 ● 学習に利用されるデータセット内の正例の割合が大きくなることで、NSを利用して学習したモデルはア イテムが関連する確率を過剰に高く推定する傾向にある。 ● この現象をOverconfidenceと呼ぶ。 Overconfidence SASRecにおけるOverconfidence ● SASRecは上位25件のアイテムの予測確率がほぼ1。 ● SASRecはBCE Loss(sigmoid+BCE)を利用し、各サンプ ルへの予測確率は独立で推定されるため(pointwise)。 ● BERT4RecはNSせずSoftmax Loss(softmax + CE)を 利用しており、予測確率の合計値は1となる。 background

Slide 6

Slide 6 text

© 2023 LayerX Inc. 6 ランキング上位のアイテム間の差が出づらくなる ● 少数のランキング上位はほぼ1に近い値となり差がなくなる。上位のアイテムと無数にある下位のアイテ ムを切り分ける方向に学習が進む。 ● 関連するアイテムが上位10件に含まれるが、その中での並び替えがうまくいかない。 Overconfidenceによる問題 BCE Lossにおける発散 ● False Positiveなサンプルの推定値が1に近い場合、 が -∞に発散して学習が困難に。 background アイテムのランキングの問題においては並び順が重要であり、最終的な確率の推定値は重要ではない。一方 で、損失関数において確率の推定値を利用していることによる問題が生じる。

Slide 7

Slide 7 text

© 2023 LayerX Inc. 7 ● 通常のBCEと異なるのは、正例に対してσがβ乗されている部分。 ○ βが0に近い場合、正例に対するシグモイドの出力はすべて1に近づく。 ○ βが1に近い場合、BCEとgBCEは一致する。 gSASRec 1つの正例に対してk個の負例を利用する ● SASRecは1つの正例に対して1つの負例 Approach 巨大なデータセットを扱うに際してNSは必要であるため、NSしつつもOverconfidenceを緩和させること を目指す。SASRecをベースにしたgSASRecを提案。 Generalised Binary Cross Entropy(gBCE)を損失関数に利用

Slide 8

Slide 8 text

© 2023 LayerX Inc. 8 損失関数gBCEについて考察 BCEにおけるOverconfidenceの発生 ● β=1の際にgBCEとBCEは一致する。 ● 商品数が十分に多い場合αは無視できるほど小さいため、予測確 率がP(i)よりも少し大きくなることが分かる。 Approach 予測確率は以下の分布に収束する。            ,つまりNSの割合。 BCEにおけるOverconfidenceの抑制 ● α=βとすれば        となる。 ● α(NS割合)を大幅に大きくすることは難しいことが多いため、βをαに近い値に設定すること でOverconfidenceを緩和する。

Slide 9

Slide 9 text

© 2023 LayerX Inc. 9 データセットサイズによる差異を見るために複数のデータセットを用意 Datasets Experiment

Slide 10

Slide 10 text

© 2023 LayerX Inc. 10 上位のアイテムの順番を評価するための評価指標を設定 ● Recall@1, Recall@10 ● NDCG@10 Metrics Experiment

Slide 11

Slide 11 text

© 2023 LayerX Inc. 11 Baselines ● SASRec ● BERT4Rec(SOTA) ● Popularity(non personalized) ● Matrix Factorisation with BPR Loss Models gSASRec(提案手法) ● gBCEのパラメタであるNSの割合αおよびβを決定するt(t=0のときβ=1、t=1のときβ=α)はい くつかのパターンで検証 Experiment

Slide 12

Slide 12 text

© 2023 LayerX Inc. 12 RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか? RQ2 gBCEを利用することで予測される確率にどのような効果が出るか? RQ3 NSの割合(α)やパラメタtはgSASRecの性能にどのような影響を与えるのか? RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか? RQ5 gSASRecは他のモデルと比べてどれほどの性能か? Research Questions Experiment

Slide 13

Slide 13 text

© 2023 LayerX Inc. 13 NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。 ● NSを行わなければ性能は大きく向上する。 ● NSと損失関数の条件をそろえた場合、 モデルアーキテ クチャによる性能差はさほど大きくない。 ○ むしろSASRecがBERT4Recを上回ることの方が多い。 ● 元の論文の主張である、BERT4Recのモデルアーキテ クチャがSASRecの性能を上回った要因であるという 考察は誤りに見える。NSをしているかどうかが報告さ れているBERT4RecとSASRecの性能差の主要因で あるように見える。 RQ1 報告されているBERT4RecとSASRecの性能の差における NSの影響はいかほどか? Results

Slide 14

Slide 14 text

© 2023 LayerX Inc. 14 gBCEはOverconfidenceを緩和する。 真の確率は知り得ないため、代用としてMean Precision@Kを利用。上位K件に含まれるアイテムの予測 確率の平均値と比較(理想は一致)。また、3つのモデルにおいて実験値と理論値を比較。 RQ2 gBCEを利用することで予測される確率にどのような効果が 出るか? Results (Cormack et al., 1999) ● データ量の多いSteamでは実験値と 理論値がほぼ一致。 ● 推定確率はSASRecではほぼ1だが、 gSASRecは1よりずっと小さい ● t=1(α=β)の場合、平均予測確率と Mean Precisionがほぼ一致

Slide 15

Slide 15 text

© 2023 LayerX Inc. 15 tが1に近いほど(βがαに近いほど)、NSの割合(α)が大きいほど性能が向上する傾向 RQ3 NSの割合(α)やパラメタtはgSASRecの性能にどのような 影響を与えるのか? Results

Slide 16

Slide 16 text

© 2023 LayerX Inc. 16 NSが小さい際は他の損失関数に比べて性能が改善する。特にSASRecについては顕著であ る。NSが大きくなると性能差が小さくなる。 RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどの ような影響を与えるのか? Results

Slide 17

Slide 17 text

© 2023 LayerX Inc. 17 すべてのデータセットにおいて少ない学習時間で最高もしくは2番目の性能を残した。 ● MovieLensにおけるRecall@1の改善が顕著 ● gSASRecはBERT4Recで扱うのが難しい巨大なデータセットにおいても高い性能を示す。 ● gSASRecはBERT4Recよりも学習に必要な時間が小さい。 RQ5 gSASRecは他のモデルと比べてどれほどの性能か? Results

Slide 18

Slide 18 text

© 2023 LayerX Inc. 18 近年報告された他のモデルと比べても遜色ない性能である。 RQ5 gSASRecは他のモデルと比べてどれほどの性能か? Results

Slide 19

Slide 19 text

© 2023 LayerX Inc. 19 ● RQ1 報告されているBERT4RecとSASRecの性能の差におけるNSの影響はいかほどか? ○ NSの条件を揃えた場合、BERT4RecがSASRecよりも性能が高いとは言えない。 ● RQ2 gBCEを利用することで予測される確率にどのような効果が出るか? ○ gBCEはOverconfidenceを緩和する。 ● RQ3 NSの割合(α)やパラメタtはgSASRecの性能にどのような影響を与えるのか? ○ tが1に近いほど(βがαに近いほど)、NSの割合(α)が大きいほど性能が向上する傾向 ● RQ4 gBCEをSASRecやBERT4Recにて適用すると性能にどのような影響を与えるのか? ○ NSが小さい際は他の損失関数に比べて性能が改善する。特にSASRecについては顕著である。 NSが大きくなると性能差が小さくなる。 ● RQ5 gSASRecは他のモデルと比べてどれほどの性能か? ○ すべてのデータセットにおいて少ない学習時間で最高もしくは2番目の性能を残した。 ○ 近年報告された他のモデルと比べても遜色ない性能である。 Summary Sequential RecommendationにおいてNegative Samplingなどにより生じる Overconfidenceの問題を解決するため、gBCE Loss並びにそれを利用したgSASResを提案

Slide 20

Slide 20 text

© 2023 LayerX Inc. 20 (Petrov et al., 2023)Aleksandr Petrov and Craig Macdonald. 2023. gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling. In Proc. RecSys.116–128. (Sun et al., 2019)Fei Sun, Jun Liu, Jian Wu, Changhua Pei, Xiao Lin, Wenwu Ou, and Peng Jiang. 2019. BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer. In Proc. CIKM. 1441–1450. (Kang et al., 2018)Wang-Cheng Kang and Julian McAuley. 2018. Self-Attentive Sequential Recommendation. In Proc. ICDM. 197–206. (Petrov et al., 2022)Aleksandr Petrov and Craig Macdonald. 2022. A Systematic Review and Replicability Study of BERT4Rec for Sequential Recommendation. In Proc. RecSys.436–447. (Cormack et al., 1999)Gordon V. Cormack, Ondrej Lhotak, and Christopher R. Palmer. 1999. Estimating Precision by Random Sampling. In Proc. SIGIR. 273–274. Ref