Upgrade to Pro — share decks privately, control downloads, hide ads and more …

正確な推薦は無条件に信頼できるか?

kuri8ive
November 12, 2022

 正確な推薦は無条件に信頼できるか?

IR Reading 2022秋 (https://sigir.jp/post/2022-11-12-irreading_2022fall/#program) での発表スライドです。
本発表で紹介した論文は以下の3本です。
1. Do Loyal Users Enjoy Better Recommendations? Understanding Recommender Accuracy from a Time Perspective (ICTIR 2022)
2. Exploring Data Splitting Strategies for the Evaluation of Recommendation Models(RecSys 2020)
3. Quality Metrics in Recommender Systems: Do We Calculate Metrics Consistently?(RecSys 2021)

kuri8ive

November 12, 2022
Tweet

More Decks by kuri8ive

Other Decks in Research

Transcript

  1. 2/28 ① Do Loyal Users Enjoy Better Recommendations? Understanding Recommender

    Accuracy from a Time Perspective (ICTIR 2022) ② Exploring Data Splitting Strategies for the Evaluation of Recommendation Models (RecSys 2020) ③ Quality Metrics in Recommender Systems: Do We Calculate Metrics Consistently? (RecSys 2021) 本発表で紹介する研究
  2. 6/28 • Movie-Lens 25M, Yelp, Amazon-music, Amazon-electronicの 4データセット10年分 • leave-one-splitによりHit

    rate(HR), NDCGで評価(Top-N推薦) • モデル • 時系列を考慮しない:BPR, NeuMF, LightGCN • 時系列を考慮する :SASRec , TiSASRec • ヘビーユーザー or notの基準 1. 累積インタラクション数 2. 活動期間の長さ 3. テストインスタンスとその直前のインタラクションとの日数(新近性) 実験設定
  3. 7/28 • HR@10では、MovieLens-25M、 Yelp、Amazon-musicにおいて、 全モデルがヘビーユーザーに対して より悪い結果 • NDCG@10では、 Amazon-musicのTiSASRecと Amazon-electronicsの

    SASRec & TiSASRecを除き、 ヘビーユーザーに対して より悪い結果 ヘビーユーザー or notの推薦結果の違い(インタラクション基準)
  4. 9/28 • 全体として、ヘビーユーザーは より高精度な推薦を享受できていない • 4つのデータセットにおいて、 ヘビーユーザーが SASRecとTiSASRecによって 同等の推薦精度を享受している →これらは新しい

    or 古い インタラクションを区別するモデル →時系列を考慮しないモデルが ヘビーユーザーに良い推薦を 提供できないのは 古いインタラクションに起因すると仮定 ヘビーユーザー or notの推薦結果の違い(活動期間基準)
  5. 14/28 • Random Split • 全データをランダムに分割 • User Split •

    ユーザー単位でランダムに分割 • Leave One Last • 最後の1セッションや1アイテムのみを テストとして分割 • Temporal Split • User:Leave One Lastに近いが、1つのみというわけではない • Global:〇〇月△△日以前を学習、それより後をテストとする データ分割戦略の概観
  6. 16/28 • Tafeng、Dunnhumby(※注:スーパー)のデータ • Leave One Last, Temporal Globalにより、 NDCG@10,

    Recall@10、ケンドールのτで評価 • モデル • 古典 :NMF, BPR • NN :NeuMF, VAECF, NGCF • NN(スーパーお買い物用) :Triple2vec, VBCAR 実験設定
  7. 18/28 • 分割戦略のペア間の ケンドールのτ相関は 0.5284から0.7630と 中程度であり、 多くの順位入替がある • 効果尺度の高い方 (各図の右上)では、

    垂直方向の点数分散より 水平方向の点数分散が 大きい →実質的に推薦の 異なる側面を 評価していることを示す証拠 サンプル数を増やし効果的な3モデルに絞って相関実験
  8. 22/28 各種ライブラリで算出される品質指標を比較 • MovieLensLatest-20m、EASE recommender • Temporal Global Splitで分割 •

    ライブラリ • Replay、Beta RecSys、DaisyRec、RecBole、Eliot、OpenRec、 DL RS Evalluation、MS Recommenders、NeuRec、RecSys PyTorch、rs_metrics 評価設定
  9. 25/28 • 何が起きている…? • RocAucではさまざまな対応がなされている (そもそも二値ではないランキングにどう対応させるかが明らかではない) • Stack AUC:完全なランキングを用いて全予測を積み上げる →Beta

    RecSys、RecBole、MS Recommendersで採用 • Group AUC:各ユーザーのAUCを平均化 →OpenRec、DL RS Evaluation、Eliot、Replay、RecBoleで採用 • OpenRecとEliotは完全なランキングを受け付ける • DL RS EvaluationとRePlayは指標の計算の前に ランキング下位をカットしている • RecBoleは全アイテムの予測が正しい or 全て違うユーザーをスキップしている • などなど… 評価結果(3/3)
  10. 28/28 まとめ 推薦精度が高くても、 ① ヘビーユーザーにはウケていないかもしれない ② データ分割のやり方で優劣がひっくり返るかもしれない ③ 指標の算出式が適切ではないかもしれない ので

    ① ' 比較的新しいインタラクションのみ使おう or 重視しよう ② ' 最も現実的なTemporal Globalによる分割で評価しよう ③ ' 実装や計算式を確認して比較しよう(コミュニティは標準化を頼むよ)