Upgrade to Pro — share decks privately, control downloads, hide ads and more …

正確な推薦は無条件に信頼できるか?

kuri8ive
November 12, 2022

 正確な推薦は無条件に信頼できるか?

IR Reading 2022秋 (https://sigir.jp/post/2022-11-12-irreading_2022fall/#program) での発表スライドです。
本発表で紹介した論文は以下の3本です。
1. Do Loyal Users Enjoy Better Recommendations? Understanding Recommender Accuracy from a Time Perspective (ICTIR 2022)
2. Exploring Data Splitting Strategies for the Evaluation of Recommendation Models(RecSys 2020)
3. Quality Metrics in Recommender Systems: Do We Calculate Metrics Consistently?(RecSys 2021)

kuri8ive

November 12, 2022
Tweet

More Decks by kuri8ive

Other Decks in Research

Transcript

  1. ACM SIGIR 東京支部 IR Reading 2022秋 2022年11月12日 正確な推薦は無条件に信頼できるか? LINE株式会社 栗本

    真太郎(@kuri8ive)
  2. 2/28 ① Do Loyal Users Enjoy Better Recommendations? Understanding Recommender

    Accuracy from a Time Perspective (ICTIR 2022) ② Exploring Data Splitting Strategies for the Evaluation of Recommendation Models (RecSys 2020) ③ Quality Metrics in Recommender Systems: Do We Calculate Metrics Consistently? (RecSys 2021) 本発表で紹介する研究
  3. 3/28 概要 推薦精度が高くても、 ① ヘビーユーザーにはウケていないかもしれない ② データ分割のやり方で優劣がひっくり返るかもしれない ③ 指標の算出式が適切ではないかもしれない ※

    以降、特に断りがない場合、画像は論文から引用しています
  4. ① ヘビーユーザーはそうでない人より 精度の高い推薦を享受できているか?

  5. 5/28 • 推薦システムの研究はベンチマークデータのテストセットにおける 精度を報告するのが一般的 • 時間軸からの精度の分析が足りなくない? • 一定期間内に活発なユーザーをヘビーユーザーとして、 彼らがそうでない人よりも良い推薦を享受できているのか?を調べたい モチベーション

  6. 6/28 • Movie-Lens 25M, Yelp, Amazon-music, Amazon-electronicの 4データセット10年分 • leave-one-splitによりHit

    rate(HR), NDCGで評価(Top-N推薦) • モデル • 時系列を考慮しない:BPR, NeuMF, LightGCN • 時系列を考慮する :SASRec , TiSASRec • ヘビーユーザー or notの基準 1. 累積インタラクション数 2. 活動期間の長さ 3. テストインスタンスとその直前のインタラクションとの日数(新近性) 実験設定
  7. 7/28 • [email protected]では、MovieLens-25M、 Yelp、Amazon-musicにおいて、 全モデルがヘビーユーザーに対して より悪い結果 • [email protected]では、 Amazon-musicのTiSASRecと Amazon-electronicsの

    SASRec & TiSASRecを除き、 ヘビーユーザーに対して より悪い結果 ヘビーユーザー or notの推薦結果の違い(インタラクション基準)
  8. 8/28 • 特に一般的な(時系列を考慮しない)モデルでは ヘビーユーザーの方が良い推薦結果を享受できていない 過去のデータが多いほどユーザーの嗜好をよりよく学習できるという 直感に反している 全体的な傾向

  9. 9/28 • 全体として、ヘビーユーザーは より高精度な推薦を享受できていない • 4つのデータセットにおいて、 ヘビーユーザーが SASRecとTiSASRecによって 同等の推薦精度を享受している →これらは新しい

    or 古い インタラクションを区別するモデル →時系列を考慮しないモデルが ヘビーユーザーに良い推薦を 提供できないのは 古いインタラクションに起因すると仮定 ヘビーユーザー or notの推薦結果の違い(活動期間基準)
  10. 10/28 • どのモデルにおいても アクティブなユーザーは 良い推薦結果を享受できている →最近のインタラクションがより重要 ヘビーユーザー or notの推薦結果の違い(新近性基準)

  11. 11/28 Q. ヘビーユーザーはそうでない人より精度の高い推薦を享受できているか? A. いいえ。 古いインタラクションの多さが高精度な推薦を阻害している。 ①まとめ

  12. ② 性能の良い推薦モデルは どんなデータ分割でも優れているか?

  13. 13/28 • 情報検索では、TRECなどの標準化活動や、 NTCIR、CLEF、FIREなどの評価イニシアティブにより、 何が健全な評価手法であるかのガイドラインが確立されている • しかし、推薦システムではそうなっておらず、 データセット、評価基準、ベースライン、データ分割戦略において 幅広い組み合わせが報告されており、 どれほど進歩したか、正確に測定することを難しくしている

    • 本研究の目的は、 ⑴データ分割戦略の多様性の大きさを示すこと ⑵その影響を評価すること モチベーション
  14. 14/28 • Random Split • 全データをランダムに分割 • User Split •

    ユーザー単位でランダムに分割 • Leave One Last • 最後の1セッションや1アイテムのみを テストとして分割 • Temporal Split • User:Leave One Lastに近いが、1つのみというわけではない • Global:〇〇月△△日以前を学習、それより後をテストとする データ分割戦略の概観
  15. 15/28 • 同じデータセットを用いている場合でも一貫性がない • さらに、最も現実的な分割手法とされるTemporal Globalで 評価しているモデルが非常に少ない(17件中2件) 過去の研究たちはどんなデータ分割戦略を取っているか?

  16. 16/28 • Tafeng、Dunnhumby(※注:スーパー)のデータ • Leave One Last, Temporal Globalにより、 [email protected],

    [email protected]、ケンドールのτで評価 • モデル • 古典 :NMF, BPR • NN :NeuMF, VAECF, NGCF • NN(スーパーお買い物用) :Triple2vec, VBCAR 実験設定
  17. 17/28 • 全パターンにおいて、分割戦略を変えると順位も変わる 分割戦略の違いによる精度の差

  18. 18/28 • 分割戦略のペア間の ケンドールのτ相関は 0.5284から0.7630と 中程度であり、 多くの順位入替がある • 効果尺度の高い方 (各図の右上)では、

    垂直方向の点数分散より 水平方向の点数分散が 大きい →実質的に推薦の 異なる側面を 評価していることを示す証拠 サンプル数を増やし効果的な3モデルに絞って相関実験
  19. 19/28 Q. 性能の良い推薦モデルはどんなデータ分割でも優れているか? A. いいえ。 データ分割戦略は順位を大きく変化させる重要な交絡である。 ②まとめ

  20. ③ 記載された指標の数値を そのまま受け入れて良いか?

  21. 21/28 • ABテストにはコストと時間がかかるため、 シミュレーションやオフ方策評価、オフライン評価などで モデルの性能を比較するのが標準的となっている • 品質指標の定式化に一貫性がないことは, 不適切なモデル比較や報告結果の誤解釈につながる危険な状況である • 本研究では、論文と公開ライブラリの両方で、

    品質指標の定義と計算を検討する モチベーション
  22. 22/28 各種ライブラリで算出される品質指標を比較 • MovieLensLatest-20m、EASE recommender • Temporal Global Splitで分割 •

    ライブラリ • Replay、Beta RecSys、DaisyRec、RecBole、Eliot、OpenRec、 DL RS Evalluation、MS Recommenders、NeuRec、RecSys PyTorch、rs_metrics 評価設定
  23. 23/28 • PrecisionとRecallのみが唯一ライブラリ間で一致 • 何が起きている…? • HitRateでは、DL RS EvaluationにてHitRateの定義と異なる実装 ("正確な予測が1つ以上あったユーザーの割合"のはずが、

    正確な予測アイテムの平均数になっており、1を超えている) 評価結果(1/3)
  24. 24/28 • 何が起きている…? • MAPでは、DaisyRecにおいて同じく定義と異なる実装 Eliotにおいてドキュメントと実装の不一致 NeuRecにおいてはバグ • NDCGでは、Weighted NDCGとBinary

    NDCGを計算するものに分かれる 評価結果(2/3)
  25. 25/28 • 何が起きている…? • RocAucではさまざまな対応がなされている (そもそも二値ではないランキングにどう対応させるかが明らかではない) • Stack AUC:完全なランキングを用いて全予測を積み上げる →Beta

    RecSys、RecBole、MS Recommendersで採用 • Group AUC:各ユーザーのAUCを平均化 →OpenRec、DL RS Evaluation、Eliot、Replay、RecBoleで採用 • OpenRecとEliotは完全なランキングを受け付ける • DL RS EvaluationとRePlayは指標の計算の前に ランキング下位をカットしている • RecBoleは全アイテムの予測が正しい or 全て違うユーザーをスキップしている • などなど… 評価結果(3/3)
  26. 26/28 論文の記述にはバラツキがあるか?を調査 • 33%(5/15)のみが指標の完全な記述を記載 • 20%(3/15)は十分な記載のある論文への引用を記載 • 47%(7/15)は部分的な記述 or 数式がない論文への引用のみ記載

    さらには…)NeuMFは HitRateの正確な計算式があるTriRank論文を引用しているが、 NeuMF本文の記述とは矛盾 論文分析
  27. 27/28 Q. 記載された指標の数値をそのまま受け入れて良いか? A. いいえ。 算出方法が思っているものと同一か、確かめる必要があります。 ③まとめ

  28. 28/28 まとめ 推薦精度が高くても、 ① ヘビーユーザーにはウケていないかもしれない ② データ分割のやり方で優劣がひっくり返るかもしれない ③ 指標の算出式が適切ではないかもしれない ので

    ① ' 比較的新しいインタラクションのみ使おう or 重視しよう ② ' 最も現実的なTemporal Globalによる分割で評価しよう ③ ' 実装や計算式を確認して比較しよう(コミュニティは標準化を頼むよ)