正確な推薦は無条件に信頼できるか？

ACM SIGIR 東京支部 IR Reading 2022秋 2022年11月12日正確な推薦は無条件に信頼できるか？ LINE株式会社栗本
真太郎（@kuri8ive）

2/28 ① Do Loyal Users Enjoy Better Recommendations? Understanding Recommender
Accuracy from a Time Perspective (ICTIR 2022) ② Exploring Data Splitting Strategies for the Evaluation of Recommendation Models (RecSys 2020) ③ Quality Metrics in Recommender Systems: Do We Calculate Metrics Consistently? (RecSys 2021) 本発表で紹介する研究

3/28 概要推薦精度が高くても、 ① ヘビーユーザーにはウケていないかもしれない ② データ分割のやり方で優劣がひっくり返るかもしれない ③ 指標の算出式が適切ではないかもしれない ※
以降、特に断りがない場合、画像は論文から引用しています

① ヘビーユーザーはそうでない人より精度の高い推薦を享受できているか？

5/28 • 推薦システムの研究はベンチマークデータのテストセットにおける精度を報告するのが一般的 • 時間軸からの精度の分析が足りなくない？ • 一定期間内に活発なユーザーをヘビーユーザーとして、彼らがそうでない人よりも良い推薦を享受できているのか？を調べたいモチベーション

6/28 • Movie-Lens 25M, Yelp, Amazon-music, Amazon-electronicの 4データセット10年分 • leave-one-splitによりHit
rate（HR）, NDCGで評価（Top-N推薦） • モデル • 時系列を考慮しない：BPR, NeuMF, LightGCN • 時系列を考慮する：SASRec , TiSASRec • ヘビーユーザー or notの基準 1. 累積インタラクション数 2. 活動期間の長さ 3. テストインスタンスとその直前のインタラクションとの日数（新近性）実験設定

7/28 • HR@10では、MovieLens-25M、 Yelp、Amazon-musicにおいて、全モデルがヘビーユーザーに対してより悪い結果 • NDCG@10では、 Amazon-musicのTiSASRecと Amazon-electronicsの
SASRec & TiSASRecを除き、ヘビーユーザーに対してより悪い結果ヘビーユーザー or notの推薦結果の違い（インタラクション基準）

8/28 • 特に一般的な（時系列を考慮しない）モデルではヘビーユーザーの方が良い推薦結果を享受できていない過去のデータが多いほどユーザーの嗜好をよりよく学習できるという直感に反している全体的な傾向

9/28 • 全体として、ヘビーユーザーはより高精度な推薦を享受できていない • 4つのデータセットにおいて、ヘビーユーザーが SASRecとTiSASRecによって同等の推薦精度を享受している →これらは新しい
or 古いインタラクションを区別するモデル →時系列を考慮しないモデルがヘビーユーザーに良い推薦を提供できないのは古いインタラクションに起因すると仮定ヘビーユーザー or notの推薦結果の違い（活動期間基準）

10/28 • どのモデルにおいてもアクティブなユーザーは良い推薦結果を享受できている →最近のインタラクションがより重要ヘビーユーザー or notの推薦結果の違い（新近性基準）

11/28 Q. ヘビーユーザーはそうでない人より精度の高い推薦を享受できているか？ A. いいえ。古いインタラクションの多さが高精度な推薦を阻害している。 ①まとめ

② 性能の良い推薦モデルはどんなデータ分割でも優れているか？

13/28 • 情報検索では、TRECなどの標準化活動や、 NTCIR、CLEF、FIREなどの評価イニシアティブにより、何が健全な評価手法であるかのガイドラインが確立されている • しかし、推薦システムではそうなっておらず、データセット、評価基準、ベースライン、データ分割戦略において幅広い組み合わせが報告されており、どれほど進歩したか、正確に測定することを難しくしている
• 本研究の目的は、 ⑴データ分割戦略の多様性の大きさを示すこと ⑵その影響を評価することモチベーション

14/28 • Random Split • 全データをランダムに分割 • User Split •
ユーザー単位でランダムに分割 • Leave One Last • 最後の1セッションや1アイテムのみをテストとして分割 • Temporal Split • User：Leave One Lastに近いが、1つのみというわけではない • Global：〇〇月△△日以前を学習、それより後をテストとするデータ分割戦略の概観

15/28 • 同じデータセットを用いている場合でも一貫性がない • さらに、最も現実的な分割手法とされるTemporal Globalで評価しているモデルが非常に少ない（17件中2件）過去の研究たちはどんなデータ分割戦略を取っているか？

16/28 • Tafeng、Dunnhumby（※注：スーパー）のデータ • Leave One Last, Temporal Globalにより、 NDCG@10,
Recall@10、ケンドールのτで評価 • モデル • 古典：NMF, BPR • NN ：NeuMF, VAECF, NGCF • NN（スーパーお買い物用）：Triple2vec, VBCAR 実験設定

17/28 • 全パターンにおいて、分割戦略を変えると順位も変わる分割戦略の違いによる精度の差

18/28 • 分割戦略のペア間のケンドールのτ相関は 0.5284から0.7630と中程度であり、多くの順位入替がある • 効果尺度の高い方（各図の右上）では、
垂直方向の点数分散より水平方向の点数分散が大きい →実質的に推薦の異なる側面を評価していることを示す証拠サンプル数を増やし効果的な3モデルに絞って相関実験

19/28 Q. 性能の良い推薦モデルはどんなデータ分割でも優れているか？ A. いいえ。データ分割戦略は順位を大きく変化させる重要な交絡である。 ②まとめ

③ 記載された指標の数値をそのまま受け入れて良いか？

21/28 • ABテストにはコストと時間がかかるため、シミュレーションやオフ方策評価、オフライン評価などでモデルの性能を比較するのが標準的となっている • 品質指標の定式化に一貫性がないことは，不適切なモデル比較や報告結果の誤解釈につながる危険な状況である • 本研究では、論文と公開ライブラリの両方で、
品質指標の定義と計算を検討するモチベーション

22/28 各種ライブラリで算出される品質指標を比較 • MovieLensLatest-20m、EASE recommender • Temporal Global Splitで分割 •
ライブラリ • Replay、Beta RecSys、DaisyRec、RecBole、Eliot、OpenRec、 DL RS Evalluation、MS Recommenders、NeuRec、RecSys PyTorch、rs_metrics 評価設定

23/28 • PrecisionとRecallのみが唯一ライブラリ間で一致 • 何が起きている…？ • HitRateでは、DL RS EvaluationにてHitRateの定義と異なる実装（"正確な予測が1つ以上あったユーザーの割合"のはずが、
正確な予測アイテムの平均数になっており、1を超えている）評価結果（1／3）

24/28 • 何が起きている…？ • MAPでは、DaisyRecにおいて同じく定義と異なる実装 Eliotにおいてドキュメントと実装の不一致 NeuRecにおいてはバグ • NDCGでは、Weighted NDCGとBinary
NDCGを計算するものに分かれる評価結果（2／3）

25/28 • 何が起きている…？ • RocAucではさまざまな対応がなされている（そもそも二値ではないランキングにどう対応させるかが明らかではない） • Stack AUC：完全なランキングを用いて全予測を積み上げる →Beta
RecSys、RecBole、MS Recommendersで採用 • Group AUC：各ユーザーのAUCを平均化 →OpenRec、DL RS Evaluation、Eliot、Replay、RecBoleで採用 • OpenRecとEliotは完全なランキングを受け付ける • DL RS EvaluationとRePlayは指標の計算の前にランキング下位をカットしている • RecBoleは全アイテムの予測が正しい or 全て違うユーザーをスキップしている • などなど… 評価結果（3／3）

26/28 論文の記述にはバラツキがあるか？を調査 • 33%（5／15）のみが指標の完全な記述を記載 • 20%（3／15）は十分な記載のある論文への引用を記載 • 47%（7／15）は部分的な記述 or 数式がない論文への引用のみ記載
さらには…）NeuMFは HitRateの正確な計算式があるTriRank論文を引用しているが、 NeuMF本文の記述とは矛盾論文分析

27/28 Q. 記載された指標の数値をそのまま受け入れて良いか？ A. いいえ。算出方法が思っているものと同一か、確かめる必要があります。 ③まとめ

28/28 まとめ推薦精度が高くても、 ① ヘビーユーザーにはウケていないかもしれない ② データ分割のやり方で優劣がひっくり返るかもしれない ③ 指標の算出式が適切ではないかもしれないので
① ' 比較的新しいインタラクションのみ使おう or 重視しよう ② ' 最も現実的なTemporal Globalによる分割で評価しよう ③ ' 実装や計算式を確認して比較しよう（コミュニティは標準化を頼むよ）

正確な推薦は無条件に信頼できるか？

正確な推薦は無条件に信頼できるか？

kuri8ive

More Decks by kuri8ive

Other Decks in Research

Featured

Transcript

ACM SIGIR 東京支部 IR Reading 2022秋 2022年11月12日正確な推薦は無条件に信頼できるか？ LINE株式会社栗本

2/28 ① Do Loyal Users Enjoy Better Recommendations? Understanding Recommender

3/28 概要推薦精度が高くても、 ① ヘビーユーザーにはウケていないかもしれない ② データ分割のやり方で優劣がひっくり返るかもしれない ③ 指標の算出式が適切ではないかもしれない ※

① ヘビーユーザーはそうでない人より精度の高い推薦を享受できているか？

6/28 • Movie-Lens 25M, Yelp, Amazon-music, Amazon-electronicの 4データセット10年分 • leave-one-splitによりHit

7/28 • HR@10では、MovieLens-25M、 Yelp、Amazon-musicにおいて、全モデルがヘビーユーザーに対してより悪い結果 • NDCG@10では、 Amazon-musicのTiSASRecと Amazon-electronicsの

8/28 • 特に一般的な（時系列を考慮しない）モデルではヘビーユーザーの方が良い推薦結果を享受できていない過去のデータが多いほどユーザーの嗜好をよりよく学習できるという直感に反している全体的な傾向

9/28 • 全体として、ヘビーユーザーはより高精度な推薦を享受できていない • 4つのデータセットにおいて、ヘビーユーザーが SASRecとTiSASRecによって同等の推薦精度を享受している →これらは新しい

10/28 • どのモデルにおいてもアクティブなユーザーは良い推薦結果を享受できている →最近のインタラクションがより重要ヘビーユーザー or notの推薦結果の違い（新近性基準）

11/28 Q. ヘビーユーザーはそうでない人より精度の高い推薦を享受できているか？ A. いいえ。古いインタラクションの多さが高精度な推薦を阻害している。 ①まとめ

② 性能の良い推薦モデルはどんなデータ分割でも優れているか？

14/28 • Random Split • 全データをランダムに分割 • User Split •

16/28 • Tafeng、Dunnhumby（※注：スーパー）のデータ • Leave One Last, Temporal Globalにより、 NDCG@10,

17/28 • 全パターンにおいて、分割戦略を変えると順位も変わる分割戦略の違いによる精度の差

18/28 • 分割戦略のペア間のケンドールのτ相関は 0.5284から0.7630と中程度であり、多くの順位入替がある • 効果尺度の高い方（各図の右上）では、

19/28 Q. 性能の良い推薦モデルはどんなデータ分割でも優れているか？ A. いいえ。データ分割戦略は順位を大きく変化させる重要な交絡である。 ②まとめ

③ 記載された指標の数値をそのまま受け入れて良いか？

22/28 各種ライブラリで算出される品質指標を比較 • MovieLensLatest-20m、EASE recommender • Temporal Global Splitで分割 •

23/28 • PrecisionとRecallのみが唯一ライブラリ間で一致 • 何が起きている…？ • HitRateでは、DL RS EvaluationにてHitRateの定義と異なる実装（"正確な予測が1つ以上あったユーザーの割合"のはずが、

24/28 • 何が起きている…？ • MAPでは、DaisyRecにおいて同じく定義と異なる実装 Eliotにおいてドキュメントと実装の不一致 NeuRecにおいてはバグ • NDCGでは、Weighted NDCGとBinary

25/28 • 何が起きている…？ • RocAucではさまざまな対応がなされている（そもそも二値ではないランキングにどう対応させるかが明らかではない） • Stack AUC：完全なランキングを用いて全予測を積み上げる →Beta

26/28 論文の記述にはバラツキがあるか？を調査 • 33%（5／15）のみが指標の完全な記述を記載 • 20%（3／15）は十分な記載のある論文への引用を記載 • 47%（7／15）は部分的な記述 or 数式がない論文への引用のみ記載

27/28 Q. 記載された指標の数値をそのまま受け入れて良いか？ A. いいえ。算出方法が思っているものと同一か、確かめる必要があります。 ③まとめ

28/28 まとめ推薦精度が高くても、 ① ヘビーユーザーにはウケていないかもしれない ② データ分割のやり方で優劣がひっくり返るかもしれない ③ 指標の算出式が適切ではないかもしれないので