正確な推薦は無条件に信頼できるか？

Slide 1

Slide 1 text

ACM SIGIR 東京支部 IR Reading 2022秋 2022年11月12日正確な推薦は無条件に信頼できるか？ LINE株式会社栗本真太郎（@kuri8ive）

Slide 2

Slide 2 text

2/28 ① Do Loyal Users Enjoy Better Recommendations? Understanding Recommender Accuracy from a Time Perspective (ICTIR 2022) ② Exploring Data Splitting Strategies for the Evaluation of Recommendation Models (RecSys 2020) ③ Quality Metrics in Recommender Systems: Do We Calculate Metrics Consistently? (RecSys 2021) 本発表で紹介する研究

Slide 3

Slide 3 text

3/28 概要推薦精度が高くても、 ① ヘビーユーザーにはウケていないかもしれない ② データ分割のやり方で優劣がひっくり返るかもしれない ③ 指標の算出式が適切ではないかもしれない ※ 以降、特に断りがない場合、画像は論文から引用しています

Slide 4

Slide 4 text

① ヘビーユーザーはそうでない人より精度の高い推薦を享受できているか？

Slide 5

Slide 5 text

5/28 • 推薦システムの研究はベンチマークデータのテストセットにおける精度を報告するのが一般的 • 時間軸からの精度の分析が足りなくない？ • 一定期間内に活発なユーザーをヘビーユーザーとして、彼らがそうでない人よりも良い推薦を享受できているのか？を調べたいモチベーション

Slide 6

Slide 6 text

6/28 • Movie-Lens 25M, Yelp, Amazon-music, Amazon-electronicの 4データセット10年分 • leave-one-splitによりHit rate（HR）, NDCGで評価（Top-N推薦） • モデル • 時系列を考慮しない：BPR, NeuMF, LightGCN • 時系列を考慮する：SASRec , TiSASRec • ヘビーユーザー or notの基準 1. 累積インタラクション数 2. 活動期間の長さ 3. テストインスタンスとその直前のインタラクションとの日数（新近性）実験設定

Slide 7

Slide 7 text

7/28 • HR@10では、MovieLens-25M、 Yelp、Amazon-musicにおいて、全モデルがヘビーユーザーに対してより悪い結果 • NDCG@10では、 Amazon-musicのTiSASRecと Amazon-electronicsの SASRec & TiSASRecを除き、ヘビーユーザーに対してより悪い結果ヘビーユーザー or notの推薦結果の違い（インタラクション基準）

Slide 8

Slide 8 text

8/28 • 特に一般的な（時系列を考慮しない）モデルではヘビーユーザーの方が良い推薦結果を享受できていない過去のデータが多いほどユーザーの嗜好をよりよく学習できるという直感に反している全体的な傾向

Slide 9

Slide 9 text

9/28 • 全体として、ヘビーユーザーはより高精度な推薦を享受できていない • 4つのデータセットにおいて、ヘビーユーザーが SASRecとTiSASRecによって同等の推薦精度を享受している →これらは新しい or 古いインタラクションを区別するモデル →時系列を考慮しないモデルがヘビーユーザーに良い推薦を提供できないのは古いインタラクションに起因すると仮定ヘビーユーザー or notの推薦結果の違い（活動期間基準）

Slide 10

Slide 10 text

10/28 • どのモデルにおいてもアクティブなユーザーは良い推薦結果を享受できている →最近のインタラクションがより重要ヘビーユーザー or notの推薦結果の違い（新近性基準）

Slide 11

Slide 11 text

11/28 Q. ヘビーユーザーはそうでない人より精度の高い推薦を享受できているか？ A. いいえ。古いインタラクションの多さが高精度な推薦を阻害している。 ①まとめ

Slide 12

Slide 12 text

② 性能の良い推薦モデルはどんなデータ分割でも優れているか？

Slide 13

Slide 13 text

13/28 • 情報検索では、TRECなどの標準化活動や、 NTCIR、CLEF、FIREなどの評価イニシアティブにより、何が健全な評価手法であるかのガイドラインが確立されている • しかし、推薦システムではそうなっておらず、データセット、評価基準、ベースライン、データ分割戦略において幅広い組み合わせが報告されており、どれほど進歩したか、正確に測定することを難しくしている • 本研究の目的は、 ⑴データ分割戦略の多様性の大きさを示すこと ⑵その影響を評価することモチベーション

Slide 14

Slide 14 text

14/28 • Random Split • 全データをランダムに分割 • User Split • ユーザー単位でランダムに分割 • Leave One Last • 最後の1セッションや1アイテムのみをテストとして分割 • Temporal Split • User：Leave One Lastに近いが、1つのみというわけではない • Global：〇〇月△△日以前を学習、それより後をテストとするデータ分割戦略の概観

Slide 15

Slide 15 text

15/28 • 同じデータセットを用いている場合でも一貫性がない • さらに、最も現実的な分割手法とされるTemporal Globalで評価しているモデルが非常に少ない（17件中2件）過去の研究たちはどんなデータ分割戦略を取っているか？

Slide 16

Slide 16 text

16/28 • Tafeng、Dunnhumby（※注：スーパー）のデータ • Leave One Last, Temporal Globalにより、 NDCG@10, Recall@10、ケンドールのτで評価 • モデル • 古典：NMF, BPR • NN ：NeuMF, VAECF, NGCF • NN（スーパーお買い物用）：Triple2vec, VBCAR 実験設定

Slide 17

Slide 17 text

17/28 • 全パターンにおいて、分割戦略を変えると順位も変わる分割戦略の違いによる精度の差

Slide 18

Slide 18 text

18/28 • 分割戦略のペア間のケンドールのτ相関は 0.5284から0.7630と中程度であり、多くの順位入替がある • 効果尺度の高い方（各図の右上）では、垂直方向の点数分散より水平方向の点数分散が大きい →実質的に推薦の異なる側面を評価していることを示す証拠サンプル数を増やし効果的な3モデルに絞って相関実験

Slide 19

Slide 19 text

19/28 Q. 性能の良い推薦モデルはどんなデータ分割でも優れているか？ A. いいえ。データ分割戦略は順位を大きく変化させる重要な交絡である。 ②まとめ

Slide 20

Slide 20 text

③ 記載された指標の数値をそのまま受け入れて良いか？

Slide 21

Slide 21 text

21/28 • ABテストにはコストと時間がかかるため、シミュレーションやオフ方策評価、オフライン評価などでモデルの性能を比較するのが標準的となっている • 品質指標の定式化に一貫性がないことは，不適切なモデル比較や報告結果の誤解釈につながる危険な状況である • 本研究では、論文と公開ライブラリの両方で、品質指標の定義と計算を検討するモチベーション

Slide 22

Slide 22 text

22/28 各種ライブラリで算出される品質指標を比較 • MovieLensLatest-20m、EASE recommender • Temporal Global Splitで分割 • ライブラリ • Replay、Beta RecSys、DaisyRec、RecBole、Eliot、OpenRec、 DL RS Evalluation、MS Recommenders、NeuRec、RecSys PyTorch、rs_metrics 評価設定

Slide 23

Slide 23 text

23/28 • PrecisionとRecallのみが唯一ライブラリ間で一致 • 何が起きている…？ • HitRateでは、DL RS EvaluationにてHitRateの定義と異なる実装（"正確な予測が1つ以上あったユーザーの割合"のはずが、正確な予測アイテムの平均数になっており、1を超えている）評価結果（1／3）

Slide 24

Slide 24 text

24/28 • 何が起きている…？ • MAPでは、DaisyRecにおいて同じく定義と異なる実装 Eliotにおいてドキュメントと実装の不一致 NeuRecにおいてはバグ • NDCGでは、Weighted NDCGとBinary NDCGを計算するものに分かれる評価結果（2／3）

Slide 25

Slide 25 text

25/28 • 何が起きている…？ • RocAucではさまざまな対応がなされている（そもそも二値ではないランキングにどう対応させるかが明らかではない） • Stack AUC：完全なランキングを用いて全予測を積み上げる →Beta RecSys、RecBole、MS Recommendersで採用 • Group AUC：各ユーザーのAUCを平均化 →OpenRec、DL RS Evaluation、Eliot、Replay、RecBoleで採用 • OpenRecとEliotは完全なランキングを受け付ける • DL RS EvaluationとRePlayは指標の計算の前にランキング下位をカットしている • RecBoleは全アイテムの予測が正しい or 全て違うユーザーをスキップしている • などなど… 評価結果（3／3）

Slide 26

Slide 26 text

26/28 論文の記述にはバラツキがあるか？を調査 • 33%（5／15）のみが指標の完全な記述を記載 • 20%（3／15）は十分な記載のある論文への引用を記載 • 47%（7／15）は部分的な記述 or 数式がない論文への引用のみ記載さらには…）NeuMFは HitRateの正確な計算式があるTriRank論文を引用しているが、 NeuMF本文の記述とは矛盾論文分析

Slide 27

Slide 27 text

27/28 Q. 記載された指標の数値をそのまま受け入れて良いか？ A. いいえ。算出方法が思っているものと同一か、確かめる必要があります。 ③まとめ

Slide 28

Slide 28 text

28/28 まとめ推薦精度が高くても、 ① ヘビーユーザーにはウケていないかもしれない ② データ分割のやり方で優劣がひっくり返るかもしれない ③ 指標の算出式が適切ではないかもしれないので ① ' 比較的新しいインタラクションのみ使おう or 重視しよう ② ' 最も現実的なTemporal Globalによる分割で評価しよう ③ ' 実装や計算式を確認して比較しよう（コミュニティは標準化を頼むよ）