精度を無視しない推薦多様化の評価指標

IR Reading 2024秋 2024年11月08日精度を無視しない推薦多様化の評価指標 On Evaluation Metrics for Diversity-enhanced
Recommendations (CIKM 2024) LINEヤフー株式会社栗本真太郎（@kuri8ive） ※ 断りのない限り、図表は紹介論文からの引用です

2/25 1. カテゴリベース ⚫ カテゴリカバレッジ（CC）：推薦アイテム群が全カテゴリをどのくらいカバーしているか 𝐶𝐶 ℛ𝑢 = ڂ𝑖 ∈
ℛ𝑢 𝒞𝑖 𝒞𝐼 ℛ𝑢 はユーザー𝑢に対する推薦アイテム群、𝒞𝐼 はアイテム𝑖のカテゴリ、𝐼はアイテム集合 2. 距離ベース ⚫ リスト内平均／最短距離（ILAD/ILMD）：推薦アイテム間がどれくらい離れているか ILD ℛ𝑢 = 1 ℛ𝑢 ෍ 𝑖 ∈ ℛ𝑢 𝑑(𝑖, ℛ𝑢 ∖ i) ℛ𝑢 ∖ 𝑖はアイテム𝑖を除いた推薦アイテム群、𝑑(𝑖, ℛ𝑢 ∖ i)は𝑖とℛ𝑢 ∖ 𝑖の距離 𝑑(𝑖, ℛ𝑢 ∖ i)𝑎𝑣𝑒𝑟𝑎𝑔𝑒 = 1 ℛ𝑢 − 1 ෍ 𝑖 ∈ ℛ𝑢∖i 𝑑(𝑖, 𝑗) 𝑑(𝑖, ℛ𝑢 ∖ i)𝑚𝑖𝑛 = min 𝑖 ∈ ℛ𝑢∖i 𝑑(𝑖, 𝑗) ※ 全体レベルではエントロピーやジニ係数等あるが、本研究では個々のレベルの指標に焦点背景｜多様性指標は（個々のレベルでは）主に2種類[40] [40] Fairness and diversity in recommender systems: a survey (TIST'23)

3/25 推薦の多様性を上げると精度が下がり、逆も然りというトレードオフが存在この課題解決のため、制約の導入やより細かな最適化技術が提案されてきたが、評価については多様性は精度とは切り離れされていた Q. それの何が問題なのか？ A. 多様性の向上が"効果的な推薦"でもたらされたか分からない ※ 効果的な推薦
:= テストデータの（つまり、ユーザーが消費する）アイテムの推薦背景｜既存の多様性指標では効果的な推薦かを区別できない

4/25 先の3つの多様性指標、CC, ILAD, ILMDによりTop-10推薦の評価をしてみる ⚫データセット ⚫ Taobao (EC)[43, 44] ⚫手法
⚫ Maximal Marginal Relevance (MMR)[5] ⚫ Determinantal Point Process (DPP)[6] ⚫ DGRec[34] ⚫評価対象 ⚫ 推薦結果全体 ⚫ 効果的なアイテム群（:= 推薦結果とテストデータの積集合）予備調査｜効果的な推薦かを区別できていない例（1／2） [43] Joint optimization of tree-based index and deep model for recommender systems (NeurIPS'19) [44] Learning tree-based deep model for recommender systems (KDD'18) [5] The use of MMR, diversity-based reranking for reordering documents and producing summaries (SIGIR'98) [6] Fast greedy map inference for determinantal point process to improve recommendation diversity (NeurIPS'18) [34] DGRec: Graph Neural Network for Recommendation with Diversified Embedding Generation (WSDM'23)

5/25 ⚫効果的なアイテム群に対する性能は、全体でのそれと比べて著しく低下 ⚫ たとえばDPPでは、効果的なアイテム群でのCCの貢献分は全体のわずか1%に過ぎない →の例だと ⚫ 単にバラバラなアイテムを推薦しているℛ𝑎 より当たりを推薦できているℛ𝑏 の方が
多様性指標の観点では低評価 ⚫ GTではが3回も出現していることを無視予備調査｜効果的な推薦かを区別できていない例（2／2）

6/25 1. 各手法は既存指標においてどんな性能を示すのか？効果的な推薦かを考慮した場合、性能にどう影響するのか？ 2. 精度の高い推薦とランダムな推薦を組み合わせることで、既存指標において多様化手法を凌駕できるか？ RQs

7/25 実験設定｜より多くのデータセット、手法による評価（1／2） ⚫データセット ⚫ Taobao (EC) ⚫ Amazon Beauty (Beauty)
⚫ Million Song Dataset (MSD) ⚫手法 ⚫ LightGCN[12] ⚫ MMR、DPP、DGRec ⚫ Popularity（人気度順）、Random ⚫評価設定 ⚫ @10、@20、@100 [12] Lightgcn: simplifying and powering graph convolution network for recommendation (SIGIR'20)

8/25 実験設定｜より多くのデータセット、手法による評価（2／2） ⚫評価指標 ⚫ Recall、NDCG ⚫ CC、ILAD/ILMD ⚫評価対象 ⚫ 推薦結果全体
⚫ 効果的なアイテム群（:=推薦結果全体とテストデータの積集合）アイテム間の類似度は内積で測る、したがって𝑑 𝑖, 𝑗 = (1 − 𝒆𝑖 𝒆𝐽 𝑇) , 𝒆はアイテム𝑖の正規化された埋め込みで、埋め込みはLightGCNにより学習

9/25 実験結果（RQ1）｜既存の多様性指標の課題の確認（1／2） ⚫推薦結果全体では、Randomが多様性指標においてベスト一方RecallやNDCGは他手法より著しく低い ⚫推薦結果全体では、MMR, DPP, DGRecはLightGCNより多様性を改善したが、効果的なアイテム群に限ると、むしろ悪化させた特に多様化の工夫が入っていないLightGCNが多様性指標でベスト推
薦結果全体効果的なアイテム群改善悪化

10/25 実験結果（RQ1）｜既存の多様性指標の課題の確認（2／2）ユーザーをRecallに基づいて2分割 ⚫ Recall = 0：ネガティブグループ ⚫ Recall >
0：ポジティブグループ ⚫ポジティブグループは多様化手法においては少数派たとえばDGRecではLightGCNと比べてポジティブグループは6割強も減少 ⚫精度向上と多様性向上はそれぞれ違うグループからもたらされる精度は少数派のポジティブから、多様性は多数派のネガティブから

11/25 実験結果（RQ2）｜ランダムを混ぜ込むと…？（1／4） RQ1の実験結果から、「通常の推薦にランダムを混ぜる（攻撃）だけで多様性指標は改善されちゃうのでは…？」という気持ちが湧いてくる RQ1と同様、アイテム／ユーザーレベルで評価 ⚫（追加）手法 ⚫ ランダム攻撃：LightGCNの推薦結果5つ +
ランダムに抽出した5つ ⚫ 貪欲攻撃：LightGCNの推薦結果5つ + CC & ILADを最大化する5つを貪欲に選択

12/25 実験結果（RQ2）｜ランダムを混ぜ込むと…？（2／4） ⚫ 貪欲攻撃が精度観点でも多様性観点でもほとんどの場合でベスト MSDでは、多様化手法と比べてCCを少なくとも8割改善

13/25 実験結果（RQ2）｜ランダムを混ぜ込むと…？（3／4） ⚫ユーザーレベルでの攻撃 ⚫ ネガティブグループへの攻撃：対象ユーザーの所与の割合の推薦アイテムを LightGCNのものからランダムなものに置き換える ⚫ 全ユーザーへの攻撃：↑を全ユーザーに行う 10%, 30%,
50%, 70%（MSDでは60%）を攻撃して評価

14/25 実験結果（RQ2）｜ランダムを混ぜ込むと…？（4／4） ⚫ネガティブの30%に攻撃するだけで、全指標で少なくとも1つの多様化手法を上回る 70%に攻撃するとほぼベストの性能にまで到達 ⚫全ユーザーでも、50%の攻撃で全指標において少なくとも1つの多様化手法を上回る

15/25 1. 各手法は既存指標においてどんな性能を示すのか？ランダムには敵わない効果的な推薦かを考慮した場合、性能にどう影響するのか？多様性を改善させられない 2. 精度の高い推薦とランダムな推薦を組み合わせることで、既存指標において多様化手法を凌駕できるか？できてしまう
RQs

16/25 提案｜精度を無視しない推薦多様化の評価指標を作る単に多様なだけでなく、正確かつ多様な推薦が評価されるべきまた、GTの分布に一致するものも評価されるべき以下の原則にしたがって開発する ⚫効果的でないアイテム群の評価では、値は低減する ⚫効果的なアイテム群の評価では、既存の多様性指標との相関を高く保つ

17/25 提案指標1：効果的でない推薦の寄与を減らすDCC 既存のカテゴリベース指標CCは効果的な推薦かにかかわらず均等な重みを割り当てている効果的でない推薦の寄与を減らすため、割引係数αを組み込む 𝐶 ℛ𝑢 = ራ 𝑖 ∈
ℛ𝑢 𝒞𝑖 , 𝐷𝐶𝐶 ℛ𝑢 = 1 𝒞𝐼 ( 𝒞ℛ𝑢∩𝒢𝑢 + 𝛼 𝒞ℛ𝑢∖𝒢𝑢 ) 𝒞𝐼はデータセット内の全カテゴリ集合、𝒢𝑢はユーザー𝑢のテストアイテム集合

18/25 提案指標2：頻度も考慮したDCCであるFDCC GT 𝒢𝑢 に高頻度で現れるカテゴリにより大きな重みを付与 𝐹𝐷𝐶𝐶 ℛ𝑢 = 1 𝒞𝐼
෍ 𝑐∈𝒞ℛ𝑢∩𝒢𝑢 𝑐𝑘 + 𝛼 𝒞ℛ𝑢∖𝒢𝑢 , 𝑐𝑘 = ൝ 1 𝑓𝒢𝑢 𝑘 < 𝑏, log𝑏 𝑓𝒢𝑢 (𝑘) 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 𝑓𝒢𝑢 𝑘 は𝒢𝑢におけるカテゴリ𝑘の出現頻度

19/25 提案指標3：効果的でない推薦の寄与を減らすDILAD 既存の距離ベース指標ILADは効果的な推薦かにかかわらず均等な重みを割り当てている効果的でない推薦の寄与を減らすため、割引係数βを組み込む 𝐷𝐼𝐿𝐴𝐷 ℛ𝑢 = 1 ℛ𝑢 (
ℛ𝑢 − 1) ෍ 𝑖∈ℛ𝑢 ෍ 𝑗∈ℛ𝑢∖𝑖 𝑤𝑖 𝑤𝑗 𝑑(𝑖, 𝑗) , 𝑐𝑘 = ቊ 1 𝑘 ∈ 𝒢𝑢 , 𝛽 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒

20/25 指標に大きな影響を与える割引係数の調整（1／2） αやβを0、つまり効果的でない推薦を無視するもの不適切 ∵推薦システムにおいて、負のラベルがある≒ユーザーの好みでない ⚫αの最適な範囲探索 ⚫ 全ユーザーのtop-k推薦結果ℛを、効果的でない推薦の数に基づいてk+1個のグループに分類 ⚫ n+1個目のグループはℛ𝑛(0 ≤
𝑛 ≤ 𝑘)（n個の効果的なアイテムとk-n個のそうでないアイテムで構成） ⚫ ℛ𝑛に似たリストが生成される確率を𝑃(ℛ𝑛)、これを使ってn個の効果的なアイテムを含むリストの割合を近似 ⚫ 𝐷𝐶𝐶 ℛ = σ𝑛=0 𝑘 𝐷𝐶𝐶 ℛ𝑛 ∙ 𝑃 ℛ𝑛 , 𝐷𝐶𝐶 ℛ𝑛 0 ≤ 𝑛 ≤ 𝑘) = 𝑛 + 𝛼(𝑘 − 𝑛) ⚫ 𝑝をtop-k推薦の精度と定義し、ℛ𝑛を推薦する確率をk個のうちn個が効果的な場合として二項分布によりモデル化 P ℛ𝑛 0 ≤ 𝑛 ≤ 𝑘) = 𝑘 𝑛 𝑝𝑛(1 − 𝑝)(𝑘−𝑛) ⚫ 効果的なアイテムの寄与を多数派とするため、任意の𝑖, 𝑗 ∈ [0, 𝑘]に対して、次の不等式が満たされるべき if 𝑖, 𝑗, 𝑡ℎ𝑒𝑛 𝐷𝐶𝐶 ℛ𝑖 ∙ 𝑃 ℛ𝑖 > 𝐷𝐶𝐶 ℛ𝑗 ∙ 𝑃 ℛ𝑗

21/25 指標に大きな影響を与える割引係数の調整（2／2） ⚫αの最適な範囲探索（続き） ⚫ 効果的でないアイテムの不確実性を考慮して、全推薦アイテムに先の不等式を満たすことを要求しない代わりに累積確率σ𝑛=0 𝑁 𝑃 ℛ𝑛 ≥
𝜏が満たされる最小値𝑁を𝑁𝜏 𝛼と定義し、少なくとも1であるようにする ⚫ 区間[0, 𝑁𝜏 𝛼]のすべての𝑖, 𝑗に対して先の不等式が満たされる必要がある ⚫ 本研究では𝜏は0.99に設定（すなわち、99%以上の推薦結果がこの要件を満たす） ⚫ 𝛼 ∈ [0, 1]の最大値を理想的な割引係数として定義 βも概ね同様の手順で範囲探索を行う（唯一の違いは、DILADはDCCやFDCCと違ってペアで計算する指標のため、𝑁𝜏 𝛼 ≥ 2）

22/25 提案指標による評価設定 Top-10推薦において、提案指標で多様化手法や攻撃戦略を評価 ⚫割引係数のパターン ⚫ 最小値0（効果的でないアイテムの存在を無視） ⚫ 最大値1（効果的かどうか関係なく同一視） ⚫ 理想値（先の手順により設定）
α：@Taobao = 0.008, @Beauty = 0.011, @MSD = 0 β：@Taobao = 0.004, @Beauty = 0.005, @MSD = 0.015

23/25 提案指標による評価（1／2）｜理想割引係数での結果 ⚫精度志向のLightGCNが全提案指標で一貫してベスト ⚫既存指標では高い評価を得ていたPopularityやRandomはパーソナライズされた各手法より低評価効果的でない推薦結果で（不当に）稼いでいた多様性向上を抑制 ⚫多様化手法による多様性の改善幅は、提案指標では相対的に減少効果的かつ多様な推薦は難しい

24/25 提案指標による評価（2／2）｜割引係数の影響 ⚫割引係数が大きくなるにつれ、ランダム推薦&ランダム攻撃&貪欲攻撃の性能が上がる効果的でない推薦の影響を抑えるには、割引係数を比較的小さく設定する必要

25/25 ⚫既存の多様性評価指標は、多様性の向上が効果的な推薦でもたらされたのかを区別できず、 Ground Truthの分布も無視していることを指摘した ⚫DCC, FDCC, DILADという精度を考慮した多様性評価指標を提案した ⚫推薦結果が単に多様なだけではなく効果的でもある必要がある場合には、多様化手法はあまり多様性を向上させられず、
精度志向の手法にすら劣る場合があることを明らかにしたまとめ

精度を無視しない推薦多様化の評価指標

精度を無視しない推薦多様化の評価指標

kuri8ive

More Decks by kuri8ive

Other Decks in Research

Featured

Transcript

IR Reading 2024秋 2024年11月08日精度を無視しない推薦多様化の評価指標 On Evaluation Metrics for Diversity-enhanced

2/25 1. カテゴリベース ⚫ カテゴリカバレッジ（CC）：推薦アイテム群が全カテゴリをどのくらいカバーしているか 𝐶𝐶 ℛ𝑢 = ڂ𝑖 ∈

4/25 先の3つの多様性指標、CC, ILAD, ILMDによりTop-10推薦の評価をしてみる ⚫データセット ⚫ Taobao (EC)[43, 44] ⚫手法

7/25 実験設定｜より多くのデータセット、手法による評価（1／2） ⚫データセット ⚫ Taobao (EC) ⚫ Amazon Beauty (Beauty)

8/25 実験設定｜より多くのデータセット、手法による評価（2／2） ⚫評価指標 ⚫ Recall、NDCG ⚫ CC、ILAD/ILMD ⚫評価対象 ⚫ 推薦結果全体

10/25 実験結果（RQ1）｜既存の多様性指標の課題の確認（2／2）ユーザーをRecallに基づいて2分割 ⚫ Recall = 0：ネガティブグループ ⚫ Recall >

12/25 実験結果（RQ2）｜ランダムを混ぜ込むと…？（2／4） ⚫ 貪欲攻撃が精度観点でも多様性観点でもほとんどの場合でベスト MSDでは、多様化手法と比べてCCを少なくとも8割改善

18/25 提案指標2：頻度も考慮したDCCであるFDCC GT 𝒢𝑢 に高頻度で現れるカテゴリにより大きな重みを付与 𝐹𝐷𝐶𝐶 ℛ𝑢 = 1 𝒞𝐼

24/25 提案指標による評価（2／2）｜割引係数の影響 ⚫割引係数が大きくなるにつれ、ランダム推薦&ランダム攻撃&貪欲攻撃の性能が上がる効果的でない推薦の影響を抑えるには、割引係数を比較的小さく設定する必要