Slide 1

Slide 1 text

IR Reading 2024春 2024年6月15日 "多様な推薦"はユーザーの目にどう映るか User Perceptions of Diversity in Recommender Systems (UMAP2024) LINEヤフー株式会社 栗本 真太郎(@kuri8ive) ※ 断りのない限り、図表は紹介論文からの引用です

Slide 2

Slide 2 text

2/18 単なる精度追求以上を求める近年の推薦システム研究の中でも 多様性は人気のある概念 ∵多様な推薦はエンゲージメントや満足度、発見可能性を高め、 ユーザーの消費体験を豊かにする[10, 27]から ∵セレンディピティといったユーザーの主観に依存する概念と比べて 推薦システムへの取り込みが簡単だから(※発表者の感想) 背景|推薦システムにおける"Beyond accuracy"の潮流と多様性 [10] Is diversity optimization always suitable? toward a better understanding of diversity within recommendation approaches. (Information Processing Management, 2021) [27] Understanding the role of latent feature diversification on choice difficulty and satisfaction (User Modeling and User-Adapted Interaction, 2016)

Slide 3

Slide 3 text

3/18 多様性を推薦に取り入れるための多様な指標が開発されてきた[11, 13]ものの その多様性をユーザーがどう認識するかはあまり調べられていない が、この側面は極めて重要 ∵推薦システムの成功は、最終的には客観的な指標ではなく ユーザーが主観的に推薦をどう評価し価値を見出すかによって測定されるから 背景|多様な推薦で見逃されている領域 [11] Intra-list similarity and human diversity perceptions of recommendations: the details matter. (User Modeling and User-Adapted Interaction, 2023) [13] Diversity in recommender systems – a survey. (Knowledge-Based Systems, 2017)

Slide 4

Slide 4 text

4/18 1. どの指標がより多様であると認識されるのか? 2. 多様化度合いの差はどの程度認識されるのか? 3. 多様性指標はどの程度多様性認識を説明できるか? RQs

Slide 5

Slide 5 text

5/18 データセット l 映画:MovieLens Tag Genome 2021[12] l アイテム数1万6000、ユーザー数18万、評価数510万、2021年公開 l 非常に古い映画、長いことアクセスしていないユーザー、評価がほとんどない映画は削除 l 本:GoodBooks-10k[30] l アイテム数6500、ユーザー数5万3000、評価数460万、2017年公開 l ジャンル情報は1書籍に1つ カバー画像、要約、主要書籍ジャンルなどをIMDb.comとGoodReads.comから収集し紐付け このデータから後述の方法で多様化した推薦結果を作成し、実験で用いる [12] Revisiting the tag relevance prediction problem. (SIGIR, 2021) [30] Goodbooks-10k: a new dataset for book recommendations. (FastML, 2017)

Slide 6

Slide 6 text

6/18 l 𝑢, 𝑣: ユーザー l 𝑖, 𝑗: アイテム l 𝑈, 𝐼: 全ユーザー、全アイテム l 𝐶 ⊂ 𝐼: 利用可能なアイテム集合 l 𝐿: 推薦リスト l r!,# ∈ 𝑅: ユーザーによる評価 l ̂ 𝑟!,# : 推定される関連性 l 𝑑(𝑖, 𝑗), 𝑑(𝐿): アイテム𝑖, 𝑗の多様性、リスト𝐿の多様性 記法

Slide 7

Slide 7 text

7/18 前提|評価するどの指標においても制約付き貪欲法で多様化 多様性の定義によらず適用可能で、広く採用されているアプローチ l リストに入れる次のアイテムとして、差益が最も伸びるアイテムを選択 l 差益 := そのアイテムを加えることで加算される関連性と多様性の加重平均 l ↑加重平均はハイパラαで調整(値が大きいほど多様性重視) l 𝑒𝐶𝐷𝐹: データで学習された経験的累積分布関数

Slide 8

Slide 8 text

8/18 評価する多様性指標の選出(1/3)|前提と大まかなグループ 前提:リスト内の多様性(ILD)で考える 𝑑!"# 𝐿 = ∑$,& ∈";$ )& 𝑑(𝑖, 𝑗) 𝐿 ∗ |𝐿 − 1| l 協調フィルタリングベースの多様性(CF) l 評価値行列や協調フィルタリングで学習されたアイテム埋め込みを使うもの l メタデータベースの多様性(MD) l ジャンルやタグを使うもの l コンテンツベースの多様性(CB) l 映画や本の要約文章を使うもの

Slide 9

Slide 9 text

9/18 評価する多様性指標の選出(2/3)|選出基準 l 概念的多様性 l 理想的には、CF、MD、およびCBグループからそれぞれ代表を選ぶこと l 新規性とカバレッジ l 革新的な指標や最近あまり実験されていない指標を優先すること l パフォーマンスの多様性 l 事前調査のオフライン評価で非常に類似した動作を示す指標は含まないこと l SAN値チェック l テストケースにおいて、合理的な順序付けを提供する場合にのみ指標を含むこと

Slide 10

Slide 10 text

10/18 評価する多様性指標の選出(3/3)|選出された指標 l 協調フィルタリングベースの多様性(CF):CF-raw-ILD l 評価値行列に基づくアイテム𝑖, 𝑗のコサイン距離を使う l メタデータベースの多様性(MD):MD-genres-BinDev l 推薦リストの各アイテムに割り当てられたジャンルに基づく二項多様性[25]を使う 二項多様性は、ジャンルのカバレッジとリスト内の非冗長性の二つの成分の積として定義 l コンテンツベースの多様性(CB):CB-plot-ILD l CLIP[18]で映画や本の要約から得た埋め込みを使う (※ その他変種も一部実験では使われているが、本スライドでは説明を割愛) [25] Coverage, redundancy and size-awareness in genre diversity for recommender systems. (RecSys, 2014) [18] Learning transferable visual models from natural language supervision. (ICML, 2021)

Slide 11

Slide 11 text

11/18 実験の流れ(1/2)|EasyStudyフレームワーク[8]に準じて実施 [8] Coverage, redundancy and size-awareness in genre diversity for recommender systems. (RecSys, 2014) 1. 事前アンケート l ドメイン理解度、推薦システムの知識、 "多様な推薦"に関する認識 2. 嗜好の引き出し l 人気度、新規性、多様性に基づいて サンプリングされたアイテムを提示し、 消費した/好きなものを 最低5つ選んでもらう 3. 最も多様だと感じる指標の選出 (→RQ1) l CF, MD, CBそれぞれの多様性指標に 基づいて多様化された 8アイテムずつの推薦リスト3つを提示し、 最も多様だと感じるものを選んでもらう

Slide 12

Slide 12 text

12/18 実験の流れ(2/2)|EasyStudyフレームワーク[8]に準じて実施 4. 多様化度合いの評価(→RQ2) l 特定の多様性指標に基づき ランダムに選ばれた多様化閾値 𝛼 ∈ {0.0, 0.01, 0.1, 0.25, 0.5, 0.75, 0.9, 0.99, 1.0} で生成された3つの推薦リストで 最も多様に見えるものを 選んでもらう * 2回 上記4手順をProlificで募った216人に実施 (MovieLens111人、GoodBooks105人)

Slide 13

Slide 13 text

13/18 RQ1|どの指標がより多様であると認識されるのか? l MDが有意に多く選ばれた α = 0.1と多様化の程度が小さくても、指標間で認識可能な違いが生じている l MDはユーザーの選択とも高い一致を示した ただし、トータルでは単に関連度の低いリストが最も多様だと見做されていた →多様化の認識はある程度関連性の低下の認識と重なってくるのかも

Slide 14

Slide 14 text

14/18 RQ2|多様化度合いの差はどの程度認識されるのか?(1/2) 多様化度合いの評価における、各リストの3つの判断を考慮 l 絶対判断: 各リストのドロップ位置をそのまま多様化度合いの認識とする l 相対判断: 2つのリストの位置の違いを多様化度合いの差の認識とする l 相対2値判断: より多様化度合いの高いリストを多様だと認識したか また、多様化閾値αを以下のクラスターに分割 l 0.0, 0.01, 0.1 : 低多様化 l 0.25, 0.5, 0.75 : 中多様化 l 0.9, 0.99, 1.0 : 高多様化

Slide 15

Slide 15 text

15/18 RQ2|多様化度合いの差はどの程度認識されるのか?(2/2) l 最も多様だと認識されたMD、多様化度合いの差は最も認識されにくい l 同クラスター同士の比較よりも、異なるクラスター間での比較の方が 多様性指標に基づく選出と一致してくる

Slide 16

Slide 16 text

16/18 RQ3|多様性指標はどの程度多様性認識を説明できるか?(1/2) CF, MD, CBで各αで多様化した結果について、各種指標の変化を観察 l 低多様化(𝛼 ≤ 0.1)の範囲では、ほとんどの指標がある程度一緒に増加 l 多様化度合いが高まるほど、多くの指標の伸びは鈍化

Slide 17

Slide 17 text

17/18 RQ3|多様性指標はどの程度多様性認識を説明できるか?(2/2) l RQ2の結果と同様、CFは両データ/両判断タイプで安定して良い性能 MD-BinDevにもいえるように見える…(※ 発表者の感想) l データセット間でかなりの違いが見られ、ドメイン間の一般化は難しい l 全指標で一致した判断とユーザーの判断が異なるケースも28%存在

Slide 18

Slide 18 text

18/18 1. どの指標がより多様であると認識されるのか? メタデータベースの指標 多様性は種類やジャンルと関連づけられているのかも 2. 多様化度合いの差はどの程度認識されるのか? 多様化の差が顕著な状況では認識してもらえるが、 差があまりないと認識されにくくなる 3. 多様性指標はどの程度多様性認識を説明できるか? 効果的とされる指標でも実際のユーザーの認識と一致しないことがある まとめ