論文読み会 KDD2024 | Relevance meets Diversity: A User-Centric Framework for Knowledge Exploration through Recommendations

Slide 1

Slide 1 text

2024-09-03 Relevance meets Diversity: A User-Centric Framework for Knowledge Exploration through Recommendations (KDD’24) ಡΉਓ: @cocomoff

Slide 2

Slide 2 text

RSがサポートする知識探索のプロセスについて、3要素を考慮した研究 (1)推薦の関連性 (relevance) (2)推薦の多様性 (diversity) (3)ユーザの選択行動モデル

Slide 3

Slide 3 text

イントロ •(1)関連性 (2)多様性をバランスさせる手法は広く研究されている • 推薦アイテムのリストをつくるとき、多様性を評価にいれる • リストを構築してから、re-rankingモデルをいれる •リストに対するユーザの消費行動モデルみたいなものも注目されている •UBM (User-Behavior Modeling) •ユーザのアイテムに関する確率モデルに関する研究 •{系列,会話的} {推薦,検索} の一領域 •Q: (推薦したあとの)ユーザモデルを考慮したとき、推薦する部分は何をするべきなのか? •提案: ユーザが受け取る知識量を最大化する推薦システム u i p(u, i) 古典的なやつ (1998)

Slide 4

Slide 4 text

イントロ (続き) •提案: ユーザが受け取る知識量を最大化する推薦システムアイテム情報のカバー率 (a)フィルターバブル的なもの (b)広い範囲を出しているがスカスカ過ぎてユーザが離脱してしまいそう (low relevance, high diversity) (c) ちょうど良さそう ৽͍͠ख๏ΛఏҊ͢ΔλΠϓͱ͍͏ΑΓ΋ ͜ͷ͋ͨΒ͍͠ίϯηϓτΛ ͏·͘Ϟσϧʹམͱͯ͠ݕূ͢Δ࿦จ

Slide 5

Slide 5 text

目次 •イントロ •ユーザモデルと問題の定式化 •実験

Slide 6

Slide 6 text

ユーザモデルに基づくシミュレーション •「リストに対するユーザの消費行動モデルみたいなものも注目されている」の実装 (Alg. 1, Alg. 2) • メモ: いきなり天下り的に出てくるが「普通のプロセス」を書いたらこうなるというぐらいのもの推薦ユーザモデルユーザがシステムから離脱するかどうか (離脱しなければ、次ステップの推薦) 前から順番に「興味」を判定前から順番に「消費」を判定確率でリスト走査から離脱 ηt 確率でアイテムに興味を持つ qi i 確率でアイテムを消費する pi i 直感的には: コンセプトを達成するには、ユーザモデルのもとで推薦戦略 ( を出力する部分) をカスタマイズし、ユーザができるだけ情報を探索できるようにする ({ηt }, {qi }, {pi }) Lt

Slide 7

Slide 7 text

補足: 推薦リストの作成 (既存手法ベース) •新しい推薦手法を提案する論文ではないので、既存手法を使う • (1) カバー率に基づいた手法 • (2) ペアワイズ距離に基づいた手法 (0)ペアワイズ距離関数・ユークリッド距離・コサイン類似度・ミンコフスキー距離・重み付きJaccard距離 d(i, j) := 1 − ∑ w∈W min{ziw , zjw } ∑ w∈W max{ziw , zjw } は例えばitem-userのインタラクションの{0,1} ziw (1)カバー率に基づく多様性 divC ( 𝒳 ) = 1 |C| ∥⋁ i∈X yi ∥0 ・個のカテゴリをどれぐらい含むか C (2)ペアワイズ距離に基づく多様性 divD ( 𝒳 ) = 1 | 𝒳 | − 1 ∑ i∈ 𝒳 ∑ j∈ 𝒳 d(i, j) ԿͰ΋͍͍ ద౰ͳඇྨࣅ౓ ͜ͷू߹ Λ ؔ࿈౓είΞͰ ιʔτ͢Ε͹ 𝒳 L ؔ࿈౓είΞ͸ ྫ͑͹༧ଌϨʔτ 直感的には: 何かしらの多様性スコア関数を使い、一連の推薦・やり取りの間にユーザが実際にインタラクションしたアイテムの多様性を測定し、多くの情報に触れたことを調べる (memo: ただの多様な推薦では? 🤔)

Slide 8

Slide 8 text

定式化・やったこと •Given • アイテムの集合 • ユーザの集合 • 関連度スコア関数 • 多様性スコア関数 • ユーザのモデル • 次のページで •Task • 推薦アルゴリズムの設計 • 「maximize for the set of items that a user interacts with.」 • 実際にこれを設計する (次の次のページで) •やったこと: • 既存のオープンデータ (Movielens-1M、Coat、…) を対象に、このフレームワークを実装 • 既存の手法と比較し、関連性スコア (Recall) と多様性スコア (div) がどうなったかを観察 • 「関連性スコア」と「多様性スコア」の多目的最適化の問題において、良さそうな結果を得た ℐ 𝒰 ℛ : 𝒰 × ℐ → ℝ div : 2ℐ → ℝ 𝒮 div( 𝒳 ) 𝒳 u ∈ 𝒰

Slide 9

Slide 9 text

ユーザのモデル前から順番に「興味」を判定前から順番に「消費」を判定確率でリスト走査から離脱 ηt 確率でアイテムに興味を持つ qi i 確率でアイテムを消費する pi i Logit (全体リストの上) Lt pi := ℛ(u, i) ∑ j∈Lt ℛ(u, j) 1 全体リスト Lt 2 3 j 確率で離脱 ηt 確率で離脱 ηt 確率で離脱 ηt Lt ∑ j=1 ηt (1 − ηt )j−1 j−1 ∏ i=1 (1 − qi ) 離脱確率のモデル: ワイブル分布 (Web系で使われている) ηt ηt := 1 − q(t+1)γ−tγ , q = exp(− 1 λγ ),0 ≤ q ≤ 1 期待ステップ数の計算 (解析解) 𝔼 [steps] = ∞ ∑ t=1 t (qtγ − q(t+1)γ ) μ < 𝔼 [steps] < μ + 1,μ = λΓ(1 + 1/γ)

Slide 10

Slide 10 text

推薦戦略 EXPLORE •RS Alg. : maximize for the set of items that a user interacts with. • いろいろ言ってきたが「多様性スコアを最大化したい」という問題になっている • 関連度スコアは通常の推薦モデルが出力する値 • 多様性スコアの限界効用 (限界多様性?) • それぞれの値は、適当に正規化されているとする (正規化された場合、のように表記) 𝒮 div( 𝒳 ) 𝒳 u ∈ 𝒰 ℛi := ℛ(u, i) 𝒯 i := div( 𝒳 t ∪ {i}) − div( 𝒳 t ) ̂ ℛi ͜͜͸ཧղͯ͠·ͤΜ •提案戦略 EXPLORE •クレイトンコピュラ関数を用い、スコアを求め、大きい順にリストに含める 𝒵 i := [ ̂ ℛ−a i + ̂ 𝒯 −α i − 1]−1/α ίϐϡϥҰ༷ͳपล෼෍ͷྦྷੵ݁߹෼෍ΛϞσϧԽ͢Δؔ਺ ΫϨΠτϯίϐϡϥೖྗͷ྆ํ͕࠷େʹͳΔͱʹۙͮ͘ コピュラ

Slide 11

Slide 11 text

実験 | 提案手法、既存手法、データセット •提案手法: EXPLORE (限界多様性)、EXPLORE-{D,C} (ペアワイズ・カバー率を直接スコアに使う) •既存手法: •関連性が高いものをk個出す •MMR: 最初の方に出てきたもの、検索リスト多様化の基本的な手法 •DUM: IJCAI’15の多様な推薦手法 (MMRと似ているがある主の最適化問題を解いてリストを出す) •DPP: 行列式点過程 (なんか最近流行っている気がするやつ): logdetの限界効用でリストをつくる •DGREC: GNN+BPRつかった推薦こっちはコピュラが関係ない方という理解

Slide 12

Slide 12 text

実験結果 | 精度(Recall) vs 多様性 (divC) •Quality-diversity trade-off

Slide 13

Slide 13 text

実験結果 | 推薦の戦略とスコア、Ablation •Best performance diversity strategy この辺は付録にしか出てこないやつ多様なだけではダメで関連度も大事ということを言っている気がする