[IR Reading 2021秋論文紹介] Fairness among New Items in Cold Start Recommender Systems (SIGIR 2021) /IR-Reading-2021-fall

Slide 1

Slide 1 text

[論⽂紹介] Fairness among New Items in Cold Start Recommender Systems Ziwei Zhu1, Jingu Kim2, Trung Nguyen2, Aish Fenton2, James Caverlee1 1 Texas A&M University, 2 Netflix SIGIR 2021 論⽂紹介する⼈筑波⼤学加藤研究室新⽥洸平 https://sites.google.com/view/kohei-shinden ※スライド中の図は論⽂より引⽤ 2021年10⽉30⽇ IR Reading 2021 秋セッション 2 No.2

Slide 2

Slide 2 text

• コールドスタート推薦における新規アイテム間の公平性を向上させる⼿法の提案どんな論⽂？ 2 既存研究ではウォームスタートでの公平性既存⼿法提案⼿法主な貢献 • コールドスタート推薦における新規アイテム間の不公平問題を調査 • 新規アイテム間の公平性を向上させるフレームワークと２つのモデルを提案 • 提案モデルが推薦の公平性を⾼めつつユーティリティを維持する有効性があることを実験で⽰したユーザのフィードバックがない状態

Slide 3

Slide 3 text

システムに新規アイテムを追加した瞬間にアイテムの公平な推薦を提供することも重要背景: 推薦システムにおけるアイテムの公平性 • 既存研究はウォームスタート推薦におけるアイテムの公平性に注⽬ ‒ ウォームスタート推薦: ユーザのフィードバックがある状態での推薦 • ユーザのアイテムに対するレーティング予測における公平性 • ランキング結果におけるポジションバイアスを考慮した公平性など

Slide 4

Slide 4 text

既存のコールドスタート推薦では公平性が考慮されていない背景: コールドスタート推薦 • ユーザからのフィードバックなしに新規アイテムを推薦 Separate-training ⼿法２つのモデルを分離して学習 Joint-training ⼿法２つのモデルを結合して学習協調フィルタリング埋め込みコンテンツ埋め込み U " V ユーザベクトル U アイテムベクトル V 新規アイテムユーザウォームスタートアイテムで学習協調フィルタリング埋め込みコンテンツ変換モデルベクトル新規アイテムユーザウォームスタートアイテムで学習推薦に利⽤予測スコア例例ウォームスタートアイテムで学習

Slide 5

Slide 5 text

コールドスタート推薦における公平性を⾼める⼿法の提案具体的な内容 • コールドスタート推薦における新規アイテムの不公平について調査 ‒ 既存のコールドスタート推薦ではアイテムが不公平に扱われている • 新規アイテム間の公平性を向上させる後処理フレームワーク，具体的な2つのモデルを提案 • 提案⼿法が公平性を向上させて推薦のユーティリティを維持する有効性を実験で⽰した⽬的と研究内容 5

Slide 6

Slide 6 text

• コールドスタート推薦の後処理としてアイテムの公平性を考慮したリランキングを⾏うフレームワーク ‒ 後処理のメリット: コールドスタート推薦モデルを学習し直すコストが無い提案⼿法 6 Heate, DropoutNet, DeepMusic, KNN etc. 1. 元の推薦⼿法 2. アイテムをリランキングするオートエンコーダ 3. オートエンコーダの学習に公平性を導⼊要件２公平性を向上するために以下の要件を設定要件1. 予測スコアが低いアイテムを最も予測スコアが⾼いアイテムに近づける要件2. すべてのユーザに対するアイテムの予測スコアを平等にする

Slide 7

Slide 7 text

• 予測スコアが低いアイテムを最も予測スコアが⾼いアイテムに近づけるための２つのモデルを提案具体的な公平性向上モデル 7 アイテムの⽬標となるスコア分布の⽣成３つのアイテムのスコア分布の例スコアが低いアイテムスコアが⾼いアイテムスコアの低いアイテムを⽣成モデルの出⼒である⽬標となる分布に近づくように学習 Popularity bias に対処する既存⼿法を応⽤（ベースライン）⼈気なアイテムのスコアをダウンスケール不⼈気なアイテムのスコアをアップスケール

Slide 8

Slide 8 text

• RQ1: 公平性向上のパフォーマンス， RQ2: モデルのハイパーパラーメータの影響， RQ3: グループレベルの公平性への影響について検証 • 評価指標: nDCG, MDG（MDG-min10%, MDG-min20%, MDG-max10%） • データセット: ML1M, ML20M, CiteULike, XING • ベースライン: Heter, DropoutNet, DeepMusic, KNN, Scale（提案⼿法）, Noise（ランダムノイズを加える⼿法） • 再現性: https://github.com/Zziwei/Fairness-in-Cold-Start-Recommendation 実験内容 8 𝜹(𝒙): 𝒙 が真であれば 𝟏, 違えば 𝟎 𝑀𝐷𝐺𝒊 = 0: アイテムがマッチした全てのユーザに推薦されない 𝑀𝐷𝐺𝒊 = 1: アイテムがマッチした全てのユーザに1位で推薦される新規アイテムの真の陽性率を計算，評価値が⼤きいほどシステムがより公平であることを⽰す

Slide 9

Slide 9 text

• Gen は Scale や他のベースラインと⽐較して新規アイテムの公平性を⾼めてユーティリティを維持するのか？→ Yes 実験結果: RQ1 公平性向上のパフォーマンス 9 低下向上向上低下 • ユーティリティは多少下がるものの維持できている範囲であり全体の公平性が向上したと結論づけ • ⽐較⼿法である Heater ではほとんど公平性がなかったアイテムに対して公平性を⼤幅に改善また，単なる Noise はそこまで公平性が向上しない

Slide 10

Slide 10 text

• 2つの提案⼿法におけるハイパーパラメータの影響は？ →パラメータを⼤きくすると公平性向上⼒が⾼まる実験結果: RQ2 ハイパーパラメータの影響 10 • 単純な Noise ⼿法より Gen, Scale はユーティリティが⾼く維持されており，公平性向上の効果も⼤幅に⼤きいことがわかる →Noise よりも Gen, Scale がより優れていると⾔える

Slide 11

Slide 11 text

• 提案⼿法がグループレベルの公平性に与える影響は？ →グループレベルの公平性も⼤幅に改善する実験結果: RQ3 グループレベルの公平性への影響 11 ※公平性の研究では個々のアイテム間の公平性も重要であるが，同じ属性であるようなアイテムのグループ間の公平性も重要映画データセットにおいてジャンルによってグループ化して評価最も低いジャンルは「ドキュメンタリー」全ての既存⼿法に対して提案⼿法を適⽤することでグループ間の公平性が⼤幅に向上することがわかる

Slide 12

Slide 12 text

まとめ 12 ウォームスタート推薦におけるアイテムの公平性の研究が⾏われてきた課題: コールドスタート推薦における公平性を考慮した⼿法はまだ提案されていない⽬的: コールドスタート推薦における公平性を⾼める⼿法の提案コールドスタート推薦の後処理フレームワークと具体的な２つの公平性向上モデル（Gen, Scale）の提案 RQ1: 公平性向上のパフォーマンス →ユーティリティは多少下がるものの維持できている範囲であり公平性は⼤幅に向上することを確認 RQ2: モデルのハイパーパラーメータの影響 →パラメータを⼤きくすることでモデルの公平性を⾼めることを確認， Noise よりも Gen, Scale が⼤幅に向上 RQ3: グループレベルの公平性への影響 →個々のアイテム間の公平性のみではなくグループ間の公平性も向上することを確認背景課題と⽬的提案⼿法実験結果

Slide 13

Slide 13 text

Appendix 13

Slide 14

Slide 14 text

• Gen は Scale や他のベースラインと⽐較して新規アイテムの公平性をどのように⾼めてユーティリティを維持するのか？実験結果: RQ1 公平性向上のパフォーマンス 14 低下向上向上低下 • ４つのデータセットを利⽤した実験でもユーティリティは多少下がるものの維持できている範囲であり全体の公平性が向上