Slide 1

Slide 1 text

Online Certification of Preference-based Fairness for Personalized Recommender Systems 著者: V. Do , S. Corbett-Davies , J. Atif , and N. Usunier ( LAMSADE, Universite PSL, Universite Paris Dauphine, CNRS, Meta AI) 学会: AAAI2022 (Outstanding Paper Award) 読む人: @cocomoff @論文読み会 2022/3/15

Slide 2

Slide 2 text

注意 かなりいろんな分野の概念・単語が出てきて論文自体が難しいの で,雰囲気で読んだり適当に想像して読んでます

Slide 3

Slide 3 text

概要 推薦システムの監査 (facing scrutiny, audit) sensitivyデータの粗視化処理 (coarse-grained parity assesments) には限界がある 貢献 envy-freeness の導入して banditの手法を応用した サンプル効率の高い推定手 法・理論保証を与えた 実データで検証した

Slide 4

Slide 4 text

背景 推薦システムの監査 (audit) が研究されている [Datta et al. 2015] 女性は高い給料の職業が広告に出にくい [Imana et al. 2021] 似た仕事でも性別で届く広告が異なる このような不一致性を disparity と呼ぶ.RS-auditではこれを制御 したい (possible acceptable justification of the disparities) 一方で disparity は必ずしも「less favorable treatement」を意味してお らず,ユーザの好み (preference) が反映されている場合もある ユーザグループ間での平等感? (equal satisfaction) を目指した既存手法 [Mehrotra et al. 2017] は限界がある (e.g., 難しい比較タスクが必要) 貢献: 新しくenvy-freenessを導入した手法を提案する envy-freeness: each user prefers their recommendation to those of all other users (財の分配でよく出てくるやつ)

Slide 5

Slide 5 text

推薦システム監査 (auditing) auditorはRSのenvy-freenessをチェックする envy-freenessのチェックに「ユーザの選好」が関わるが,ユーザ の選好は部分的にしか観測できない RSの出力をそのままユーザに流すだけではなく,ユーザの選好を推 定するためのexploreを行う場合がある banditの考え方を使えばいけるのでは?というのがアイデア.ただ しrandom性のUXへの影響を抑えるために「保守的な探索」を使う

Slide 6

Slide 6 text

補足: Parity これまで,クラス分類では似たような路線で研究されてきた [Zafar et al. 2017] [Kim et al. 2019] [Ustun et al. 2019] (parity から preference へ) 公平性の種類: parity in treatment / parity in impact (↓神嶌先生資料)

Slide 7

Slide 7 text

補足: Multisided Fairness RSの3要素: Cunsumers ,providers , platform/system -fairness 例: クレジットカード会社の推薦において,消費者側のdisparate impactが問われるケース 他の例: age, gender, raceによって不公平な決定を受けないこと -fairness 例: Kiva.org (micro-finance site) → よく分からなかった 他の例: make/female job applicantsのように,推薦されるアイテ ムの群 (pool) が不公平な形になっていない状態っぽい -fairness = -fairness + -fairness ユーザ自身の話とアイテム自身の話の両方があるという考え方

Slide 8

Slide 8 text

目次 イントロダクション 概念の説明 (難しい) アルゴリズムの説明 (もっと難しい) 実験

Slide 9

Slide 9 text

§3.1 フレームワーク ユーザ, Personalized RS (PRS) のユーザ ごとの推薦ポリシー : コンテキスト でアイテム を推薦する確率 同期設定 (各ユーザ ,各時間ステップ において): を観測し,アイテム を選択し,報酬 を得る 期待報酬 で表す : ユーザ ,ポリシー の効用 は定常と仮定する (時間変化しない) タスクは が envy-free かどうかを監査すること (学習はしない)

Slide 10

Slide 10 text

補足: context, action PRSのコンテキスト とかアクション って何? 論文では様々なオブジェクトが扱えるように汎用的な表記になっている 例1: 検索エンジン はクエリ, はドキュメント単体やランキングリスト 例2: 音楽ストリーミングサービス はユーザが聞いた曲, は次に聞く曲やプレイリスト ちなみに は を展開(?)し て書くと以下の意味:

Slide 11

Slide 11 text

§3.2 ε-envy-free 推薦 (ε-無羨望推薦) 既存の監査基準 (とPRSにおける課題) 1. recommendation parity: ユーザごと/ユーザグループごとで,推薦される アイテムの分布が同じ → ユーザの選好に依存した変化 (分布のdisparity) と対立する 2. equal user utility: ユーザ/グループが受け取る効用は同じ, i.e., → ユーザが別の効用形 (最適な行動が違うなど) を持っている場合,equal user utilityを前提としているとシステムの効果が低減する [New] ε-envy-free 推薦: : 自分の推薦ポリ シー の方が,他人のポリシー よりも望ましい (= 効用が大きい)

Slide 12

Slide 12 text

論文の考え方 (?) 固い公平性の議論では,ユーザ間やユーザグループ間での分布のparityな どを考えなければいけなかったので,PRSとは相性が悪かった 無羨望 (EF)を用いて,固いparityの代わりに次の主張・原則を認めたい 原則: 「他の個人・グループにとって利を与える (benefits everyone)」限 り,異なるポリシー を採用していても「公平」なPRSと見なす 結果として… PRSは個人の選好に良く適合していれば(かつ他の人に対して羨望が起き ていなければ)公平とみなす → EFが満たされているか?を について確 認するアルゴリズムを考えたい EFの計算が大変なので,ちょっと近似したものを計算する

Slide 13

Slide 13 text

§3.3 EF互換性 | 他の概念との関係性 EF性と最適推薦 をユーザ の最適な推薦ポリシーとする.こ のとき,最適推薦システム は無羨望 (= EF) EF性とitem-side公平性 Item-side公平性はRSの分野でこれまで研究されてきた (cf. C/P-fairness) Parity of exposure (平等?): カテゴリに含まれたアイテム数に比例し て,そのカテゴリがexposureされること (e.g., Men/Femail) Equity of exposure (公平?): カテゴリがユーザへの関連性に比例し てexposureされること これはPRSの文脈でどのような定義になるか

Slide 14

Slide 14 text

§3.3 EF互換性 (つづき) Parity of exposureとEquity of exposureの下で最適化ポリシーをそれぞれ と で書くとき,以下で定義される.

Slide 15

Slide 15 text

§3.3 EF互換性 (つづき その2) Proposition 1: は無羨望 (envy-free),ただし は一般に無羨望ではない 説明1: parity constraint (↑の式) がユーザごとで同じ ( に非依存) なの で,parity of exposureはEFになる: 説明2: 関連性に比例して出力されるため,効用がひっくり返ることがある (説明読んでもよく分からなかった ) やりたいこと(再掲): EF性を判定するアルゴリズムの構築

Slide 16

Slide 16 text

§3.4 確率的緩和 EF性は「あるユーザ に注目して, 以外のすべてのユーザと比較」す るような検証が必要になり,これを全ユーザについて繰り返す 大変なのでパラメータ を使って判定基準を緩和する 1- 以上のユーザに対して,top- %の効用が得られていたらOK 理論的なポイント: 必要なサンプル数がユーザ数 に依存しない Def 3.2: , を 上の均一分布とする.ユーザ が - envious であるとは と定義する. このときRSが( -EFであるとは,最低 割合のユーザが - enviousではないことと定義する. やりたいこと(最新版): PRSが -EFかどうかを判定する

Slide 17

Slide 17 text

目次 イントロダクション 概念の説明 (難しい) アルゴリズムの説明 (もっと難しい) 実験

Slide 18

Slide 18 text

§4.2 (等価な) バンディット問題 EF性を判定したいので,対象ユーザ について: 簡単化のために, と表す を推定するためには, で推薦した際の報酬を観察する Note: バンディット問題っぽさがある 基準となる自分自身 (baseline) 他のユーザ を試すかどうか (どの を選ぶか=arm) 次のようなアルゴリズムをつくる 入力: (と適当なパラメータ) 出力: envy or ε-no-envy (上の式を満たす? Yes/No)

Slide 19

Slide 19 text

§4.2 OCEF (Online Certification of Envy-Freeness) の概要 概略 4-5行目 (腕の選択): baselineの を 選ぶ or 選択肢 から選ぶ 6行目: 推薦ポリシー を選び報酬 を観測して情報を更新する 7行目: 次ステップの候補を更新する 8-9行目: 候補がなければ無羨望 (ε- no-envy),あれば次に進む ポイント バンディットの信頼区間 (conf. interval) の部分 (と補題)

Slide 20

Slide 20 text

§4.2 OCEFは何を見ているか? バンディット問題をイメージすると,腕 の平均報酬と信頼区間を見て,次に選択す べき腕を選んでいる 平均報酬 であれば,ベースの腕 (= 自分) よりも良い → envy っぽい パフォーマンスを下げないようなexploreが 必要なので,[Wu et al. ICML2016] の conservative exploration制約を付けている バンディットの違い: 誤差εで最適な腕を見 つけるのではなく, などを正確に推定す るのが違う (これは pure exploration bandit と呼ぶ?) pure exploration bandit,ググったけど正確に分からず…

Slide 21

Slide 21 text

§4.3 OCEFアルゴリズム,§4.4 理論解析 動作中,期待報酬 を保持する 各腕の上下界 を保持する である [Jamieson et al. 2014] anytime bound 候補 からはじめる と信頼区間を比較して管理する 保守的な探索 [Garcelon et al. 2020] 難しい式がある (省略) 式(4) の判定式 (4-5行目) が導出 理論解析は省略 (何も分からないので)

Slide 22

Slide 22 text

§4.5 AUDITアルゴリズム 今まで部分集合 を考えてきた §4.4で与えられた式のバウンド と,全体を対象とするケース (つま り の場合) を考えると一 般アルゴリズムが得られる 1行目,3行目の理論的な定数 4行目 (+1-3行目定数) のOCEF呼び 出しによって,PRSが監査できる 定理2: 1行目・3行目の定数より, OCEFの定理1 (省略) を満たした形 で,AUDITアルゴリズムは確率 で正しい

Slide 23

Slide 23 text

目次 イントロダクション 概念の説明 (難しい) アルゴリズムの説明 (もっと難しい) 実験

Slide 24

Slide 24 text

データセットと推薦システム データセット Last.fm (音楽) 既存のimplicit feedback手法による補間手法を用い て,ユーザのpreferenceをsimulatedしたデータ MovieLens-1M (映画) のトップ2000ユーザ・2500映画に対して,評 価値を2値化したデータ (rate < 3 or not) 推薦システム 関連性スコアの付け方: relevance-based PRSのために,matrix completion [Bell and Sejnowski 1995] を使って,20%のラベルを 残したデータで学習 推薦は関連性スコアを使って,softmax (2値) 報酬はベルヌーイ分布 (確率はデータのtrue preferenceを使う) このシステムをauditできますか? という問題

Slide 25

Slide 25 text

§5.1 Source of envy データを使って「degree of envy」を計測した 違反度合い と して,平均とε-envious usersの割合を計算する 平均 ,割合 𝟙 関連度計算に使う行列の次元数を変えて,平均と割合の変化を見る 例: 次元=1だと全員同じ推薦=popularity-basedは無羨望

Slide 26

Slide 26 text

§5.1 Source of envy | EUU (Equal user utility) EUU (Equal User Utility) = 既存手法の公平性 [Mehrota et al. 2017, Ekstrand et al. 2018] はEFとどういう関係になっている? EF互換性 (§3.3) の話がデータからも示された 最適 = EF,EUUは必ずしもEFではない

Slide 27

Slide 27 text

§5.2 アルゴリズムの評価 バンディットアルゴリズムを使うにあたり,durationとcostのトレードオ フがあるはず (たくさん腕を引けば,コストがかかるけど正確に推定) Prob.1 - Prob.4 の4つの問題 (最適アーム) を作って計測 バンディットがちゃんと分かってないのでよくわからない

Slide 28

Slide 28 text

§5.2 アルゴリズムの評価 | MovieLens, Last.fm 推薦システム (softmax(逆)温度 ) を動かし, だとEF, だとenvyだった