論文読み会 AAAI2022 | Online Certification of Preference-based Fairness for Personalized Recommender Systems

Online Certification of Preference-based Fairness for Personalized Recommender Systems 著者:
V. Do , S. Corbett-Davies , J. Atif , and N. Usunier ( LAMSADE, Universite PSL, Universite Paris Dauphine, CNRS, Meta AI) 学会: AAAI2022 (Outstanding Paper Award) 読む人: @cocomoff @論文読み会 2022/3/15

注意かなりいろんな分野の概念・単語が出てきて論文自体が難しいので，雰囲気で読んだり適当に想像して読んでます

概要推薦システムの監査 (facing scrutiny, audit) sensitivyデータの粗視化処理 (coarse-grained parity assesments) には限界がある
貢献 envy-freeness の導入して banditの手法を応用したサンプル効率の高い推定手法・理論保証を与えた実データで検証した

背景推薦システムの監査 (audit) が研究されている [Datta et al. 2015] 女性は高い給料の職業が広告に出にくい [Imana
et al. 2021] 似た仕事でも性別で届く広告が異なるこのような不一致性を disparity と呼ぶ．RS-auditではこれを制御したい (possible acceptable justification of the disparities) 一方で disparity は必ずしも「less favorable treatement」を意味しておらず，ユーザの好み (preference) が反映されている場合もあるユーザグループ間での平等感? (equal satisfaction) を目指した既存手法 [Mehrotra et al. 2017] は限界がある (e.g., 難しい比較タスクが必要) 貢献: 新しくenvy-freenessを導入した手法を提案する envy-freeness: each user prefers their recommendation to those of all other users (財の分配でよく出てくるやつ)

推薦システム監査 (auditing) auditorはRSのenvy-freenessをチェックする envy-freenessのチェックに「ユーザの選好」が関わるが，ユーザの選好は部分的にしか観測できない RSの出力をそのままユーザに流すだけではなく，ユーザの選好を推定するためのexploreを行う場合がある banditの考え方を使えばいけるのでは？というのがアイデア．ただしrandom性のUXへの影響を抑えるために「保守的な探索」を使う

補足: Parity これまで，クラス分類では似たような路線で研究されてきた [Zafar et al. 2017] [Kim et al.
2019] [Ustun et al. 2019] (parity から preference へ) 公平性の種類: parity in treatment / parity in impact (↓神嶌先生資料)

補足: Multisided Fairness RSの3要素: Cunsumers ，providers , platform/system -fairness 例:
クレジットカード会社の推薦において，消費者側のdisparate impactが問われるケース他の例: age, gender, raceによって不公平な決定を受けないこと -fairness 例: Kiva.org (micro-finance site) → よく分からなかった他の例: make/female job applicantsのように，推薦されるアイテムの群 (pool) が不公平な形になっていない状態っぽい -fairness = -fairness + -fairness ユーザ自身の話とアイテム自身の話の両方があるという考え方

目次イントロダクション概念の説明 (難しい) アルゴリズムの説明 (もっと難しい) 実験

§3.1 フレームワークユーザ， Personalized RS (PRS) のユーザごとの推薦ポリシー : コンテキスト
でアイテムを推薦する確率同期設定 (各ユーザ，各時間ステップにおいて): を観測し，アイテムを選択し，報酬を得る期待報酬で表す : ユーザ，ポリシーの効用は定常と仮定する (時間変化しない) タスクはが envy-free かどうかを監査すること (学習はしない)

補足: context, action PRSのコンテキストとかアクションって何? 論文では様々なオブジェクトが扱えるように汎用的な表記になっている例1: 検索エンジンはクエリ，
はドキュメント単体やランキングリスト例2: 音楽ストリーミングサービスはユーザが聞いた曲，は次に聞く曲やプレイリストちなみにはを展開(?)して書くと以下の意味:

§3.2 ε-envy-free 推薦 (ε-無羨望推薦) 既存の監査基準 (とPRSにおける課題) 1. recommendation parity: ユーザごと/ユーザグループごとで，推薦される
アイテムの分布が同じ → ユーザの選好に依存した変化 (分布のdisparity) と対立する 2. equal user utility: ユーザ/グループが受け取る効用は同じ, i.e., → ユーザが別の効用形 (最適な行動が違うなど) を持っている場合，equal user utilityを前提としているとシステムの効果が低減する [New] ε-envy-free 推薦: : 自分の推薦ポリシーの方が，他人のポリシーよりも望ましい (= 効用が大きい)

論文の考え方（？）固い公平性の議論では，ユーザ間やユーザグループ間での分布のparityなどを考えなければいけなかったので，PRSとは相性が悪かった無羨望 (EF)を用いて，固いparityの代わりに次の主張・原則を認めたい原則: 「他の個人・グループにとって利を与える (benefits everyone)」限
り，異なるポリシーを採用していても「公平」なPRSと見なす結果として… PRSは個人の選好に良く適合していれば（かつ他の人に対して羨望が起きていなければ）公平とみなす → EFが満たされているか？をについて確認するアルゴリズムを考えたい EFの計算が大変なので，ちょっと近似したものを計算する

§3.3 EF互換性 | 他の概念との関係性 EF性と最適推薦をユーザの最適な推薦ポリシーとする．このとき，最適推薦システムは無羨望 (=
EF) EF性とitem-side公平性 Item-side公平性はRSの分野でこれまで研究されてきた (cf. C/P-fairness) Parity of exposure (平等?): カテゴリに含まれたアイテム数に比例して，そのカテゴリがexposureされること (e.g., Men/Femail) Equity of exposure (公平?): カテゴリがユーザへの関連性に比例してexposureされることこれはPRSの文脈でどのような定義になるか

§3.3 EF互換性 (つづき) Parity of exposureとEquity of exposureの下で最適化ポリシーをそれぞれとで書くとき，以下で定義される．

§3.3 EF互換性 (つづきその2) Proposition 1: は無羨望 (envy-free)，ただしは一般に無羨望ではない説明1:
parity constraint (↑の式) がユーザごとで同じ ( に非依存) なので，parity of exposureはEFになる: 説明2: 関連性に比例して出力されるため，効用がひっくり返ることがある (説明読んでもよく分からなかった ) やりたいこと(再掲): EF性を判定するアルゴリズムの構築

§3.4 確率的緩和 EF性は「あるユーザに注目して，以外のすべてのユーザと比較」するような検証が必要になり，これを全ユーザについて繰り返す大変なのでパラメータを使って判定基準を緩和する 1- 以上のユーザに対して，top-
%の効用が得られていたらOK 理論的なポイント: 必要なサンプル数がユーザ数に依存しない Def 3.2: ，を上の均一分布とする．ユーザが - envious であるとはと定義する．このときRSが( -EFであるとは，最低割合のユーザが - enviousではないことと定義する．やりたいこと(最新版): PRSが -EFかどうかを判定する

§4.2 (等価な) バンディット問題 EF性を判定したいので，対象ユーザについて: 簡単化のために，と表すを推定するためには，で推薦した際の報酬を観察する Note:
バンディット問題っぽさがある基準となる自分自身 (baseline) 他のユーザを試すかどうか (どのを選ぶか=arm) 次のようなアルゴリズムをつくる入力: (と適当なパラメータ) 出力: envy or ε-no-envy (上の式を満たす? Yes/No)

§4.2 OCEF (Online Certification of Envy-Freeness) の概要概略 4-5行目 (腕の選択):
baselineのを選ぶ or 選択肢から選ぶ 6行目: 推薦ポリシーを選び報酬を観測して情報を更新する 7行目: 次ステップの候補を更新する 8-9行目: 候補がなければ無羨望 (ε- no-envy)，あれば次に進むポイントバンディットの信頼区間 (conf. interval) の部分 (と補題)

§4.2 OCEFは何を見ているか? バンディット問題をイメージすると，腕の平均報酬と信頼区間を見て，次に選択すべき腕を選んでいる平均報酬であれば，ベースの腕 (= 自分) よりも良い
→ envy っぽいパフォーマンスを下げないようなexploreが必要なので，[Wu et al. ICML2016] の conservative exploration制約を付けているバンディットの違い: 誤差εで最適な腕を見つけるのではなく，などを正確に推定するのが違う (これは pure exploration bandit と呼ぶ？) pure exploration bandit，ググったけど正確に分からず…

§4.3 OCEFアルゴリズム，§4.4 理論解析動作中，期待報酬を保持する各腕の上下界を保持するである [Jamieson et
al. 2014] anytime bound 候補からはじめると信頼区間を比較して管理する保守的な探索 [Garcelon et al. 2020] 難しい式がある (省略) 式(4) の判定式 (4-5行目) が導出理論解析は省略 (何も分からないので)

§4.5 AUDITアルゴリズム今まで部分集合を考えてきた §4.4で与えられた式のバウンドと，全体を対象とするケース (つまりの場合) を考えると一
般アルゴリズムが得られる 1行目，3行目の理論的な定数 4行目 (+1-3行目定数) のOCEF呼び出しによって，PRSが監査できる定理2: 1行目・3行目の定数より， OCEFの定理1 (省略) を満たした形で，AUDITアルゴリズムは確率で正しい

データセットと推薦システムデータセット Last.fm (音楽) 既存のimplicit feedback手法による補間手法を用いて，ユーザのpreferenceをsimulatedしたデータ MovieLens-1M (映画) のトップ2000ユーザ・2500映画に対して，評
価値を2値化したデータ (rate < 3 or not) 推薦システム関連性スコアの付け方: relevance-based PRSのために，matrix completion [Bell and Sejnowski 1995] を使って，20%のラベルを残したデータで学習推薦は関連性スコアを使って，softmax (2値) 報酬はベルヌーイ分布 (確率はデータのtrue preferenceを使う) このシステムをauditできますか? という問題

§5.1 Source of envy データを使って「degree of envy」を計測した違反度合いとして，平均とε-envious
usersの割合を計算する平均，割合 𝟙 関連度計算に使う行列の次元数を変えて，平均と割合の変化を見る例: 次元=1だと全員同じ推薦=popularity-basedは無羨望

§5.1 Source of envy | EUU (Equal user utility) EUU
(Equal User Utility) = 既存手法の公平性 [Mehrota et al. 2017, Ekstrand et al. 2018] はEFとどういう関係になっている? EF互換性 (§3.3) の話がデータからも示された最適 = EF，EUUは必ずしもEFではない

§5.2 アルゴリズムの評価バンディットアルゴリズムを使うにあたり，durationとcostのトレードオフがあるはず (たくさん腕を引けば，コストがかかるけど正確に推定) Prob.1 - Prob.4 の4つの問題 (最適アーム)
を作って計測バンディットがちゃんと分かってないのでよくわからない

§5.2 アルゴリズムの評価 | MovieLens, Last.fm 推薦システム (softmax(逆)温度 ) を動かし，だとEF，
だとenvyだった

論文読み会 AAAI2022 | Online Certification of Prefer...

論文読み会 AAAI2022 | Online Certification of Preference-based Fairness for Personalized Recommender Systems

cocomoff

More Decks by cocomoff

Other Decks in Research

Featured

Transcript

Online Certification of Preference-based Fairness for Personalized Recommender Systems 著者:

注意かなりいろんな分野の概念・単語が出てきて論文自体が難しいので，雰囲気で読んだり適当に想像して読んでます

概要推薦システムの監査 (facing scrutiny, audit) sensitivyデータの粗視化処理 (coarse-grained parity assesments) には限界がある

背景推薦システムの監査 (audit) が研究されている [Datta et al. 2015] 女性は高い給料の職業が広告に出にくい [Imana

補足: Parity これまで，クラス分類では似たような路線で研究されてきた [Zafar et al. 2017] [Kim et al.

補足: Multisided Fairness RSの3要素: Cunsumers ，providers , platform/system -fairness 例:

目次イントロダクション概念の説明 (難しい) アルゴリズムの説明 (もっと難しい) 実験

§3.1 フレームワークユーザ， Personalized RS (PRS) のユーザごとの推薦ポリシー : コンテキスト

補足: context, action PRSのコンテキストとかアクションって何? 論文では様々なオブジェクトが扱えるように汎用的な表記になっている例1: 検索エンジンはクエリ，

§3.2 ε-envy-free 推薦 (ε-無羨望推薦) 既存の監査基準 (とPRSにおける課題) 1. recommendation parity: ユーザごと/ユーザグループごとで，推薦される

§3.3 EF互換性 | 他の概念との関係性 EF性と最適推薦をユーザの最適な推薦ポリシーとする．このとき，最適推薦システムは無羨望 (=

§3.3 EF互換性 (つづき) Parity of exposureとEquity of exposureの下で最適化ポリシーをそれぞれとで書くとき，以下で定義される．

§3.3 EF互換性 (つづきその2) Proposition 1: は無羨望 (envy-free)，ただしは一般に無羨望ではない説明1:

目次イントロダクション概念の説明 (難しい) アルゴリズムの説明 (もっと難しい) 実験

§4.2 (等価な) バンディット問題 EF性を判定したいので，対象ユーザについて: 簡単化のために，と表すを推定するためには，で推薦した際の報酬を観察する Note:

§4.2 OCEF (Online Certification of Envy-Freeness) の概要概略 4-5行目 (腕の選択):

§4.2 OCEFは何を見ているか? バンディット問題をイメージすると，腕の平均報酬と信頼区間を見て，次に選択すべき腕を選んでいる平均報酬であれば，ベースの腕 (= 自分) よりも良い

§4.3 OCEFアルゴリズム，§4.4 理論解析動作中，期待報酬を保持する各腕の上下界を保持するである [Jamieson et

§4.5 AUDITアルゴリズム今まで部分集合を考えてきた §4.4で与えられた式のバウンドと，全体を対象とするケース (つまりの場合) を考えると一

目次イントロダクション概念の説明 (難しい) アルゴリズムの説明 (もっと難しい) 実験

データセットと推薦システムデータセット Last.fm (音楽) 既存のimplicit feedback手法による補間手法を用いて，ユーザのpreferenceをsimulatedしたデータ MovieLens-1M (映画) のトップ2000ユーザ・2500映画に対して，評

§5.1 Source of envy データを使って「degree of envy」を計測した違反度合いとして，平均とε-envious

§5.1 Source of envy | EUU (Equal user utility) EUU

§5.2 アルゴリズムの評価バンディットアルゴリズムを使うにあたり，durationとcostのトレードオフがあるはず (たくさん腕を引けば，コストがかかるけど正確に推定) Prob.1 - Prob.4 の4つの問題 (最適アーム)

§5.2 アルゴリズムの評価 | MovieLens, Last.fm 推薦システム (softmax(逆)温度 ) を動かし，だとEF，