Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 AAAI2022 | Online Certification of Prefer...

cocomoff
March 15, 2022

論文読み会 AAAI2022 | Online Certification of Preference-based Fairness for Personalized Recommender Systems

論文読み会の資料です.

(A slide for the paper-reading activity at my company, written in Japanese.)

cocomoff

March 15, 2022
Tweet

More Decks by cocomoff

Other Decks in Research

Transcript

  1. Online Certification of Preference-based Fairness for Personalized Recommender Systems 著者:

    V. Do , S. Corbett-Davies , J. Atif , and N. Usunier ( LAMSADE, Universite PSL, Universite Paris Dauphine, CNRS, Meta AI) 学会: AAAI2022 (Outstanding Paper Award) 読む人: @cocomoff @論文読み会 2022/3/15
  2. 概要 推薦システムの監査 (facing scrutiny, audit) sensitivyデータの粗視化処理 (coarse-grained parity assesments) には限界がある

    貢献 envy-freeness の導入して banditの手法を応用した サンプル効率の高い推定手 法・理論保証を与えた 実データで検証した
  3. 背景 推薦システムの監査 (audit) が研究されている [Datta et al. 2015] 女性は高い給料の職業が広告に出にくい [Imana

    et al. 2021] 似た仕事でも性別で届く広告が異なる このような不一致性を disparity と呼ぶ.RS-auditではこれを制御 したい (possible acceptable justification of the disparities) 一方で disparity は必ずしも「less favorable treatement」を意味してお らず,ユーザの好み (preference) が反映されている場合もある ユーザグループ間での平等感? (equal satisfaction) を目指した既存手法 [Mehrotra et al. 2017] は限界がある (e.g., 難しい比較タスクが必要) 貢献: 新しくenvy-freenessを導入した手法を提案する envy-freeness: each user prefers their recommendation to those of all other users (財の分配でよく出てくるやつ)
  4. 補足: Parity これまで,クラス分類では似たような路線で研究されてきた [Zafar et al. 2017] [Kim et al.

    2019] [Ustun et al. 2019] (parity から preference へ) 公平性の種類: parity in treatment / parity in impact (↓神嶌先生資料)
  5. 補足: Multisided Fairness RSの3要素: Cunsumers ,providers , platform/system -fairness 例:

    クレジットカード会社の推薦において,消費者側のdisparate impactが問われるケース 他の例: age, gender, raceによって不公平な決定を受けないこと -fairness 例: Kiva.org (micro-finance site) → よく分からなかった 他の例: make/female job applicantsのように,推薦されるアイテ ムの群 (pool) が不公平な形になっていない状態っぽい -fairness = -fairness + -fairness ユーザ自身の話とアイテム自身の話の両方があるという考え方
  6. §3.1 フレームワーク ユーザ, Personalized RS (PRS) のユーザ ごとの推薦ポリシー : コンテキスト

    でアイテム を推薦する確率 同期設定 (各ユーザ ,各時間ステップ において): を観測し,アイテム を選択し,報酬 を得る 期待報酬 で表す : ユーザ ,ポリシー の効用 は定常と仮定する (時間変化しない) タスクは が envy-free かどうかを監査すること (学習はしない)
  7. 補足: context, action PRSのコンテキスト とかアクション って何? 論文では様々なオブジェクトが扱えるように汎用的な表記になっている 例1: 検索エンジン はクエリ,

    はドキュメント単体やランキングリスト 例2: 音楽ストリーミングサービス はユーザが聞いた曲, は次に聞く曲やプレイリスト ちなみに は を展開(?)し て書くと以下の意味:
  8. §3.2 ε-envy-free 推薦 (ε-無羨望推薦) 既存の監査基準 (とPRSにおける課題) 1. recommendation parity: ユーザごと/ユーザグループごとで,推薦される

    アイテムの分布が同じ → ユーザの選好に依存した変化 (分布のdisparity) と対立する 2. equal user utility: ユーザ/グループが受け取る効用は同じ, i.e., → ユーザが別の効用形 (最適な行動が違うなど) を持っている場合,equal user utilityを前提としているとシステムの効果が低減する [New] ε-envy-free 推薦: : 自分の推薦ポリ シー の方が,他人のポリシー よりも望ましい (= 効用が大きい)
  9. 論文の考え方 (?) 固い公平性の議論では,ユーザ間やユーザグループ間での分布のparityな どを考えなければいけなかったので,PRSとは相性が悪かった 無羨望 (EF)を用いて,固いparityの代わりに次の主張・原則を認めたい 原則: 「他の個人・グループにとって利を与える (benefits everyone)」限

    り,異なるポリシー を採用していても「公平」なPRSと見なす 結果として… PRSは個人の選好に良く適合していれば(かつ他の人に対して羨望が起き ていなければ)公平とみなす → EFが満たされているか?を について確 認するアルゴリズムを考えたい EFの計算が大変なので,ちょっと近似したものを計算する
  10. §3.3 EF互換性 | 他の概念との関係性 EF性と最適推薦 をユーザ の最適な推薦ポリシーとする.こ のとき,最適推薦システム は無羨望 (=

    EF) EF性とitem-side公平性 Item-side公平性はRSの分野でこれまで研究されてきた (cf. C/P-fairness) Parity of exposure (平等?): カテゴリに含まれたアイテム数に比例し て,そのカテゴリがexposureされること (e.g., Men/Femail) Equity of exposure (公平?): カテゴリがユーザへの関連性に比例し てexposureされること これはPRSの文脈でどのような定義になるか
  11. §3.3 EF互換性 (つづき その2) Proposition 1: は無羨望 (envy-free),ただし は一般に無羨望ではない 説明1:

    parity constraint (↑の式) がユーザごとで同じ ( に非依存) なの で,parity of exposureはEFになる: 説明2: 関連性に比例して出力されるため,効用がひっくり返ることがある (説明読んでもよく分からなかった ) やりたいこと(再掲): EF性を判定するアルゴリズムの構築
  12. §3.4 確率的緩和 EF性は「あるユーザ に注目して, 以外のすべてのユーザと比較」す るような検証が必要になり,これを全ユーザについて繰り返す 大変なのでパラメータ を使って判定基準を緩和する 1- 以上のユーザに対して,top-

    %の効用が得られていたらOK 理論的なポイント: 必要なサンプル数がユーザ数 に依存しない Def 3.2: , を 上の均一分布とする.ユーザ が - envious であるとは と定義する. このときRSが( -EFであるとは,最低 割合のユーザが - enviousではないことと定義する. やりたいこと(最新版): PRSが -EFかどうかを判定する
  13. §4.2 (等価な) バンディット問題 EF性を判定したいので,対象ユーザ について: 簡単化のために, と表す を推定するためには, で推薦した際の報酬を観察する Note:

    バンディット問題っぽさがある 基準となる自分自身 (baseline) 他のユーザ を試すかどうか (どの を選ぶか=arm) 次のようなアルゴリズムをつくる 入力: (と適当なパラメータ) 出力: envy or ε-no-envy (上の式を満たす? Yes/No)
  14. §4.2 OCEF (Online Certification of Envy-Freeness) の概要 概略 4-5行目 (腕の選択):

    baselineの を 選ぶ or 選択肢 から選ぶ 6行目: 推薦ポリシー を選び報酬 を観測して情報を更新する 7行目: 次ステップの候補を更新する 8-9行目: 候補がなければ無羨望 (ε- no-envy),あれば次に進む ポイント バンディットの信頼区間 (conf. interval) の部分 (と補題)
  15. §4.2 OCEFは何を見ているか? バンディット問題をイメージすると,腕 の平均報酬と信頼区間を見て,次に選択す べき腕を選んでいる 平均報酬 であれば,ベースの腕 (= 自分) よりも良い

    → envy っぽい パフォーマンスを下げないようなexploreが 必要なので,[Wu et al. ICML2016] の conservative exploration制約を付けている バンディットの違い: 誤差εで最適な腕を見 つけるのではなく, などを正確に推定す るのが違う (これは pure exploration bandit と呼ぶ?) pure exploration bandit,ググったけど正確に分からず…
  16. §4.3 OCEFアルゴリズム,§4.4 理論解析 動作中,期待報酬 を保持する 各腕の上下界 を保持する である [Jamieson et

    al. 2014] anytime bound 候補 からはじめる と信頼区間を比較して管理する 保守的な探索 [Garcelon et al. 2020] 難しい式がある (省略) 式(4) の判定式 (4-5行目) が導出 理論解析は省略 (何も分からないので)
  17. §4.5 AUDITアルゴリズム 今まで部分集合 を考えてきた §4.4で与えられた式のバウンド と,全体を対象とするケース (つま り の場合) を考えると一

    般アルゴリズムが得られる 1行目,3行目の理論的な定数 4行目 (+1-3行目定数) のOCEF呼び 出しによって,PRSが監査できる 定理2: 1行目・3行目の定数より, OCEFの定理1 (省略) を満たした形 で,AUDITアルゴリズムは確率 で正しい
  18. データセットと推薦システム データセット Last.fm (音楽) 既存のimplicit feedback手法による補間手法を用い て,ユーザのpreferenceをsimulatedしたデータ MovieLens-1M (映画) のトップ2000ユーザ・2500映画に対して,評

    価値を2値化したデータ (rate < 3 or not) 推薦システム 関連性スコアの付け方: relevance-based PRSのために,matrix completion [Bell and Sejnowski 1995] を使って,20%のラベルを 残したデータで学習 推薦は関連性スコアを使って,softmax (2値) 報酬はベルヌーイ分布 (確率はデータのtrue preferenceを使う) このシステムをauditできますか? という問題
  19. §5.1 Source of envy データを使って「degree of envy」を計測した 違反度合い と して,平均とε-envious

    usersの割合を計算する 平均 ,割合 𝟙 関連度計算に使う行列の次元数を変えて,平均と割合の変化を見る 例: 次元=1だと全員同じ推薦=popularity-basedは無羨望
  20. §5.1 Source of envy | EUU (Equal user utility) EUU

    (Equal User Utility) = 既存手法の公平性 [Mehrota et al. 2017, Ekstrand et al. 2018] はEFとどういう関係になっている? EF互換性 (§3.3) の話がデータからも示された 最適 = EF,EUUは必ずしもEFではない