Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 AAAI2022 | Online Certification of Preference-based Fairness for Personalized Recommender Systems

cocomoff
March 15, 2022

論文読み会 AAAI2022 | Online Certification of Preference-based Fairness for Personalized Recommender Systems

論文読み会の資料です.

(A slide for the paper-reading activity at my company, written in Japanese.)

cocomoff

March 15, 2022
Tweet

More Decks by cocomoff

Other Decks in Research

Transcript

  1. Online Certification of Preference-based Fairness
    for
    Personalized Recommender Systems
    著者: V. Do , S. Corbett-Davies , J. Atif , and N. Usunier

    ( LAMSADE, Universite PSL, Universite Paris Dauphine, CNRS, Meta AI)

    学会: AAAI2022 (Outstanding Paper Award)

    読む人: @cocomoff

    @論文読み会 2022/3/15

    View Slide

  2. 注意
    かなりいろんな分野の概念・単語が出てきて論文自体が難しいの
    で,雰囲気で読んだり適当に想像して読んでます

    View Slide

  3. 概要
    推薦システムの監査 (facing
    scrutiny, audit)
    sensitivyデータの粗視化処理
    (coarse-grained parity
    assesments) には限界がある
    貢献
    envy-freeness の導入して
    banditの手法を応用した
    サンプル効率の高い推定手
    法・理論保証を与えた
    実データで検証した

    View Slide

  4. 背景
    推薦システムの監査 (audit) が研究されている
    [Datta et al. 2015] 女性は高い給料の職業が広告に出にくい
    [Imana et al. 2021] 似た仕事でも性別で届く広告が異なる
    このような不一致性を disparity と呼ぶ.RS-auditではこれを制御
    したい (possible acceptable justification of the disparities)
    一方で disparity は必ずしも「less favorable treatement」を意味してお
    らず,ユーザの好み (preference) が反映されている場合もある
    ユーザグループ間での平等感? (equal satisfaction) を目指した既存手法
    [Mehrotra et al. 2017] は限界がある (e.g., 難しい比較タスクが必要)
    貢献: 新しくenvy-freenessを導入した手法を提案する
    envy-freeness: each user prefers their recommendation to those
    of all other users (財の分配でよく出てくるやつ)

    View Slide

  5. 推薦システム監査 (auditing)
    auditorはRSのenvy-freenessをチェックする
    envy-freenessのチェックに「ユーザの選好」が関わるが,ユーザ
    の選好は部分的にしか観測できない
    RSの出力をそのままユーザに流すだけではなく,ユーザの選好を推
    定するためのexploreを行う場合がある
    banditの考え方を使えばいけるのでは?というのがアイデア.ただ
    しrandom性のUXへの影響を抑えるために「保守的な探索」を使う

    View Slide

  6. 補足: Parity
    これまで,クラス分類では似たような路線で研究されてきた [Zafar et al.
    2017] [Kim et al. 2019] [Ustun et al. 2019] (parity から preference へ)
    公平性の種類: parity in treatment / parity in impact (↓神嶌先生資料)

    View Slide

  7. 補足: Multisided Fairness
    RSの3要素: Cunsumers ,providers , platform/system
    -fairness
    例: クレジットカード会社の推薦において,消費者側のdisparate
    impactが問われるケース
    他の例: age, gender, raceによって不公平な決定を受けないこと
    -fairness
    例: Kiva.org (micro-finance site) → よく分からなかった
    他の例: make/female job applicantsのように,推薦されるアイテ
    ムの群 (pool) が不公平な形になっていない状態っぽい
    -fairness = -fairness + -fairness
    ユーザ自身の話とアイテム自身の話の両方があるという考え方

    View Slide

  8. 目次
    イントロダクション
    概念の説明 (難しい)
    アルゴリズムの説明 (もっと難しい)
    実験

    View Slide

  9. §3.1 フレームワーク
    ユーザ,
    Personalized RS (PRS) のユーザ ごとの推薦ポリシー
    : コンテキスト でアイテム を推薦する確率
    同期設定 (各ユーザ ,各時間ステップ において):
    を観測し,アイテム を選択し,報酬
    を得る
    期待報酬 で表す
    : ユーザ ,ポリシー の効用
    は定常と仮定する (時間変化しない)
    タスクは が envy-free かどうかを監査すること (学習はしない)

    View Slide

  10. 補足: context, action
    PRSのコンテキスト とかアクション って何?
    論文では様々なオブジェクトが扱えるように汎用的な表記になっている
    例1: 検索エンジン
    はクエリ, はドキュメント単体やランキングリスト
    例2: 音楽ストリーミングサービス
    はユーザが聞いた曲, は次に聞く曲やプレイリスト
    ちなみに は を展開(?)し
    て書くと以下の意味:

    View Slide

  11. §3.2 ε-envy-free 推薦 (ε-無羨望推薦)
    既存の監査基準 (とPRSにおける課題)
    1. recommendation parity: ユーザごと/ユーザグループごとで,推薦される
    アイテムの分布が同じ
    → ユーザの選好に依存した変化 (分布のdisparity) と対立する
    2. equal user utility: ユーザ/グループが受け取る効用は同じ, i.e.,


    → ユーザが別の効用形 (最適な行動が違うなど) を持っている場合,equal
    user utilityを前提としているとシステムの効果が低減する
    [New] ε-envy-free 推薦: : 自分の推薦ポリ
    シー の方が,他人のポリシー よりも望ましい (= 効用が大きい)

    View Slide

  12. 論文の考え方 (?)
    固い公平性の議論では,ユーザ間やユーザグループ間での分布のparityな
    どを考えなければいけなかったので,PRSとは相性が悪かった
    無羨望 (EF)を用いて,固いparityの代わりに次の主張・原則を認めたい
    原則: 「他の個人・グループにとって利を与える (benefits everyone)」限
    り,異なるポリシー を採用していても「公平」なPRSと見なす
    結果として…
    PRSは個人の選好に良く適合していれば(かつ他の人に対して羨望が起き
    ていなければ)公平とみなす → EFが満たされているか?を について確
    認するアルゴリズムを考えたい
    EFの計算が大変なので,ちょっと近似したものを計算する

    View Slide

  13. §3.3 EF互換性 | 他の概念との関係性
    EF性と最適推薦
    をユーザ の最適な推薦ポリシーとする.こ
    のとき,最適推薦システム は無羨望 (= EF)
    EF性とitem-side公平性
    Item-side公平性はRSの分野でこれまで研究されてきた (cf. C/P-fairness)
    Parity of exposure (平等?): カテゴリに含まれたアイテム数に比例し
    て,そのカテゴリがexposureされること (e.g., Men/Femail)
    Equity of exposure (公平?): カテゴリがユーザへの関連性に比例し
    てexposureされること
    これはPRSの文脈でどのような定義になるか

    View Slide

  14. §3.3 EF互換性 (つづき)
    Parity of exposureとEquity of exposureの下で最適化ポリシーをそれぞれ
    と で書くとき,以下で定義される.

    View Slide

  15. §3.3 EF互換性 (つづき その2)
    Proposition 1: は無羨望 (envy-free),ただし
    は一般に無羨望ではない
    説明1: parity constraint (↑の式) がユーザごとで同じ ( に非依存) なの
    で,parity of exposureはEFになる:
    説明2: 関連性に比例して出力されるため,効用がひっくり返ることがある
    (説明読んでもよく分からなかった )
    やりたいこと(再掲): EF性を判定するアルゴリズムの構築

    View Slide

  16. §3.4 確率的緩和
    EF性は「あるユーザ に注目して, 以外のすべてのユーザと比較」す
    るような検証が必要になり,これを全ユーザについて繰り返す
    大変なのでパラメータ を使って判定基準を緩和する
    1- 以上のユーザに対して,top- %の効用が得られていたらOK
    理論的なポイント: 必要なサンプル数がユーザ数 に依存しない
    Def 3.2: , を 上の均一分布とする.ユーザ が -
    envious であるとは と定義する.

    このときRSが( -EFであるとは,最低 割合のユーザが -
    enviousではないことと定義する.
    やりたいこと(最新版): PRSが -EFかどうかを判定する

    View Slide

  17. 目次
    イントロダクション
    概念の説明 (難しい)
    アルゴリズムの説明 (もっと難しい)
    実験

    View Slide

  18. §4.2 (等価な) バンディット問題
    EF性を判定したいので,対象ユーザ について:
    簡単化のために, と表す
    を推定するためには, で推薦した際の報酬を観察する
    Note: バンディット問題っぽさがある
    基準となる自分自身 (baseline)
    他のユーザ を試すかどうか (どの を選ぶか=arm)
    次のようなアルゴリズムをつくる
    入力: (と適当なパラメータ)
    出力: envy or ε-no-envy (上の式を満たす? Yes/No)

    View Slide

  19. §4.2 OCEF (Online Certification of Envy-Freeness) の概要
    概略
    4-5行目 (腕の選択): baselineの を
    選ぶ or 選択肢 から選ぶ
    6行目: 推薦ポリシー を選び報酬
    を観測して情報を更新する
    7行目: 次ステップの候補を更新する
    8-9行目: 候補がなければ無羨望 (ε-
    no-envy),あれば次に進む
    ポイント
    バンディットの信頼区間 (conf.
    interval) の部分 (と補題)

    View Slide

  20. §4.2 OCEFは何を見ているか?
    バンディット問題をイメージすると,腕
    の平均報酬と信頼区間を見て,次に選択す
    べき腕を選んでいる
    平均報酬 であれば,ベースの腕
    (= 自分) よりも良い → envy っぽい
    パフォーマンスを下げないようなexploreが
    必要なので,[Wu et al. ICML2016] の
    conservative exploration制約を付けている
    バンディットの違い: 誤差εで最適な腕を見
    つけるのではなく, などを正確に推定す
    るのが違う (これは pure exploration bandit と呼ぶ?)
    pure exploration bandit,ググったけど正確に分からず…

    View Slide

  21. §4.3 OCEFアルゴリズム,§4.4 理論解析
    動作中,期待報酬 を保持する
    各腕の上下界 を保持する
    である
    [Jamieson et al. 2014] anytime bound
    候補 からはじめる
    と信頼区間を比較して管理する
    保守的な探索 [Garcelon et al. 2020]
    難しい式がある (省略)
    式(4) の判定式 (4-5行目) が導出
    理論解析は省略 (何も分からないので)

    View Slide

  22. §4.5 AUDITアルゴリズム
    今まで部分集合 を考えてきた
    §4.4で与えられた式のバウンド
    と,全体を対象とするケース (つま
    り の場合) を考えると一
    般アルゴリズムが得られる
    1行目,3行目の理論的な定数
    4行目 (+1-3行目定数) のOCEF呼び
    出しによって,PRSが監査できる
    定理2: 1行目・3行目の定数より,
    OCEFの定理1 (省略) を満たした形
    で,AUDITアルゴリズムは確率 で正しい

    View Slide

  23. 目次
    イントロダクション
    概念の説明 (難しい)
    アルゴリズムの説明 (もっと難しい)
    実験

    View Slide

  24. データセットと推薦システム
    データセット
    Last.fm (音楽) 既存のimplicit feedback手法による補間手法を用い
    て,ユーザのpreferenceをsimulatedしたデータ
    MovieLens-1M (映画) のトップ2000ユーザ・2500映画に対して,評
    価値を2値化したデータ (rate < 3 or not)
    推薦システム
    関連性スコアの付け方: relevance-based PRSのために,matrix
    completion [Bell and Sejnowski 1995] を使って,20%のラベルを
    残したデータで学習
    推薦は関連性スコアを使って,softmax (2値)
    報酬はベルヌーイ分布 (確率はデータのtrue preferenceを使う)
    このシステムをauditできますか? という問題

    View Slide

  25. §5.1 Source of envy
    データを使って「degree of envy」を計測した
    違反度合い と
    して,平均とε-envious usersの割合を計算する
    平均 ,割合 𝟙
    関連度計算に使う行列の次元数を変えて,平均と割合の変化を見る
    例: 次元=1だと全員同じ推薦=popularity-basedは無羨望

    View Slide

  26. §5.1 Source of envy | EUU (Equal user utility)
    EUU (Equal User Utility) = 既存手法の公平性 [Mehrota et al. 2017,
    Ekstrand et al. 2018] はEFとどういう関係になっている?
    EF互換性 (§3.3) の話がデータからも示された
    最適 = EF,EUUは必ずしもEFではない

    View Slide

  27. §5.2 アルゴリズムの評価
    バンディットアルゴリズムを使うにあたり,durationとcostのトレードオ
    フがあるはず (たくさん腕を引けば,コストがかかるけど正確に推定)
    Prob.1 - Prob.4 の4つの問題 (最適アーム) を作って計測
    バンディットがちゃんと分かってないのでよくわからない

    View Slide

  28. §5.2 アルゴリズムの評価 | MovieLens, Last.fm
    推薦システム (softmax(逆)温度 ) を動かし, だとEF,
    だとenvyだった

    View Slide