文献紹介: ch2-Information Access Fundamentals of "Fairness and Discrimination in Information Access Systems"

Chapter 2 Information Access Fundamentals HCIRリサーチユニット輪読会 2021 Fairness and Discrimination
in Information Access Systems Ekstrand, M.D., Das, A., Burke, R., and Diaz, F. 欅惇志 (デンソーアイティーラボラトリ) 意訳多いです

Overview • Information Access o ユーザが巨⼤なデータリポジトリからアイテムを検索することを⽀援するシステムの総称である o より具体的には定義すると，
• アイテムのリポジトリとユーザの情報要求からユーザの情報要求を満たすアイテムを提⽰する HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 2

章⽴て • 2.1 Repository • 2.2 Information Needs • 2.3
Presentation • 2.4 Interaction • 2.5 Evaluation • 2.6 Algorithmic Foundations HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 3

2.1 Repository (1/2) • リポジトリのキュレーションの 3 要素 o コンテンツ⽣成 •
アイテム作成に繋がる複雑な組織的，社会的，経済的，政治的な動き • アイテムのスケールはさまざま o 個⼈の趣味による⾃作の楽曲 o 多⼈数の貢献者による⼤規模映画作品 o コンテンツ収集 • リポジトリへのアイテムの追加・削除時のプロセスやポリシー • 静的アーカイブ取得，ニュース記事などの収集 • ユーザが情報アクセスシステムを⽤いたときのリポジトリのアイテム集合を，アイテムへのインデックス D とする HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 4

2.1 Repository (2/2) • リポジトリのキュレーション o コンテンツ表現：個々のアイテムに関する情報 • コンテンツ o
アイテム d (∈D) の表現 𝜙! (𝑑) o e.g. 学術論⽂のテキスト，画像のピクセル，楽曲のオーディオファイル • メタデータ o アイテム d (∈D) のメタデータの表現 𝜙" (𝑑) o e.g. 作成者，ジャンル (⼈⼿/⾃動)，アクセス数，⼈気 • 使⽤データ (usage data) o アイテム d (∈D) の使⽤データの表現 𝜙# (𝑑) o アイテムと情報要求のインタラクション • e.g. アイテムの利⽤者，クリックしたクエリ o メタデータとの違い • システムによって起こされるバイアスが⼤きい • 関連性 (relevance) を強く⽰唆している HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 5

2.2 Information Needs (1/2) • 情報アクセスシステムを使う⽤途はさまざま o 質問への回答を知りたい o あるジャンルの⾳楽を視聴したい
o 購⼊前に商品レビューを読みたい • 以降，情報要求を Q と定義 • 明⽰的な情報要求の分類 o 特徴量ベース：情報要求を直接記述 • 情報要求 q (∈Q) の表現 𝜌!(𝑞) • e.g. o クエリキーワードを含むアイテムはより適合度が⾼い o ファセット検索では関連性の⾼いクラス指定 o アイテムベース：適合/⾮適合アイテムを提⽰ • 情報要求 q (∈Q) の表現 𝜌"(𝑞) o その他：⾃然⾔語検索など • 情報要求 q (∈Q) の表現 𝜌#(𝑞) HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 6

2.2 Information Needs (2/2) • 暗黙的な情報要求の分類 o ⼤域的表現：ユーザの安定した特性 • 情報要求
q (∈Q) の表現 𝜌!"#$%" (𝑞) • e.g. o ユーザのデモグラフィック属性 o ユーザが過去にアクセスしたアイテム o 局所的表現：ユーザの変動のある特性 • 情報要求 q (∈Q) の表現 𝜌"#&%" (𝑞) • e.g. o あるセッションにおける閲覧履歴 o 検索機能のオプション (「発⾒」モード or 「ムード」モード) o 階層的検索では両者の分類は流動的 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 7

2.3 Presentation • シングルターン o ユーザはシステムにリクエストを送り，単⼀の結果を受け取る • e.g. 単⼀クエリの検索結果，推薦システムのホー
ム画⾯ o インタフェースいろいろ • 制約が⼤きい場合は単⼀の結果のみ • 制約が緩ければランキング機能あり • 画像では⼆次元グリッドでの提⽰が⼈気 • 没⼊型環境 (VR? AR?) では三次元表⽰ o テキストサマリ • コンテンツ消費前に確認のための要約を提⽰ • 特定の部分を強調することもある HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 8

2.4 Interaction • 単⼀の情報要求を満たすためには複数回のインタラクションが必要 • インタラクション例 o ユーザは検索システムを利⽤時に単⼀セッションにおいて複数回クエリを発⾏する
o ユーザは推薦システム利⽤時に，web ページやアプリケーションインタフェースのナビゲーションを通じて適合するコンテンツを決める • ユーザの明⽰的/暗黙的フィードバックによってアルゴリズムの挙動を変える o ⾳楽推薦システムの楽曲スキップ o 対話システムにおけるスロットフィルタリング HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 9

2.5 Evaluation (1/6) • 情報アクセスの評価において，情報要求の満⾜度評価はユーザのインタラクション (アイテムの有⽤性評価) によって⾏われる
• 評価⽅法の分類 o シチュエーション評価 • ユーザスタディ • 評価の変動に追従できるが⾼コスト o シミュレーション評価 • データとアルゴリズムを⽤いた再現可能な評価 • オフライン評価はその⼀例 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 10

2.5 Evaluation (2/6) • アイテムの有⽤性の推定 o 全アイテムに⼈⼿で評価値を付与するのは⾼コスト • ただしシステム利⽤中にアノテーション可能
o (明⽰的) アノテーションの分類 • ユーザアノテーションはラベルの曖昧性あり o コンテキスト依存/汎⽤的の判断が困難 • ⾮ユーザアノテーションは低ラベル曖昧性 o ⾮ユーザ = アノテータ o アノテーションのガイドラインを制御可能 o ただし解釈性は低い (?) HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 11

2.5 Evaluation (3/6) • アイテムの有⽤性の推定 o 暗黙的ラベリング • ログから推定 o
クリック，視聴，購⼊，ブックマークなど o ただし，どのログが有⽤かはドメインに強く依存 • Web 検索ではクリックが有⽤だが画像検索では無⽤ • 瞬間的に評価可能な有⽤性 o クリック，視聴，ブックマークなど o ⻑期的な有⽤性については保証しない • ⽂書のクリック o コンテキスト依存 o ⾼次元のゴールに対して⾼い有⽤性を持つかは不明 • もし⻑期的な有⽤性 (タスク達成，購⼊など) を観測できれば o 因果推論，強化学習，多⽬的最適化でシステム構築可能 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 12

2.5 Evaluation (4/6) • (システムの) オンライン評価 o 個々のユーザの振る舞い (クリック，視聴，購⼊)
などを集約してシステムの性能評価を⾏う o A/B テストによって２つのシステムが⽐較されることが多い o 評価実験を通じてアルゴリズムデザイン (実際はパラメータチューニング?) が⾏われることもある • 多腕バンディットや強化学習でポリシー学習 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 13

2.5 Evaluation (5/6) • (システムの) オフライン評価 o データとユーザモデル (評価値) の組合せを⽤
いた評価 o ユーザの負荷なく効率的にアルゴリズムの性能評価が可能 o データとモデルが研究コミュニティで共有されれば標準的なベンチマークになれる • TREC など o 情報要求集合に対するアイテムの有⽤性は⼈⼿によるアノテーションが伝統的 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 14

2.5 Evaluation (6/6) • (システムの) オフライン評価 o シミュレーション評価の結果，何らかの評価尺度の値 𝜇
が返される • 𝜇(𝜋) = ∑ '() |+| 𝛿(𝑟)𝑢(𝜋') o 𝛿：ランクによる減衰関数 o 𝜋：システムランキング o 𝑢：アイテムの有⽤性 • 𝛿 の例 o precision at k: 𝛿$@& 𝑟 = * 1 𝑟 < 𝑘 0 𝑟 > 𝑘 o rank-baised precision: 𝛿'($ 𝑟 = 𝛾)*+ o 評価には⼈間の価値観が反映されている HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 15

2.6 Algorithmic Foundations (1/6) • 定義 o 𝑠 𝑞, 𝑑
：クエリ q における⽂書 d のスコアリング関数 o 𝜋 𝑞 ：確率的スコアリング関数 • 前置き o 以降，情報アクセスの網羅ではなく機械学習に精通している⼈に情報アクセスの特殊性を理解するのに重要な項⽬を説明 • 情報要求を満たすアルゴリズムの設計⽅針 o 情報要求に対して，どのようなデータと⽂書がどのように提⽰されるのか？ o 適合度は直接推定されるのか，最適化を通して学習されるのか？ o どんな⽬的関数が適合性の最適化に使われるのか？ o 最終的なランキングを作成するためにどのように適合度が推定されるのか？ HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 16

2.6 Algorithmic Foundations (2/6) • ベクトル空間モデル o 情報検索の⽂書-索引語⾏列 • ⾼
(語彙数) 次元のベクトル空間で⽂書を表現 • クエリとの類似度算出はクエリベクトルと⽂書ベクトルのコサイン類似度で算出 • ベクトルの各要素には⽂書頻度に基づく値が付与 o 代表的な表現の⼀つは TF-IDF • ⾏列全体が疎 o 情報推薦の評価値⾏列 (ユーザ×アイテム) • 協調フィルタリングにて利⽤される構造 o コンテンツフィルタリングは⽂書-索引語⾏列 • 観測 (評価値を持つユーザ) が疎 • 評価値がなくてもユーザがそのアイテムに対する好みがないというわけではない (検索との違い) HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 17

2.6 Algorithmic Foundations (3/6) • 埋め込みと適合度の最適化 o クエリと⽂書の低次元空間への埋め込み • 潜在的意味的分析/インデキシング
(LSA/LSI) o 特異値分解によって低ランク⾏列として表現 • 推薦システムではよく使われる o 観測が少ないため有⽤なアプローチ o 最適化による次元圧縮 • 機械学習モデルによる適合度推定 • 観測と評価値から関数 𝑠 𝑑|𝑑 を学習 o 適合度以外にもクリック率 (CTR) の推定もある HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 18

2.6 Algorithmic Foundations (4/6) • ユーザモデリング：ユーザモデルの構築 o ユーザモデル 𝜌123452 •
構造はベクトル空間モデルや埋め込みなど • 推薦，パーソナライズ検索などで利⽤ o スコアリング時に反映される • ユーザのインタラクション履歴から構築 o ただし時間経過とともにユーザの好みは変動 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 19

2.6 Algorithmic Foundations (5/6) • ランキング学習 o pointwise • クエリ-⽂書ペアの適合度を⽤いて学習
• ただし，検索システムでは厳密な適合度よりランキングが重要 o pairwise • 2 個のクエリ-⽂書ペアを⽤いて学習 o 例：同⼀クエリに対する適合⽂書 (d+ )と⾮適合⽂書 (d- ) o 𝑠 𝑑, 𝑞 − 𝑠 𝑑* 𝑞 を最⼤化 o listwise (書いてないですが) • リスト全体を使って学習 • ⼀般的に pairwise と⽐べてもそれほど性能が変わらない o 学習⽤に正確なリストを作るのが難しいから? HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 20

2.6 Algorithmic Foundations (6/6) • 再ランキング o 多くの情報アクセス技術は単⼀のランキングステップのみを⽤いるわけではない •
再ランキングは多⽤される • ベースとなるランキングモデル適⽤後にランキング学習の適⽤など o 再ランキングの例 • 多様性 (MMR) 考慮 o ランキングのバランス調整 o 新規 (下位ランクの) ⽂書のスコアは既存 (上位ランク) の⽂書と似ていない⽂書ほど⾼スコア o 仮定：ある⽂書が⾮適合なら似た他の⽂書も⾮適合 • 情報推薦における公平性 o 後の章で紹介 • ⼤規模リポジトリに対する効率的な情報アクセス o 計算コストの低いスコアリング⼿法で絞り込み o ⾼コストなスコアリング⼿法で再ランキング HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 21

文献紹介: ch2-Information Access Fundamentals of "F...

文献紹介: ch2-Information Access Fundamentals of "Fairness and Discrimination in Information Access Systems"

keyakkie

More Decks by keyakkie

Other Decks in Research

Featured

Transcript

Chapter 2 Information Access Fundamentals HCIRリサーチユニット輪読会 2021 Fairness and Discrimination

Overview • Information Access o ユーザが巨⼤なデータリポジトリからアイテムを検索することを⽀援するシステムの総称である o より具体的には定義すると，

章⽴て • 2.1 Repository • 2.2 Information Needs • 2.3

2.1 Repository (1/2) • リポジトリのキュレーションの 3 要素 o コンテンツ⽣成 •

2.1 Repository (2/2) • リポジトリのキュレーション o コンテンツ表現：個々のアイテムに関する情報 • コンテンツ o

2.2 Information Needs (1/2) • 情報アクセスシステムを使う⽤途はさまざま o 質問への回答を知りたい o あるジャンルの⾳楽を視聴したい

2.2 Information Needs (2/2) • 暗黙的な情報要求の分類 o ⼤域的表現：ユーザの安定した特性 • 情報要求

2.3 Presentation • シングルターン o ユーザはシステムにリクエストを送り，単⼀の結果を受け取る • e.g. 単⼀クエリの検索結果，推薦システムのホー

2.4 Interaction • 単⼀の情報要求を満たすためには複数回のインタラクションが必要 • インタラクション例 o ユーザは検索システムを利⽤時に単⼀セッションにおいて複数回クエリを発⾏する

2.5 Evaluation (1/6) • 情報アクセスの評価において，情報要求の満⾜度評価はユーザのインタラクション (アイテムの有⽤性評価) によって⾏われる

2.5 Evaluation (2/6) • アイテムの有⽤性の推定 o 全アイテムに⼈⼿で評価値を付与するのは⾼コスト • ただしシステム利⽤中にアノテーション可能

2.5 Evaluation (3/6) • アイテムの有⽤性の推定 o 暗黙的ラベリング • ログから推定 o

2.5 Evaluation (4/6) • (システムの) オンライン評価 o 個々のユーザの振る舞い (クリック，視聴，購⼊)

2.5 Evaluation (5/6) • (システムの) オフライン評価 o データとユーザモデル (評価値) の組合せを⽤

2.5 Evaluation (6/6) • (システムの) オフライン評価 o シミュレーション評価の結果，何らかの評価尺度の値 𝜇

2.6 Algorithmic Foundations (1/6) • 定義 o 𝑠 𝑞, 𝑑

2.6 Algorithmic Foundations (2/6) • ベクトル空間モデル o 情報検索の⽂書-索引語⾏列 • ⾼

2.6 Algorithmic Foundations (3/6) • 埋め込みと適合度の最適化 o クエリと⽂書の低次元空間への埋め込み • 潜在的意味的分析/インデキシング

2.6 Algorithmic Foundations (4/6) • ユーザモデリング：ユーザモデルの構築 o ユーザモデル 𝜌123452 •

2.6 Algorithmic Foundations (5/6) • ランキング学習 o pointwise • クエリ-⽂書ペアの適合度を⽤いて学習

2.6 Algorithmic Foundations (6/6) • 再ランキング o 多くの情報アクセス技術は単⼀のランキングステップのみを⽤いるわけではない •