Chapter 2
Information Access
Fundamentals
HCIRリサーチユニット輪読会 2021
Fairness and Discrimination
in Information Access Systems
Ekstrand, M.D., Das, A., Burke, R., and Diaz, F.
欅 惇志 (デンソーアイティーラボラトリ)
意訳多いです
Slide 2
Slide 2 text
Overview
• Information Access
o ユーザが巨⼤なデータリポジトリからアイテ
ムを検索することを⽀援するシステムの総称
である
o より具体的には定義すると,
• アイテムのリポジトリとユーザの情報要求から
ユーザの情報要求を満たすアイテムを提⽰する
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 2
2.1 Repository (1/2)
• リポジトリのキュレーションの 3 要素
o コンテンツ⽣成
• アイテム作成に繋がる複雑な組織的,社会的,経
済的,政治的な動き
• アイテムのスケールはさまざま
o 個⼈の趣味による⾃作の楽曲
o 多⼈数の貢献者による⼤規模映画作品
o コンテンツ収集
• リポジトリへのアイテムの追加・削除時のプロセ
スやポリシー
• 静的アーカイブ取得,ニュース記事などの収集
• ユーザが情報アクセスシステムを⽤いたときのリ
ポジトリのアイテム集合を,アイテムへのイン
デックス D とする
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 4
Slide 5
Slide 5 text
2.1 Repository (2/2)
• リポジトリのキュレーション
o コンテンツ表現:個々のアイテムに関する情報
• コンテンツ
o アイテム d (∈D) の表現 𝜙!
(𝑑)
o e.g. 学術論⽂のテキスト,画像のピクセル,楽曲のオー
ディオファイル
• メタデータ
o アイテム d (∈D) のメタデータの表現 𝜙"
(𝑑)
o e.g. 作成者,ジャンル (⼈⼿/⾃動),アクセス数,⼈気
• 使⽤データ (usage data)
o アイテム d (∈D) の使⽤データの表現 𝜙#
(𝑑)
o アイテムと情報要求のインタラクション
• e.g. アイテムの利⽤者,クリックしたクエリ
o メタデータとの違い
• システムによって起こされるバイアスが⼤きい
• 関連性 (relevance) を強く⽰唆している
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 5
Slide 6
Slide 6 text
2.2 Information Needs (1/2)
• 情報アクセスシステムを使う⽤途はさまざま
o 質問への回答を知りたい
o あるジャンルの⾳楽を視聴したい
o 購⼊前に商品レビューを読みたい
• 以降,情報要求を Q と定義
• 明⽰的な情報要求の分類
o 特徴量ベース:情報要求を直接記述
• 情報要求 q (∈Q) の表現 𝜌!(𝑞)
• e.g.
o クエリキーワードを含むアイテムはより適合度が⾼い
o ファセット検索では関連性の⾼いクラス指定
o アイテムベース:適合/⾮適合アイテムを提⽰
• 情報要求 q (∈Q) の表現 𝜌"(𝑞)
o その他:⾃然⾔語検索など
• 情報要求 q (∈Q) の表現 𝜌#(𝑞)
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 6
Slide 7
Slide 7 text
2.2 Information Needs (2/2)
• 暗黙的な情報要求の分類
o ⼤域的表現:ユーザの安定した特性
• 情報要求 q (∈Q) の表現 𝜌!"#$%"
(𝑞)
• e.g.
o ユーザのデモグラフィック属性
o ユーザが過去にアクセスしたアイテム
o 局所的表現:ユーザの変動のある特性
• 情報要求 q (∈Q) の表現 𝜌"#&%"
(𝑞)
• e.g.
o あるセッションにおける閲覧履歴
o 検索機能のオプション (「発⾒」モード or 「ムード」
モード)
o 階層的検索では両者の分類は流動的
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 7
Slide 8
Slide 8 text
2.3 Presentation
• シングルターン
o ユーザはシステムにリクエストを送り,単⼀
の結果を受け取る
• e.g. 単⼀クエリの検索結果,推薦システムのホー
ム画⾯
o インタフェースいろいろ
• 制約が⼤きい場合は単⼀の結果のみ
• 制約が緩ければランキング機能あり
• 画像では⼆次元グリッドでの提⽰が⼈気
• 没⼊型環境 (VR? AR?) では三次元表⽰
o テキストサマリ
• コンテンツ消費前に確認のための要約を提⽰
• 特定の部分を強調することもある
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 8
Slide 9
Slide 9 text
2.4 Interaction
• 単⼀の情報要求を満たすためには複数回のイ
ンタラクションが必要
• インタラクション例
o ユーザは検索システムを利⽤時に単⼀セッション
において複数回クエリを発⾏する
o ユーザは推薦システム利⽤時に,web ページや
アプリケーションインタフェースのナビゲーショ
ンを通じて適合するコンテンツを決める
• ユーザの明⽰的/暗黙的フィードバックに
よってアルゴリズムの挙動を変える
o ⾳楽推薦システムの楽曲スキップ
o 対話システムにおけるスロットフィルタリング
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 9
Slide 10
Slide 10 text
2.5 Evaluation (1/6)
• 情報アクセスの評価において,情報要求
の満⾜度評価はユーザのインタラクショ
ン (アイテムの有⽤性評価) によって⾏わ
れる
• 評価⽅法の分類
o シチュエーション評価
• ユーザスタディ
• 評価の変動に追従できるが⾼コスト
o シミュレーション評価
• データとアルゴリズムを⽤いた再現可能な評価
• オフライン評価はその⼀例
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 10
Slide 11
Slide 11 text
2.5 Evaluation (2/6)
• アイテムの有⽤性の推定
o 全アイテムに⼈⼿で評価値を付与するのは⾼
コスト
• ただしシステム利⽤中にアノテーション可能
o (明⽰的) アノテーションの分類
• ユーザアノテーションはラベルの曖昧性あり
o コンテキスト依存/汎⽤的の判断が困難
• ⾮ユーザアノテーションは低ラベル曖昧性
o ⾮ユーザ = アノテータ
o アノテーションのガイドラインを制御可能
o ただし解釈性は低い (?)
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 11
Slide 12
Slide 12 text
2.5 Evaluation (3/6)
• アイテムの有⽤性の推定
o 暗黙的ラベリング
• ログから推定
o クリック,視聴,購⼊,ブックマークなど
o ただし,どのログが有⽤かはドメインに強く依存
• Web 検索ではクリックが有⽤だが画像検索では無⽤
• 瞬間的に評価可能な有⽤性
o クリック,視聴,ブックマークなど
o ⻑期的な有⽤性については保証しない
• ⽂書のクリック
o コンテキスト依存
o ⾼次元のゴールに対して⾼い有⽤性を持つかは不明
• もし⻑期的な有⽤性 (タスク達成,購⼊など) を観
測できれば
o 因果推論,強化学習,多⽬的最適化でシステム構築可能
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 12
Slide 13
Slide 13 text
2.5 Evaluation (4/6)
• (システムの) オンライン評価
o 個々のユーザの振る舞い (クリック,視聴,
購⼊) などを集約してシステムの性能評価を
⾏う
o A/B テストによって2つのシステムが⽐較さ
れることが多い
o 評価実験を通じてアルゴリズムデザイン (実
際はパラメータチューニング?) が⾏われるこ
ともある
• 多腕バンディットや強化学習でポリシー学習
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 13
Slide 14
Slide 14 text
2.5 Evaluation (5/6)
• (システムの) オフライン評価
o データとユーザモデル (評価値) の組合せを⽤
いた評価
o ユーザの負荷なく効率的にアルゴリズムの性
能評価が可能
o データとモデルが研究コミュニティで共有さ
れれば標準的なベンチマークになれる
• TREC など
o 情報要求集合に対するアイテムの有⽤性は⼈
⼿によるアノテーションが伝統的
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 14
Slide 15
Slide 15 text
2.5 Evaluation (6/6)
• (システムの) オフライン評価
o シミュレーション評価の結果,何らかの評価
尺度の値 𝜇 が返される
• 𝜇(𝜋) = ∑
'()
|+| 𝛿(𝑟)𝑢(𝜋')
o 𝛿:ランクによる減衰関数
o 𝜋:システムランキング
o 𝑢:アイテムの有⽤性
• 𝛿 の例
o precision at k: 𝛿$@& 𝑟 = *
1 𝑟 < 𝑘
0 𝑟 > 𝑘
o rank-baised precision: 𝛿'($ 𝑟 = 𝛾)*+
o 評価には⼈間の価値観が反映されている
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 15
Slide 16
Slide 16 text
2.6 Algorithmic Foundations (1/6)
• 定義
o 𝑠 𝑞, 𝑑 :クエリ q における⽂書 d のスコアリング関数
o 𝜋 𝑞 :確率的スコアリング関数
• 前置き
o 以降,情報アクセスの網羅ではなく機械学習に精通してい
る⼈に情報アクセスの特殊性を理解するのに重要な項⽬を
説明
• 情報要求を満たすアルゴリズムの設計⽅針
o 情報要求に対して,どのようなデータと⽂書がどのように
提⽰されるのか?
o 適合度は直接推定されるのか,最適化を通して学習される
のか?
o どんな⽬的関数が適合性の最適化に使われるのか?
o 最終的なランキングを作成するためにどのように適合度が
推定されるのか?
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 16
Slide 17
Slide 17 text
2.6 Algorithmic Foundations (2/6)
• ベクトル空間モデル
o 情報検索の⽂書-索引語⾏列
• ⾼ (語彙数) 次元のベクトル空間で⽂書を表現
• クエリとの類似度算出はクエリベクトルと⽂書ベ
クトルのコサイン類似度で算出
• ベクトルの各要素には⽂書頻度に基づく値が付与
o 代表的な表現の⼀つは TF-IDF
• ⾏列全体が疎
o 情報推薦の評価値⾏列 (ユーザ×アイテム)
• 協調フィルタリングにて利⽤される構造
o コンテンツフィルタリングは⽂書-索引語⾏列
• 観測 (評価値を持つユーザ) が疎
• 評価値がなくてもユーザがそのアイテムに対する
好みがないというわけではない (検索との違い)
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 17
Slide 18
Slide 18 text
2.6 Algorithmic Foundations (3/6)
• 埋め込みと適合度の最適化
o クエリと⽂書の低次元空間への埋め込み
• 潜在的意味的分析/インデキシング (LSA/LSI)
o 特異値分解によって低ランク⾏列として表現
• 推薦システムではよく使われる
o 観測が少ないため有⽤なアプローチ
o 最適化による次元圧縮
• 機械学習モデルによる適合度推定
• 観測と評価値から関数 𝑠 𝑑|𝑑 を学習
o 適合度以外にもクリック率 (CTR) の推定もある
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 18
Slide 19
Slide 19 text
2.6 Algorithmic Foundations (4/6)
• ユーザモデリング:ユーザモデルの構築
o ユーザモデル 𝜌123452
• 構造はベクトル空間モデルや埋め込みなど
• 推薦,パーソナライズ検索などで利⽤
o スコアリング時に反映される
• ユーザのインタラクション履歴から構築
o ただし時間経過とともにユーザの好みは変動
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 19
Slide 20
Slide 20 text
2.6 Algorithmic Foundations (5/6)
• ランキング学習
o pointwise
• クエリ-⽂書ペアの適合度を⽤いて学習
• ただし,検索システムでは厳密な適合度よりラン
キングが重要
o pairwise
• 2 個のクエリ-⽂書ペアを⽤いて学習
o 例:同⼀クエリに対する適合⽂書 (d+
)と⾮適合⽂書 (d-
)
o 𝑠 𝑑, 𝑞 − 𝑠 𝑑* 𝑞 を最⼤化
o listwise (書いてないですが)
• リスト全体を使って学習
• ⼀般的に pairwise と⽐べてもそれほど性能が変わ
らない
o 学習⽤に正確なリストを作るのが難しいから?
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 20
Slide 21
Slide 21 text
2.6 Algorithmic Foundations (6/6)
• 再ランキング
o 多くの情報アクセス技術は単⼀のランキングス
テップのみを⽤いるわけではない
• 再ランキングは多⽤される
• ベースとなるランキングモデル適⽤後にランキング学
習の適⽤など
o 再ランキングの例
• 多様性 (MMR) 考慮
o ランキングのバランス調整
o 新規 (下位ランクの) ⽂書のスコアは既存 (上位ランク) の⽂
書と似ていない⽂書ほど⾼スコア
o 仮定:ある⽂書が⾮適合なら似た他の⽂書も⾮適合
• 情報推薦における公平性
o 後の章で紹介
• ⼤規模リポジトリに対する効率的な情報アクセス
o 計算コストの低いスコアリング⼿法で絞り込み
o ⾼コストなスコアリング⼿法で再ランキング
HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 21