文献紹介: ch2-Information Access Fundamentals of "Fairness and Discrimination in Information Access Systems"
HCIRリサーチユニット輪読会 2021
にて紹介した Fairness and Discrimination in Information Access Systems 第二章 Information Access Fundamentals のスライドです.基本事項が中心なので既に情報検索・推薦をご存じの方にはスキップ可能な内容ですが,もし基本を復習したい方がいらっしゃれば参考になれば幸いです.不適切な記述などがあればご指摘頂ければ嬉しく存じます.
Chapter 2 Information Access Fundamentals HCIRリサーチユニット輪読会 2021 Fairness and Discrimination in Information Access Systems Ekstrand, M.D., Das, A., Burke, R., and Diaz, F. 欅 惇志 (デンソーアイティーラボラトリ) 意訳多いです
Overview • Information Access o ユーザが巨⼤なデータリポジトリからアイテ ムを検索することを⽀援するシステムの総称 である o より具体的には定義すると, • アイテムのリポジトリとユーザの情報要求から ユーザの情報要求を満たすアイテムを提⽰する HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 2
2.1 Repository (2/2) • リポジトリのキュレーション o コンテンツ表現:個々のアイテムに関する情報 • コンテンツ o アイテム d (∈D) の表現 𝜙! (𝑑) o e.g. 学術論⽂のテキスト,画像のピクセル,楽曲のオー ディオファイル • メタデータ o アイテム d (∈D) のメタデータの表現 𝜙" (𝑑) o e.g. 作成者,ジャンル (⼈⼿/⾃動),アクセス数,⼈気 • 使⽤データ (usage data) o アイテム d (∈D) の使⽤データの表現 𝜙# (𝑑) o アイテムと情報要求のインタラクション • e.g. アイテムの利⽤者,クリックしたクエリ o メタデータとの違い • システムによって起こされるバイアスが⼤きい • 関連性 (relevance) を強く⽰唆している HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 5
2.2 Information Needs (1/2) • 情報アクセスシステムを使う⽤途はさまざま o 質問への回答を知りたい o あるジャンルの⾳楽を視聴したい o 購⼊前に商品レビューを読みたい • 以降,情報要求を Q と定義 • 明⽰的な情報要求の分類 o 特徴量ベース:情報要求を直接記述 • 情報要求 q (∈Q) の表現 𝜌!(𝑞) • e.g. o クエリキーワードを含むアイテムはより適合度が⾼い o ファセット検索では関連性の⾼いクラス指定 o アイテムベース:適合/⾮適合アイテムを提⽰ • 情報要求 q (∈Q) の表現 𝜌"(𝑞) o その他:⾃然⾔語検索など • 情報要求 q (∈Q) の表現 𝜌#(𝑞) HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 6
2.2 Information Needs (2/2) • 暗黙的な情報要求の分類 o ⼤域的表現:ユーザの安定した特性 • 情報要求 q (∈Q) の表現 𝜌!"#$%" (𝑞) • e.g. o ユーザのデモグラフィック属性 o ユーザが過去にアクセスしたアイテム o 局所的表現:ユーザの変動のある特性 • 情報要求 q (∈Q) の表現 𝜌"#&%" (𝑞) • e.g. o あるセッションにおける閲覧履歴 o 検索機能のオプション (「発⾒」モード or 「ムード」 モード) o 階層的検索では両者の分類は流動的 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 7
2.5 Evaluation (2/6) • アイテムの有⽤性の推定 o 全アイテムに⼈⼿で評価値を付与するのは⾼ コスト • ただしシステム利⽤中にアノテーション可能 o (明⽰的) アノテーションの分類 • ユーザアノテーションはラベルの曖昧性あり o コンテキスト依存/汎⽤的の判断が困難 • ⾮ユーザアノテーションは低ラベル曖昧性 o ⾮ユーザ = アノテータ o アノテーションのガイドラインを制御可能 o ただし解釈性は低い (?) HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 11
2.5 Evaluation (3/6) • アイテムの有⽤性の推定 o 暗黙的ラベリング • ログから推定 o クリック,視聴,購⼊,ブックマークなど o ただし,どのログが有⽤かはドメインに強く依存 • Web 検索ではクリックが有⽤だが画像検索では無⽤ • 瞬間的に評価可能な有⽤性 o クリック,視聴,ブックマークなど o ⻑期的な有⽤性については保証しない • ⽂書のクリック o コンテキスト依存 o ⾼次元のゴールに対して⾼い有⽤性を持つかは不明 • もし⻑期的な有⽤性 (タスク達成,購⼊など) を観 測できれば o 因果推論,強化学習,多⽬的最適化でシステム構築可能 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 12
2.6 Algorithmic Foundations (1/6) • 定義 o 𝑠 𝑞, 𝑑 :クエリ q における⽂書 d のスコアリング関数 o 𝜋 𝑞 :確率的スコアリング関数 • 前置き o 以降,情報アクセスの網羅ではなく機械学習に精通してい る⼈に情報アクセスの特殊性を理解するのに重要な項⽬を 説明 • 情報要求を満たすアルゴリズムの設計⽅針 o 情報要求に対して,どのようなデータと⽂書がどのように 提⽰されるのか? o 適合度は直接推定されるのか,最適化を通して学習される のか? o どんな⽬的関数が適合性の最適化に使われるのか? o 最終的なランキングを作成するためにどのように適合度が 推定されるのか? HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 16