Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: ch2-Information Access Fundamentals of "Fairness and Discrimination in Information Access Systems"

文献紹介: ch2-Information Access Fundamentals of "Fairness and Discrimination in Information Access Systems"

HCIRリサーチユニット輪読会 2021
にて紹介した Fairness and Discrimination in Information Access Systems 第二章 Information Access Fundamentals のスライドです.基本事項が中心なので既に情報検索・推薦をご存じの方にはスキップ可能な内容ですが,もし基本を復習したい方がいらっしゃれば参考になれば幸いです.不適切な記述などがあればご指摘頂ければ嬉しく存じます.

keyakkie

June 25, 2021
Tweet

More Decks by keyakkie

Other Decks in Research

Transcript

  1. Chapter 2 Information Access Fundamentals HCIRリサーチユニット輪読会 2021 Fairness and Discrimination

    in Information Access Systems Ekstrand, M.D., Das, A., Burke, R., and Diaz, F. 欅 惇志 (デンソーアイティーラボラトリ) 意訳多いです
  2. Overview • Information Access o ユーザが巨⼤なデータリポジトリからアイテ ムを検索することを⽀援するシステムの総称 である o より具体的には定義すると,

    • アイテムのリポジトリとユーザの情報要求から ユーザの情報要求を満たすアイテムを提⽰する HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 2
  3. 章⽴て • 2.1 Repository • 2.2 Information Needs • 2.3

    Presentation • 2.4 Interaction • 2.5 Evaluation • 2.6 Algorithmic Foundations HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 3
  4. 2.1 Repository (1/2) • リポジトリのキュレーションの 3 要素 o コンテンツ⽣成 •

    アイテム作成に繋がる複雑な組織的,社会的,経 済的,政治的な動き • アイテムのスケールはさまざま o 個⼈の趣味による⾃作の楽曲 o 多⼈数の貢献者による⼤規模映画作品 o コンテンツ収集 • リポジトリへのアイテムの追加・削除時のプロセ スやポリシー • 静的アーカイブ取得,ニュース記事などの収集 • ユーザが情報アクセスシステムを⽤いたときのリ ポジトリのアイテム集合を,アイテムへのイン デックス D とする HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 4
  5. 2.1 Repository (2/2) • リポジトリのキュレーション o コンテンツ表現:個々のアイテムに関する情報 • コンテンツ o

    アイテム d (∈D) の表現 𝜙! (𝑑) o e.g. 学術論⽂のテキスト,画像のピクセル,楽曲のオー ディオファイル • メタデータ o アイテム d (∈D) のメタデータの表現 𝜙" (𝑑) o e.g. 作成者,ジャンル (⼈⼿/⾃動),アクセス数,⼈気 • 使⽤データ (usage data) o アイテム d (∈D) の使⽤データの表現 𝜙# (𝑑) o アイテムと情報要求のインタラクション • e.g. アイテムの利⽤者,クリックしたクエリ o メタデータとの違い • システムによって起こされるバイアスが⼤きい • 関連性 (relevance) を強く⽰唆している HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 5
  6. 2.2 Information Needs (1/2) • 情報アクセスシステムを使う⽤途はさまざま o 質問への回答を知りたい o あるジャンルの⾳楽を視聴したい

    o 購⼊前に商品レビューを読みたい • 以降,情報要求を Q と定義 • 明⽰的な情報要求の分類 o 特徴量ベース:情報要求を直接記述 • 情報要求 q (∈Q) の表現 𝜌!(𝑞) • e.g. o クエリキーワードを含むアイテムはより適合度が⾼い o ファセット検索では関連性の⾼いクラス指定 o アイテムベース:適合/⾮適合アイテムを提⽰ • 情報要求 q (∈Q) の表現 𝜌"(𝑞) o その他:⾃然⾔語検索など • 情報要求 q (∈Q) の表現 𝜌#(𝑞) HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 6
  7. 2.2 Information Needs (2/2) • 暗黙的な情報要求の分類 o ⼤域的表現:ユーザの安定した特性 • 情報要求

    q (∈Q) の表現 𝜌!"#$%" (𝑞) • e.g. o ユーザのデモグラフィック属性 o ユーザが過去にアクセスしたアイテム o 局所的表現:ユーザの変動のある特性 • 情報要求 q (∈Q) の表現 𝜌"#&%" (𝑞) • e.g. o あるセッションにおける閲覧履歴 o 検索機能のオプション (「発⾒」モード or 「ムード」 モード) o 階層的検索では両者の分類は流動的 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 7
  8. 2.3 Presentation • シングルターン o ユーザはシステムにリクエストを送り,単⼀ の結果を受け取る • e.g. 単⼀クエリの検索結果,推薦システムのホー

    ム画⾯ o インタフェースいろいろ • 制約が⼤きい場合は単⼀の結果のみ • 制約が緩ければランキング機能あり • 画像では⼆次元グリッドでの提⽰が⼈気 • 没⼊型環境 (VR? AR?) では三次元表⽰ o テキストサマリ • コンテンツ消費前に確認のための要約を提⽰ • 特定の部分を強調することもある HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 8
  9. 2.4 Interaction • 単⼀の情報要求を満たすためには複数回のイ ンタラクションが必要 • インタラクション例 o ユーザは検索システムを利⽤時に単⼀セッション において複数回クエリを発⾏する

    o ユーザは推薦システム利⽤時に,web ページや アプリケーションインタフェースのナビゲーショ ンを通じて適合するコンテンツを決める • ユーザの明⽰的/暗黙的フィードバックに よってアルゴリズムの挙動を変える o ⾳楽推薦システムの楽曲スキップ o 対話システムにおけるスロットフィルタリング HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 9
  10. 2.5 Evaluation (1/6) • 情報アクセスの評価において,情報要求 の満⾜度評価はユーザのインタラクショ ン (アイテムの有⽤性評価) によって⾏わ れる

    • 評価⽅法の分類 o シチュエーション評価 • ユーザスタディ • 評価の変動に追従できるが⾼コスト o シミュレーション評価 • データとアルゴリズムを⽤いた再現可能な評価 • オフライン評価はその⼀例 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 10
  11. 2.5 Evaluation (2/6) • アイテムの有⽤性の推定 o 全アイテムに⼈⼿で評価値を付与するのは⾼ コスト • ただしシステム利⽤中にアノテーション可能

    o (明⽰的) アノテーションの分類 • ユーザアノテーションはラベルの曖昧性あり o コンテキスト依存/汎⽤的の判断が困難 • ⾮ユーザアノテーションは低ラベル曖昧性 o ⾮ユーザ = アノテータ o アノテーションのガイドラインを制御可能 o ただし解釈性は低い (?) HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 11
  12. 2.5 Evaluation (3/6) • アイテムの有⽤性の推定 o 暗黙的ラベリング • ログから推定 o

    クリック,視聴,購⼊,ブックマークなど o ただし,どのログが有⽤かはドメインに強く依存 • Web 検索ではクリックが有⽤だが画像検索では無⽤ • 瞬間的に評価可能な有⽤性 o クリック,視聴,ブックマークなど o ⻑期的な有⽤性については保証しない • ⽂書のクリック o コンテキスト依存 o ⾼次元のゴールに対して⾼い有⽤性を持つかは不明 • もし⻑期的な有⽤性 (タスク達成,購⼊など) を観 測できれば o 因果推論,強化学習,多⽬的最適化でシステム構築可能 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 12
  13. 2.5 Evaluation (4/6) • (システムの) オンライン評価 o 個々のユーザの振る舞い (クリック,視聴, 購⼊)

    などを集約してシステムの性能評価を ⾏う o A/B テストによって2つのシステムが⽐較さ れることが多い o 評価実験を通じてアルゴリズムデザイン (実 際はパラメータチューニング?) が⾏われるこ ともある • 多腕バンディットや強化学習でポリシー学習 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 13
  14. 2.5 Evaluation (5/6) • (システムの) オフライン評価 o データとユーザモデル (評価値) の組合せを⽤

    いた評価 o ユーザの負荷なく効率的にアルゴリズムの性 能評価が可能 o データとモデルが研究コミュニティで共有さ れれば標準的なベンチマークになれる • TREC など o 情報要求集合に対するアイテムの有⽤性は⼈ ⼿によるアノテーションが伝統的 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 14
  15. 2.5 Evaluation (6/6) • (システムの) オフライン評価 o シミュレーション評価の結果,何らかの評価 尺度の値 𝜇

    が返される • 𝜇(𝜋) = ∑ '() |+| 𝛿(𝑟)𝑢(𝜋') o 𝛿:ランクによる減衰関数 o 𝜋:システムランキング o 𝑢:アイテムの有⽤性 • 𝛿 の例 o precision at k: 𝛿$@& 𝑟 = * 1 𝑟 < 𝑘 0 𝑟 > 𝑘 o rank-baised precision: 𝛿'($ 𝑟 = 𝛾)*+ o 評価には⼈間の価値観が反映されている HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 15
  16. 2.6 Algorithmic Foundations (1/6) • 定義 o 𝑠 𝑞, 𝑑

    :クエリ q における⽂書 d のスコアリング関数 o 𝜋 𝑞 :確率的スコアリング関数 • 前置き o 以降,情報アクセスの網羅ではなく機械学習に精通してい る⼈に情報アクセスの特殊性を理解するのに重要な項⽬を 説明 • 情報要求を満たすアルゴリズムの設計⽅針 o 情報要求に対して,どのようなデータと⽂書がどのように 提⽰されるのか? o 適合度は直接推定されるのか,最適化を通して学習される のか? o どんな⽬的関数が適合性の最適化に使われるのか? o 最終的なランキングを作成するためにどのように適合度が 推定されるのか? HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 16
  17. 2.6 Algorithmic Foundations (2/6) • ベクトル空間モデル o 情報検索の⽂書-索引語⾏列 • ⾼

    (語彙数) 次元のベクトル空間で⽂書を表現 • クエリとの類似度算出はクエリベクトルと⽂書ベ クトルのコサイン類似度で算出 • ベクトルの各要素には⽂書頻度に基づく値が付与 o 代表的な表現の⼀つは TF-IDF • ⾏列全体が疎 o 情報推薦の評価値⾏列 (ユーザ×アイテム) • 協調フィルタリングにて利⽤される構造 o コンテンツフィルタリングは⽂書-索引語⾏列 • 観測 (評価値を持つユーザ) が疎 • 評価値がなくてもユーザがそのアイテムに対する 好みがないというわけではない (検索との違い) HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 17
  18. 2.6 Algorithmic Foundations (3/6) • 埋め込みと適合度の最適化 o クエリと⽂書の低次元空間への埋め込み • 潜在的意味的分析/インデキシング

    (LSA/LSI) o 特異値分解によって低ランク⾏列として表現 • 推薦システムではよく使われる o 観測が少ないため有⽤なアプローチ o 最適化による次元圧縮 • 機械学習モデルによる適合度推定 • 観測と評価値から関数 𝑠 𝑑|𝑑 を学習 o 適合度以外にもクリック率 (CTR) の推定もある HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 18
  19. 2.6 Algorithmic Foundations (4/6) • ユーザモデリング:ユーザモデルの構築 o ユーザモデル 𝜌123452 •

    構造はベクトル空間モデルや埋め込みなど • 推薦,パーソナライズ検索などで利⽤ o スコアリング時に反映される • ユーザのインタラクション履歴から構築 o ただし時間経過とともにユーザの好みは変動 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 19
  20. 2.6 Algorithmic Foundations (5/6) • ランキング学習 o pointwise • クエリ-⽂書ペアの適合度を⽤いて学習

    • ただし,検索システムでは厳密な適合度よりラン キングが重要 o pairwise • 2 個のクエリ-⽂書ペアを⽤いて学習 o 例:同⼀クエリに対する適合⽂書 (d+ )と⾮適合⽂書 (d- ) o 𝑠 𝑑, 𝑞 − 𝑠 𝑑* 𝑞 を最⼤化 o listwise (書いてないですが) • リスト全体を使って学習 • ⼀般的に pairwise と⽐べてもそれほど性能が変わ らない o 学習⽤に正確なリストを作るのが難しいから? HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 20
  21. 2.6 Algorithmic Foundations (6/6) • 再ランキング o 多くの情報アクセス技術は単⼀のランキングス テップのみを⽤いるわけではない •

    再ランキングは多⽤される • ベースとなるランキングモデル適⽤後にランキング学 習の適⽤など o 再ランキングの例 • 多様性 (MMR) 考慮 o ランキングのバランス調整 o 新規 (下位ランクの) ⽂書のスコアは既存 (上位ランク) の⽂ 書と似ていない⽂書ほど⾼スコア o 仮定:ある⽂書が⾮適合なら似た他の⽂書も⾮適合 • 情報推薦における公平性 o 後の章で紹介 • ⼤規模リポジトリに対する効率的な情報アクセス o 計算コストの低いスコアリング⼿法で絞り込み o ⾼コストなスコアリング⼿法で再ランキング HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 21