Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: ch2-Information Access Fundamentals of "Fairness and Discrimination in Information Access Systems"

文献紹介: ch2-Information Access Fundamentals of "Fairness and Discrimination in Information Access Systems"

HCIRリサーチユニット輪読会 2021
にて紹介した Fairness and Discrimination in Information Access Systems 第二章 Information Access Fundamentals のスライドです.基本事項が中心なので既に情報検索・推薦をご存じの方にはスキップ可能な内容ですが,もし基本を復習したい方がいらっしゃれば参考になれば幸いです.不適切な記述などがあればご指摘頂ければ嬉しく存じます.

keyakkie

June 25, 2021
Tweet

More Decks by keyakkie

Other Decks in Research

Transcript

  1. Chapter 2
    Information Access
    Fundamentals
    HCIRリサーチユニット輪読会 2021
    Fairness and Discrimination
    in Information Access Systems
    Ekstrand, M.D., Das, A., Burke, R., and Diaz, F.
    欅 惇志 (デンソーアイティーラボラトリ)
    意訳多いです

    View Slide

  2. Overview
    • Information Access
    o ユーザが巨⼤なデータリポジトリからアイテ
    ムを検索することを⽀援するシステムの総称
    である
    o より具体的には定義すると,
    • アイテムのリポジトリとユーザの情報要求から
    ユーザの情報要求を満たすアイテムを提⽰する
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 2

    View Slide

  3. 章⽴て
    • 2.1 Repository
    • 2.2 Information Needs
    • 2.3 Presentation
    • 2.4 Interaction
    • 2.5 Evaluation
    • 2.6 Algorithmic Foundations
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 3

    View Slide

  4. 2.1 Repository (1/2)
    • リポジトリのキュレーションの 3 要素
    o コンテンツ⽣成
    • アイテム作成に繋がる複雑な組織的,社会的,経
    済的,政治的な動き
    • アイテムのスケールはさまざま
    o 個⼈の趣味による⾃作の楽曲
    o 多⼈数の貢献者による⼤規模映画作品
    o コンテンツ収集
    • リポジトリへのアイテムの追加・削除時のプロセ
    スやポリシー
    • 静的アーカイブ取得,ニュース記事などの収集
    • ユーザが情報アクセスシステムを⽤いたときのリ
    ポジトリのアイテム集合を,アイテムへのイン
    デックス D とする
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 4

    View Slide

  5. 2.1 Repository (2/2)
    • リポジトリのキュレーション
    o コンテンツ表現:個々のアイテムに関する情報
    • コンテンツ
    o アイテム d (∈D) の表現 𝜙!
    (𝑑)
    o e.g. 学術論⽂のテキスト,画像のピクセル,楽曲のオー
    ディオファイル
    • メタデータ
    o アイテム d (∈D) のメタデータの表現 𝜙"
    (𝑑)
    o e.g. 作成者,ジャンル (⼈⼿/⾃動),アクセス数,⼈気
    • 使⽤データ (usage data)
    o アイテム d (∈D) の使⽤データの表現 𝜙#
    (𝑑)
    o アイテムと情報要求のインタラクション
    • e.g. アイテムの利⽤者,クリックしたクエリ
    o メタデータとの違い
    • システムによって起こされるバイアスが⼤きい
    • 関連性 (relevance) を強く⽰唆している
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 5

    View Slide

  6. 2.2 Information Needs (1/2)
    • 情報アクセスシステムを使う⽤途はさまざま
    o 質問への回答を知りたい
    o あるジャンルの⾳楽を視聴したい
    o 購⼊前に商品レビューを読みたい
    • 以降,情報要求を Q と定義
    • 明⽰的な情報要求の分類
    o 特徴量ベース:情報要求を直接記述
    • 情報要求 q (∈Q) の表現 𝜌!(𝑞)
    • e.g.
    o クエリキーワードを含むアイテムはより適合度が⾼い
    o ファセット検索では関連性の⾼いクラス指定
    o アイテムベース:適合/⾮適合アイテムを提⽰
    • 情報要求 q (∈Q) の表現 𝜌"(𝑞)
    o その他:⾃然⾔語検索など
    • 情報要求 q (∈Q) の表現 𝜌#(𝑞)
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 6

    View Slide

  7. 2.2 Information Needs (2/2)
    • 暗黙的な情報要求の分類
    o ⼤域的表現:ユーザの安定した特性
    • 情報要求 q (∈Q) の表現 𝜌!"#$%"
    (𝑞)
    • e.g.
    o ユーザのデモグラフィック属性
    o ユーザが過去にアクセスしたアイテム
    o 局所的表現:ユーザの変動のある特性
    • 情報要求 q (∈Q) の表現 𝜌"#&%"
    (𝑞)
    • e.g.
    o あるセッションにおける閲覧履歴
    o 検索機能のオプション (「発⾒」モード or 「ムード」
    モード)
    o 階層的検索では両者の分類は流動的
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 7

    View Slide

  8. 2.3 Presentation
    • シングルターン
    o ユーザはシステムにリクエストを送り,単⼀
    の結果を受け取る
    • e.g. 単⼀クエリの検索結果,推薦システムのホー
    ム画⾯
    o インタフェースいろいろ
    • 制約が⼤きい場合は単⼀の結果のみ
    • 制約が緩ければランキング機能あり
    • 画像では⼆次元グリッドでの提⽰が⼈気
    • 没⼊型環境 (VR? AR?) では三次元表⽰
    o テキストサマリ
    • コンテンツ消費前に確認のための要約を提⽰
    • 特定の部分を強調することもある
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 8

    View Slide

  9. 2.4 Interaction
    • 単⼀の情報要求を満たすためには複数回のイ
    ンタラクションが必要
    • インタラクション例
    o ユーザは検索システムを利⽤時に単⼀セッション
    において複数回クエリを発⾏する
    o ユーザは推薦システム利⽤時に,web ページや
    アプリケーションインタフェースのナビゲーショ
    ンを通じて適合するコンテンツを決める
    • ユーザの明⽰的/暗黙的フィードバックに
    よってアルゴリズムの挙動を変える
    o ⾳楽推薦システムの楽曲スキップ
    o 対話システムにおけるスロットフィルタリング
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 9

    View Slide

  10. 2.5 Evaluation (1/6)
    • 情報アクセスの評価において,情報要求
    の満⾜度評価はユーザのインタラクショ
    ン (アイテムの有⽤性評価) によって⾏わ
    れる
    • 評価⽅法の分類
    o シチュエーション評価
    • ユーザスタディ
    • 評価の変動に追従できるが⾼コスト
    o シミュレーション評価
    • データとアルゴリズムを⽤いた再現可能な評価
    • オフライン評価はその⼀例
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 10

    View Slide

  11. 2.5 Evaluation (2/6)
    • アイテムの有⽤性の推定
    o 全アイテムに⼈⼿で評価値を付与するのは⾼
    コスト
    • ただしシステム利⽤中にアノテーション可能
    o (明⽰的) アノテーションの分類
    • ユーザアノテーションはラベルの曖昧性あり
    o コンテキスト依存/汎⽤的の判断が困難
    • ⾮ユーザアノテーションは低ラベル曖昧性
    o ⾮ユーザ = アノテータ
    o アノテーションのガイドラインを制御可能
    o ただし解釈性は低い (?)
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 11

    View Slide

  12. 2.5 Evaluation (3/6)
    • アイテムの有⽤性の推定
    o 暗黙的ラベリング
    • ログから推定
    o クリック,視聴,購⼊,ブックマークなど
    o ただし,どのログが有⽤かはドメインに強く依存
    • Web 検索ではクリックが有⽤だが画像検索では無⽤
    • 瞬間的に評価可能な有⽤性
    o クリック,視聴,ブックマークなど
    o ⻑期的な有⽤性については保証しない
    • ⽂書のクリック
    o コンテキスト依存
    o ⾼次元のゴールに対して⾼い有⽤性を持つかは不明
    • もし⻑期的な有⽤性 (タスク達成,購⼊など) を観
    測できれば
    o 因果推論,強化学習,多⽬的最適化でシステム構築可能
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 12

    View Slide

  13. 2.5 Evaluation (4/6)
    • (システムの) オンライン評価
    o 個々のユーザの振る舞い (クリック,視聴,
    購⼊) などを集約してシステムの性能評価を
    ⾏う
    o A/B テストによって2つのシステムが⽐較さ
    れることが多い
    o 評価実験を通じてアルゴリズムデザイン (実
    際はパラメータチューニング?) が⾏われるこ
    ともある
    • 多腕バンディットや強化学習でポリシー学習
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 13

    View Slide

  14. 2.5 Evaluation (5/6)
    • (システムの) オフライン評価
    o データとユーザモデル (評価値) の組合せを⽤
    いた評価
    o ユーザの負荷なく効率的にアルゴリズムの性
    能評価が可能
    o データとモデルが研究コミュニティで共有さ
    れれば標準的なベンチマークになれる
    • TREC など
    o 情報要求集合に対するアイテムの有⽤性は⼈
    ⼿によるアノテーションが伝統的
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 14

    View Slide

  15. 2.5 Evaluation (6/6)
    • (システムの) オフライン評価
    o シミュレーション評価の結果,何らかの評価
    尺度の値 𝜇 が返される
    • 𝜇(𝜋) = ∑
    '()
    |+| 𝛿(𝑟)𝑢(𝜋')
    o 𝛿:ランクによる減衰関数
    o 𝜋:システムランキング
    o 𝑢:アイテムの有⽤性
    • 𝛿 の例
    o precision at k: 𝛿[email protected]& 𝑟 = *
    1 𝑟 < 𝑘
    0 𝑟 > 𝑘
    o rank-baised precision: 𝛿'($ 𝑟 = 𝛾)*+
    o 評価には⼈間の価値観が反映されている
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 15

    View Slide

  16. 2.6 Algorithmic Foundations (1/6)
    • 定義
    o 𝑠 𝑞, 𝑑 :クエリ q における⽂書 d のスコアリング関数
    o 𝜋 𝑞 :確率的スコアリング関数
    • 前置き
    o 以降,情報アクセスの網羅ではなく機械学習に精通してい
    る⼈に情報アクセスの特殊性を理解するのに重要な項⽬を
    説明
    • 情報要求を満たすアルゴリズムの設計⽅針
    o 情報要求に対して,どのようなデータと⽂書がどのように
    提⽰されるのか?
    o 適合度は直接推定されるのか,最適化を通して学習される
    のか?
    o どんな⽬的関数が適合性の最適化に使われるのか?
    o 最終的なランキングを作成するためにどのように適合度が
    推定されるのか?
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 16

    View Slide

  17. 2.6 Algorithmic Foundations (2/6)
    • ベクトル空間モデル
    o 情報検索の⽂書-索引語⾏列
    • ⾼ (語彙数) 次元のベクトル空間で⽂書を表現
    • クエリとの類似度算出はクエリベクトルと⽂書ベ
    クトルのコサイン類似度で算出
    • ベクトルの各要素には⽂書頻度に基づく値が付与
    o 代表的な表現の⼀つは TF-IDF
    • ⾏列全体が疎
    o 情報推薦の評価値⾏列 (ユーザ×アイテム)
    • 協調フィルタリングにて利⽤される構造
    o コンテンツフィルタリングは⽂書-索引語⾏列
    • 観測 (評価値を持つユーザ) が疎
    • 評価値がなくてもユーザがそのアイテムに対する
    好みがないというわけではない (検索との違い)
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 17

    View Slide

  18. 2.6 Algorithmic Foundations (3/6)
    • 埋め込みと適合度の最適化
    o クエリと⽂書の低次元空間への埋め込み
    • 潜在的意味的分析/インデキシング (LSA/LSI)
    o 特異値分解によって低ランク⾏列として表現
    • 推薦システムではよく使われる
    o 観測が少ないため有⽤なアプローチ
    o 最適化による次元圧縮
    • 機械学習モデルによる適合度推定
    • 観測と評価値から関数 𝑠 𝑑|𝑑 を学習
    o 適合度以外にもクリック率 (CTR) の推定もある
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 18

    View Slide

  19. 2.6 Algorithmic Foundations (4/6)
    • ユーザモデリング:ユーザモデルの構築
    o ユーザモデル 𝜌123452
    • 構造はベクトル空間モデルや埋め込みなど
    • 推薦,パーソナライズ検索などで利⽤
    o スコアリング時に反映される
    • ユーザのインタラクション履歴から構築
    o ただし時間経過とともにユーザの好みは変動
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 19

    View Slide

  20. 2.6 Algorithmic Foundations (5/6)
    • ランキング学習
    o pointwise
    • クエリ-⽂書ペアの適合度を⽤いて学習
    • ただし,検索システムでは厳密な適合度よりラン
    キングが重要
    o pairwise
    • 2 個のクエリ-⽂書ペアを⽤いて学習
    o 例:同⼀クエリに対する適合⽂書 (d+
    )と⾮適合⽂書 (d-
    )
    o 𝑠 𝑑, 𝑞 − 𝑠 𝑑* 𝑞 を最⼤化
    o listwise (書いてないですが)
    • リスト全体を使って学習
    • ⼀般的に pairwise と⽐べてもそれほど性能が変わ
    らない
    o 学習⽤に正確なリストを作るのが難しいから?
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 20

    View Slide

  21. 2.6 Algorithmic Foundations (6/6)
    • 再ランキング
    o 多くの情報アクセス技術は単⼀のランキングス
    テップのみを⽤いるわけではない
    • 再ランキングは多⽤される
    • ベースとなるランキングモデル適⽤後にランキング学
    習の適⽤など
    o 再ランキングの例
    • 多様性 (MMR) 考慮
    o ランキングのバランス調整
    o 新規 (下位ランクの) ⽂書のスコアは既存 (上位ランク) の⽂
    書と似ていない⽂書ほど⾼スコア
    o 仮定:ある⽂書が⾮適合なら似た他の⽂書も⾮適合
    • 情報推薦における公平性
    o 後の章で紹介
    • ⼤規模リポジトリに対する効率的な情報アクセス
    o 計算コストの低いスコアリング⼿法で絞り込み
    o ⾼コストなスコアリング⼿法で再ランキング
    HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 21

    View Slide