Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: 1. Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation of BERT Rankers (SIGIR 2021) 2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021) / IR-Reading-2021-fall

Yu Nakano
October 30, 2021

論文紹介: 1. Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation of BERT Rankers (SIGIR 2021) 2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021) / IR-Reading-2021-fall

IR Reading 2021 秋 での論文紹介に使用したスライドです.
https://sigir.jp/post/2021-10-30-irreading_2021fall

紹介した論文
1. Societal Biases in Retrieved Contents: Measurement Frameworkand Adversarial Mitigation of BERT Rankers (SIGIR 2021)
2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021)

Yu Nakano

October 30, 2021
Tweet

More Decks by Yu Nakano

Other Decks in Research

Transcript

  1. 1. Societal Biases in Retrieved Contents: Measurement Framework
    and Adversarial Mitigation of BERT Rankers (SIGIR 2021)
    2. Leveraging Lead Bias for Zero-shot Abstractive
    News Summarization (SIGIR 2021)
    論⽂紹介する⼈
    筑波⼤学加藤研究室 D2
    中野優
    https://sites.google.com/view/yu-nakano
    図表は基本的に論⽂より引⽤

    View Slide

  2. Societal Biases in Retrieved Contents: Measurement Framework
    and Adversarial Mitigation of BERT Rankers (SIGIR 2021)
    検索結果のバイアスを評価するための新たなデータセットと
    評価指標を提案しバイアスを軽減する新たな⼿法を提案した論⽂
    Authors: Navid Rekabsaz1, Simone Kopeinik2, Markus Schedl1
    1. Johannes Kepler University Linz, 2. Know-Center GmbH

    View Slide

  3. 検索結果がバイアスを含むと偏⾒やステレオタイプを助⻑しうる
    →バイアスを測定する⽅法とバイアスを軽減する⽅法が必要
    背景: 検索結果のバイアス
    1 位の⽂書: バイアスなし
    2 位の⽂書: バイアスあり
    3 位の⽂書: バイアスなし
    Governor は本来は特定の性別を
    ⽰唆するものではないが男性の
    代名詞の he/his が使われている
    クエリ: 知事の重要性とは?
    注意点: 本発表では
    「バイアスを軽減する」と
    「公平性を⾼める」を
    同じ意味で⽤いています

    View Slide

  4. この論⽂のやったこと 4
    2. 指標
    1. データセット
    バイアスを軽減しつつ
    クエリに適合する⽂書を
    学習する AdvBERT を提案
    4. 実験
    ⽂書検索結果 (ランキング) と
    ⽂書集合の公平性を
    測る指標 NFaiRRを提案
    既存データセットから検索結果に
    gender bias を含みうるクエリを
    収集したデータセットを作成
    3. ⼿法
    提案⼿法がバイアスを
    軽減できることを実証

    View Slide

  5. • MS MARCO/TREC DL の dev クエリからデータセットを作成
    ◦ クエリ選択基準: Non-gendered かつ Socially Problematic なクエリ
    • アノテーション⼿順
    1. Amazon Mechanical Turk (AMT) で
    Non-gendered かをアノテーション
    2. 2 ⼈のポスドク研究者が AMT の
    結果を確認し Socially Problematic
    かをアノテーション
    データセット: gender bias に着⽬してデータセットを作成 5
    クエリ数
    MSMARCOFAIR
    215
    TRECDL19FAIR
    30
    図: クエリ例
    gender を⽰す語が含まれないクエリ
    gender を⽰す語の例: king/queen,
    pregnant, Nelson Mandela (⼈名)
    Career などの gender inequality が
    存在するとされているドメインのクエリ
    表: クエリ数
    ドメイン⼀覧: Career, Education, Politics, Health,
    Social Inequality, Violence and Exploitation

    View Slide

  6. • ⽂書の中⽴度を定義しそれを元にランキングの指標を提案
    ◦ ⽂書 𝑑 の中⽴度 𝜔 𝑑 : 各属性を⽰唆する語の出現回数 mag!(𝑑) を
    全属性で正規化した値(割合)がどの程度偏っているか
    ◦ 本研究で扱う属性: {m (male), f (female)} (2 種類)
    検索結果の公平性を測定する指標: NFaiRR (1/3) 6
    mag!(𝑑): 属性 𝑎 を⽰唆する語が
    ⽂書 𝑑 に何回出現するか
    ⽂書 𝑑 における
    単語 𝑤 の出現頻度
    𝕍"
    he, him, boy,
    father, sir, guy,
    John, Leo, Noel,

    𝕍#
    she, her, girl,
    mother, madam, gal
    Mary, Jean, Eve,

    属性ごとに決められた
    属性を⽰唆する語の集合
    (既存研究を参考に決定)

    View Slide

  7. • ⽂書の中⽴度を定義しそれを元にランキングの指標を提案
    ◦ ⽂書 𝑑 の中⽴度 𝜔 𝑑 : 各属性で決められた語の出現回数 mag!(𝑑)
    を全属性で正規化した値(割合)がどの程度偏っているか
    検索結果の公平性を測定する指標: NFaiRR (2/3) 7
    ⽂書 𝑑 の中⽴度 𝜔 𝑑 :
    正規化した mag!(d) が
    理想の割合から
    偏っていないか
    𝐽!
    : 属性 𝑎 理想的な割合
    (本研究では 𝐽!
    = 𝐽"
    = 0.5)
    全属性で正規化された
    mag!(𝑑) の割合
    mag!(𝑑) の和が⼩さい場合は
    バイアスが⼩さいとし中⽴度は 1
    偏りが⼩さい (mag! 𝑑 = 4, mag"(𝑑) = 6) 場合
    𝜔 𝑑 = 1 − 0.4 − 0.5 − 0.6 − 0.5 = 0.8 → 中⽴度は 1 に近づく
    偏りが⼤きい (mag! 𝑑 = 1, mag"(𝑑) = 9) 場合
    𝜔 𝑑 = 1 − 0.1 − 0.5 − 0.9 − 0.5 = 0.2 → 中⽴度は 0 に近づく
    計算例

    View Slide

  8. • Normalized Fairness of Retrieval Results (NFaiRR)
    ◦ Fairness of Retrieval Results (FaiRR): ⽂書の中⽴度をもとにした
    公平性のランキング指標
    • NFaiRR は FaiRR を正規化したもの
    ◦ nDCG の利得を⽂書の中⽴度に置き換えたものとみなせる
    検索結果の公平性を測定する指標: NFaiRR (3/3) 8
    𝑖 位の⽂書 𝑑#
    の中⽴度
    Ideal FaiRR (IFaiRR)
    ランキング R の最⼤の FaiRR
    ランキング

    View Slide

  9. • ⽂書集合 𝑆 に対する NFaiRR も定義
    ◦ 嬉しい点: コレクションに対しても公平性が定量化できる
    • 注: 前ページの FaiRR(𝑅) の 𝑅 はランキング (=順序のあるリスト)
    ◦ 考え⽅: 集合 𝑆 の⽂書から作ることができる任意のランキングに
    対する FaiRR の期待値を集合 𝑆 の FaiRR とする
    NFaiRR の⽂書集合への拡張 9
    ⽂書集合 𝑆 における
    ⽂書の中⽴度の平均
    →集合に対する FaiRR は
    平均の中⽴度で決める
    上記の式は SetFaiRR を定義どおりに⾃分で計算してみた式ですが論⽂とは違う式になっていまいました…
    もしこれから読んでみようと思う⽅は計算してみて Slack などで結果を教えていただけると嬉しいです
    𝑆 の任意のランキングの集合

    View Slide

  10. 敵対的学習を⾏うことで適合度予測に役に⽴つ表現を学習しつつ
    中⽴度予測には役に⽴たない表現を学習する
    ⼿法: AdvBERT 10
    • 適合度を精度よく予測するように学習しつつバイアスを
    学習しないようにしたい
    ◦ アイデア: 適合度を予測できるように学習しつつ,バイアスと関連が
    強い⽂書の中⽴度を予測できなくなるように学習する (敵対的学習)
    適合度の予測
    →⾼い精度(⼩さい損失)に
    なるように学習したい
    (BERT を⽤いた
    ⽂書検索と同じ設定)
    ⽂書の中⽴度の予測
    →低い精度(⼤きい損失)に
    なるように学習したい
    注: このアイデア⾃体は [8] の教師なしドメイン適応で
    分類器の性能をあげつつ,どのドメインのデータかを
    予測できないようにするというアイデアと似たもの

    View Slide

  11. 実験結果: NFaiRR 11
    注: BERTL2/L4
    の網掛け部分が
    元の BERT と⽐較した際の
    AdvBERT (提案⼿法) による
    スコアの伸びを表している
    提案⼿法によって公平性指標 NFairRR が
    向上している (特に MS MARCO)
    TREC DL は Rerank 以前で⼗分に
    公平な結果が得られている
    縦軸: 公平性指標
    (⾼いほうが良い)

    View Slide

  12. 実験結果: Fairness-Utility Tradeoff 12
    BM25 よりは⾼いもののBERT からは
    ⼤きく性能が下がってしまっている
    性能と NFaiRR のバランスを取るようにを
    モデル選択を⾏った結果
    NFaiRR が⾼いモデルを選択した結果 nDCG と NFaiRR で
    F値を計算する
    BERT と同程度の性能を保ちつつ
    NFaiRR が⾼くなっている

    View Slide

  13. Leveraging Lead Bias for Zero-shot Abstractive
    News Summarization (SIGIR 2021)
    ニュースドメイン固有のバイアスを要約の事前学習に活⽤し
    Zero-shot 要約で⾼い要約性能を⽰した論⽂
    Authors: Chenguang Zhu1, Ziyi Yang2, Robert Gmyr1, Michael Zeng1, Xuedong Huang1
    1. Microsoft, 2. Stanford University

    View Slide

  14. • ニュースでは最も重要な事項が先頭に記述される (Lead Bias)
    • ⼀⽅ニュース要約はニュースの重要な事項をまとめるタスク
    ◦ → アイデア: Lead Bias が活⽤できるかも?
    ◦ 実際,⼈⼿で作った要約とニュースの先頭部分は重複割合が⾼い
    背景: ニュースの Lead Bias 14
    ニュース要約データセットにおいて正解となる要約と丸で囲ったニュースの
    先頭部分の単語の重複割合は先頭以外の部分よりも相対的に⼤きい

    View Slide

  15. • 事前学習タスク: ニュースの 4 ⽂⽬以降から先頭 3 ⽂を⽣成
    ◦ つまり先頭 3 ⽂を 4 ⽂⽬以降の要約とみなす
    • データセット: Bing 検索のニュース記事 3 年分を利⽤
    ◦ 先頭 3 ⽂と 4 ⽂⽬以降の単語の重複割合を
    計算し重複割合が⾼いニュースのみを使⽤
    • Lead Bias は存在するものの必ずしも先頭 3 ⽂が
    4 ⽂⽬以降の要約になっているとは限らないため
    ◦ 重複割合の閾値は既存データを元に決定
    ◦ 2140 万の記事を事前学習に利⽤
    • モデル: BART/T5 を⽤いる
    ◦ 事前学習済みのモデルを初期値として
    さらに事前学習させる
    ⼿法: Lead Bias を利⽤して要約向きのニューラル⾔語モデルを事前学習 15
    CNN/DM データセットでの
    単語の重複割合の分布
    要約と記事全体の重複割合
    要約と 4 ⽂⽬以降の重複割合
    先頭 3 ⽂と 4 ⽂⽬以降の重複割合

    View Slide

  16. • 問題設定: Zero-shot ニュース要約タスク
    ◦ 事前学習したモデルを Fine-tuning せずに要約させる
    ◦ 注: 教師なしニュース要約とは異なる
    • 教師なしの場合はラベルデータ (正解の要約データ) は使わないが
    ラベルなしデータ (ニュース本⽂) は使う
    • データセット: 6 つの
    ニュース要約データセット
    • 指標: ROUGE-1/2/L
    実験設定: 問題設定・データセット・指標 16

    View Slide

  17. • 提案⼿法は他の Zero-shot ⼿法を⼤きく上回る性能
    ◦ 教師なし⼿法も上回るか同程度の性能
    実験結果 17
    提案⼿法
    Zero-shot
    ⼿法
    教師なし
    教師あり
    先頭 3 ⽂
    そのまま

    View Slide

  18. 分析: 提案⼿法は単に先頭の⽂をコピーしているわけではない 18
    先頭 3 ⽂とで
    n-gram が
    重複しない割合
    1-gram でも 5 割以上は
    重複しておらず提案⼿法は
    単に先頭の⽂のコピーを
    しているわけではなさそう
    ROUGE でも 5 つのデータセットで
    先頭 3 ⽂と⽐較して改善している

    View Slide

  19. • SIGIR 2021 のバイアスに関する研究を 2 本紹介した
    1. Societal Biases in Retrieved Contents: Measurement Framework
    and Adversarial Mitigation of BERT Rankers
    • 検索結果のバイアスを評価するための新たなデータセットと指標を提案し,
    バイアスを除去する⽅法を提案した論⽂
    • 感想: データセット作成の難しい部分をきちんとやって公開したのは素晴ら
    しい
    2. Leveraging Lead Bias for Zero-shot Abstractive News
    Summarization
    • ニュースドメイン固有のバイアスを要約の事前学習に活⽤し
    Zero-shot 要約で⾼い要約性能を⽰した論⽂
    • 感想: ドメイン固有の性質から単純なアイデアで良い性能を出していて
    ⾯⽩い
    まとめ 19

    View Slide

  20. Appendix

    View Slide

  21. クエリのカテゴリ
    • 公開されているデータセットを集計
    MSMARCO TRECDL
    Career 64 11
    Education 34 15
    Politics 22 2
    Health 49 9
    Social
    Inequality
    77 4
    Violence and
    Exploitation
    13 0
    なし 3 0
    クエリのカテゴリ
    (1 クエリに複数カテゴリが
    付与されている場合も)

    View Slide