$30 off During Our Annual Pro Sale. View Details »

論文紹介: 1. Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation of BERT Rankers (SIGIR 2021) 2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021) / IR-Reading-2021-fall

Yu Nakano
October 30, 2021

論文紹介: 1. Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation of BERT Rankers (SIGIR 2021) 2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021) / IR-Reading-2021-fall

IR Reading 2021 秋 での論文紹介に使用したスライドです.
https://sigir.jp/post/2021-10-30-irreading_2021fall

紹介した論文
1. Societal Biases in Retrieved Contents: Measurement Frameworkand Adversarial Mitigation of BERT Rankers (SIGIR 2021)
2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021)

Yu Nakano

October 30, 2021
Tweet

More Decks by Yu Nakano

Other Decks in Research

Transcript

  1. 1. Societal Biases in Retrieved Contents: Measurement Framework and Adversarial

    Mitigation of BERT Rankers (SIGIR 2021) 2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021) 論⽂紹介する⼈ 筑波⼤学加藤研究室 D2 中野優 https://sites.google.com/view/yu-nakano 図表は基本的に論⽂より引⽤
  2. Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation

    of BERT Rankers (SIGIR 2021) 検索結果のバイアスを評価するための新たなデータセットと 評価指標を提案しバイアスを軽減する新たな⼿法を提案した論⽂ Authors: Navid Rekabsaz1, Simone Kopeinik2, Markus Schedl1 1. Johannes Kepler University Linz, 2. Know-Center GmbH
  3. 検索結果がバイアスを含むと偏⾒やステレオタイプを助⻑しうる →バイアスを測定する⽅法とバイアスを軽減する⽅法が必要 背景: 検索結果のバイアス 1 位の⽂書: バイアスなし 2 位の⽂書: バイアスあり

    3 位の⽂書: バイアスなし Governor は本来は特定の性別を ⽰唆するものではないが男性の 代名詞の he/his が使われている クエリ: 知事の重要性とは? 注意点: 本発表では 「バイアスを軽減する」と 「公平性を⾼める」を 同じ意味で⽤いています
  4. この論⽂のやったこと 4 2. 指標 1. データセット バイアスを軽減しつつ クエリに適合する⽂書を 学習する AdvBERT

    を提案 4. 実験 ⽂書検索結果 (ランキング) と ⽂書集合の公平性を 測る指標 NFaiRRを提案 既存データセットから検索結果に gender bias を含みうるクエリを 収集したデータセットを作成 3. ⼿法 提案⼿法がバイアスを 軽減できることを実証
  5. • MS MARCO/TREC DL の dev クエリからデータセットを作成 ◦ クエリ選択基準: Non-gendered

    かつ Socially Problematic なクエリ • アノテーション⼿順 1. Amazon Mechanical Turk (AMT) で Non-gendered かをアノテーション 2. 2 ⼈のポスドク研究者が AMT の 結果を確認し Socially Problematic かをアノテーション データセット: gender bias に着⽬してデータセットを作成 5 クエリ数 MSMARCOFAIR 215 TRECDL19FAIR 30 図: クエリ例 gender を⽰す語が含まれないクエリ gender を⽰す語の例: king/queen, pregnant, Nelson Mandela (⼈名) Career などの gender inequality が 存在するとされているドメインのクエリ 表: クエリ数 ドメイン⼀覧: Career, Education, Politics, Health, Social Inequality, Violence and Exploitation
  6. • ⽂書の中⽴度を定義しそれを元にランキングの指標を提案 ◦ ⽂書 𝑑 の中⽴度 𝜔 𝑑 : 各属性を⽰唆する語の出現回数

    mag!(𝑑) を 全属性で正規化した値(割合)がどの程度偏っているか ◦ 本研究で扱う属性: {m (male), f (female)} (2 種類) 検索結果の公平性を測定する指標: NFaiRR (1/3) 6 mag!(𝑑): 属性 𝑎 を⽰唆する語が ⽂書 𝑑 に何回出現するか ⽂書 𝑑 における 単語 𝑤 の出現頻度 𝕍" he, him, boy, father, sir, guy, John, Leo, Noel, … 𝕍# she, her, girl, mother, madam, gal Mary, Jean, Eve, … 属性ごとに決められた 属性を⽰唆する語の集合 (既存研究を参考に決定)
  7. • ⽂書の中⽴度を定義しそれを元にランキングの指標を提案 ◦ ⽂書 𝑑 の中⽴度 𝜔 𝑑 : 各属性で決められた語の出現回数

    mag!(𝑑) を全属性で正規化した値(割合)がどの程度偏っているか 検索結果の公平性を測定する指標: NFaiRR (2/3) 7 ⽂書 𝑑 の中⽴度 𝜔 𝑑 : 正規化した mag!(d) が 理想の割合から 偏っていないか 𝐽! : 属性 𝑎 理想的な割合 (本研究では 𝐽! = 𝐽" = 0.5) 全属性で正規化された mag!(𝑑) の割合 mag!(𝑑) の和が⼩さい場合は バイアスが⼩さいとし中⽴度は 1 偏りが⼩さい (mag! 𝑑 = 4, mag"(𝑑) = 6) 場合 𝜔 𝑑 = 1 − 0.4 − 0.5 − 0.6 − 0.5 = 0.8 → 中⽴度は 1 に近づく 偏りが⼤きい (mag! 𝑑 = 1, mag"(𝑑) = 9) 場合 𝜔 𝑑 = 1 − 0.1 − 0.5 − 0.9 − 0.5 = 0.2 → 中⽴度は 0 に近づく 計算例
  8. • Normalized Fairness of Retrieval Results (NFaiRR) ◦ Fairness of

    Retrieval Results (FaiRR): ⽂書の中⽴度をもとにした 公平性のランキング指標 • NFaiRR は FaiRR を正規化したもの ◦ nDCG の利得を⽂書の中⽴度に置き換えたものとみなせる 検索結果の公平性を測定する指標: NFaiRR (3/3) 8 𝑖 位の⽂書 𝑑# の中⽴度 Ideal FaiRR (IFaiRR) ランキング R の最⼤の FaiRR ランキング
  9. • ⽂書集合 𝑆 に対する NFaiRR も定義 ◦ 嬉しい点: コレクションに対しても公平性が定量化できる •

    注: 前ページの FaiRR(𝑅) の 𝑅 はランキング (=順序のあるリスト) ◦ 考え⽅: 集合 𝑆 の⽂書から作ることができる任意のランキングに 対する FaiRR の期待値を集合 𝑆 の FaiRR とする NFaiRR の⽂書集合への拡張 9 ⽂書集合 𝑆 における ⽂書の中⽴度の平均 →集合に対する FaiRR は 平均の中⽴度で決める 上記の式は SetFaiRR を定義どおりに⾃分で計算してみた式ですが論⽂とは違う式になっていまいました… もしこれから読んでみようと思う⽅は計算してみて Slack などで結果を教えていただけると嬉しいです 𝑆 の任意のランキングの集合
  10. 敵対的学習を⾏うことで適合度予測に役に⽴つ表現を学習しつつ 中⽴度予測には役に⽴たない表現を学習する ⼿法: AdvBERT 10 • 適合度を精度よく予測するように学習しつつバイアスを 学習しないようにしたい ◦ アイデア:

    適合度を予測できるように学習しつつ,バイアスと関連が 強い⽂書の中⽴度を予測できなくなるように学習する (敵対的学習) 適合度の予測 →⾼い精度(⼩さい損失)に なるように学習したい (BERT を⽤いた ⽂書検索と同じ設定) ⽂書の中⽴度の予測 →低い精度(⼤きい損失)に なるように学習したい 注: このアイデア⾃体は [8] の教師なしドメイン適応で 分類器の性能をあげつつ,どのドメインのデータかを 予測できないようにするというアイデアと似たもの
  11. 実験結果: NFaiRR 11 注: BERTL2/L4 の網掛け部分が 元の BERT と⽐較した際の AdvBERT

    (提案⼿法) による スコアの伸びを表している 提案⼿法によって公平性指標 NFairRR が 向上している (特に MS MARCO) TREC DL は Rerank 以前で⼗分に 公平な結果が得られている 縦軸: 公平性指標 (⾼いほうが良い)
  12. 実験結果: Fairness-Utility Tradeoff 12 BM25 よりは⾼いもののBERT からは ⼤きく性能が下がってしまっている 性能と NFaiRR

    のバランスを取るようにを モデル選択を⾏った結果 NFaiRR が⾼いモデルを選択した結果 nDCG と NFaiRR で F値を計算する BERT と同程度の性能を保ちつつ NFaiRR が⾼くなっている
  13. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021)

    ニュースドメイン固有のバイアスを要約の事前学習に活⽤し Zero-shot 要約で⾼い要約性能を⽰した論⽂ Authors: Chenguang Zhu1, Ziyi Yang2, Robert Gmyr1, Michael Zeng1, Xuedong Huang1 1. Microsoft, 2. Stanford University
  14. • ニュースでは最も重要な事項が先頭に記述される (Lead Bias) • ⼀⽅ニュース要約はニュースの重要な事項をまとめるタスク ◦ → アイデア: Lead

    Bias が活⽤できるかも? ◦ 実際,⼈⼿で作った要約とニュースの先頭部分は重複割合が⾼い 背景: ニュースの Lead Bias 14 ニュース要約データセットにおいて正解となる要約と丸で囲ったニュースの 先頭部分の単語の重複割合は先頭以外の部分よりも相対的に⼤きい
  15. • 事前学習タスク: ニュースの 4 ⽂⽬以降から先頭 3 ⽂を⽣成 ◦ つまり先頭 3

    ⽂を 4 ⽂⽬以降の要約とみなす • データセット: Bing 検索のニュース記事 3 年分を利⽤ ◦ 先頭 3 ⽂と 4 ⽂⽬以降の単語の重複割合を 計算し重複割合が⾼いニュースのみを使⽤ • Lead Bias は存在するものの必ずしも先頭 3 ⽂が 4 ⽂⽬以降の要約になっているとは限らないため ◦ 重複割合の閾値は既存データを元に決定 ◦ 2140 万の記事を事前学習に利⽤ • モデル: BART/T5 を⽤いる ◦ 事前学習済みのモデルを初期値として さらに事前学習させる ⼿法: Lead Bias を利⽤して要約向きのニューラル⾔語モデルを事前学習 15 CNN/DM データセットでの 単語の重複割合の分布 要約と記事全体の重複割合 要約と 4 ⽂⽬以降の重複割合 先頭 3 ⽂と 4 ⽂⽬以降の重複割合
  16. • 問題設定: Zero-shot ニュース要約タスク ◦ 事前学習したモデルを Fine-tuning せずに要約させる ◦ 注:

    教師なしニュース要約とは異なる • 教師なしの場合はラベルデータ (正解の要約データ) は使わないが ラベルなしデータ (ニュース本⽂) は使う • データセット: 6 つの ニュース要約データセット • 指標: ROUGE-1/2/L 実験設定: 問題設定・データセット・指標 16
  17. • 提案⼿法は他の Zero-shot ⼿法を⼤きく上回る性能 ◦ 教師なし⼿法も上回るか同程度の性能 実験結果 17 提案⼿法 Zero-shot

    ⼿法 教師なし 教師あり 先頭 3 ⽂ そのまま
  18. 分析: 提案⼿法は単に先頭の⽂をコピーしているわけではない 18 先頭 3 ⽂とで n-gram が 重複しない割合 1-gram

    でも 5 割以上は 重複しておらず提案⼿法は 単に先頭の⽂のコピーを しているわけではなさそう ROUGE でも 5 つのデータセットで 先頭 3 ⽂と⽐較して改善している
  19. • SIGIR 2021 のバイアスに関する研究を 2 本紹介した 1. Societal Biases in

    Retrieved Contents: Measurement Framework and Adversarial Mitigation of BERT Rankers • 検索結果のバイアスを評価するための新たなデータセットと指標を提案し, バイアスを除去する⽅法を提案した論⽂ • 感想: データセット作成の難しい部分をきちんとやって公開したのは素晴ら しい 2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization • ニュースドメイン固有のバイアスを要約の事前学習に活⽤し Zero-shot 要約で⾼い要約性能を⽰した論⽂ • 感想: ドメイン固有の性質から単純なアイデアで良い性能を出していて ⾯⽩い まとめ 19
  20. Appendix

  21. クエリのカテゴリ • 公開されているデータセットを集計 MSMARCO TRECDL Career 64 11 Education 34

    15 Politics 22 2 Health 49 9 Social Inequality 77 4 Violence and Exploitation 13 0 なし 3 0 クエリのカテゴリ (1 クエリに複数カテゴリが 付与されている場合も)