論文紹介: 1. Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation of BERT Rankers (SIGIR 2021) 2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021) / IR-Reading-2021-fall

1. Societal Biases in Retrieved Contents: Measurement Framework and Adversarial
Mitigation of BERT Rankers (SIGIR 2021) 2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021) 論⽂紹介する⼈筑波⼤学加藤研究室 D2 中野優 https://sites.google.com/view/yu-nakano 図表は基本的に論⽂より引⽤

Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation
of BERT Rankers (SIGIR 2021) 検索結果のバイアスを評価するための新たなデータセットと評価指標を提案しバイアスを軽減する新たな⼿法を提案した論⽂ Authors: Navid Rekabsaz1, Simone Kopeinik2, Markus Schedl1 1. Johannes Kepler University Linz, 2. Know-Center GmbH

検索結果がバイアスを含むと偏⾒やステレオタイプを助⻑しうる →バイアスを測定する⽅法とバイアスを軽減する⽅法が必要背景: 検索結果のバイアス 1 位の⽂書: バイアスなし 2 位の⽂書: バイアスあり
3 位の⽂書: バイアスなし Governor は本来は特定の性別を⽰唆するものではないが男性の代名詞の he/his が使われているクエリ: 知事の重要性とは？注意点: 本発表では「バイアスを軽減する」と「公平性を⾼める」を同じ意味で⽤いています

この論⽂のやったこと 4 2. 指標 1. データセットバイアスを軽減しつつクエリに適合する⽂書を学習する AdvBERT
を提案 4. 実験⽂書検索結果 (ランキング) と⽂書集合の公平性を測る指標 NFaiRRを提案既存データセットから検索結果に gender bias を含みうるクエリを収集したデータセットを作成 3. ⼿法提案⼿法がバイアスを軽減できることを実証

• MS MARCO/TREC DL の dev クエリからデータセットを作成 ◦ クエリ選択基準: Non-gendered
かつ Socially Problematic なクエリ • アノテーション⼿順 1. Amazon Mechanical Turk (AMT) で Non-gendered かをアノテーション 2. 2 ⼈のポスドク研究者が AMT の結果を確認し Socially Problematic かをアノテーションデータセット: gender bias に着⽬してデータセットを作成 5 クエリ数 MSMARCOFAIR 215 TRECDL19FAIR 30 図: クエリ例 gender を⽰す語が含まれないクエリ gender を⽰す語の例: king/queen, pregnant, Nelson Mandela (⼈名) Career などの gender inequality が存在するとされているドメインのクエリ表: クエリ数ドメイン⼀覧: Career, Education, Politics, Health, Social Inequality, Violence and Exploitation

• ⽂書の中⽴度を定義しそれを元にランキングの指標を提案 ◦ ⽂書 𝑑 の中⽴度 𝜔 𝑑 : 各属性を⽰唆する語の出現回数
mag!(𝑑) を全属性で正規化した値(割合)がどの程度偏っているか ◦ 本研究で扱う属性: {m (male), f (female)} (2 種類) 検索結果の公平性を測定する指標: NFaiRR (1/3) 6 mag!(𝑑): 属性 𝑎 を⽰唆する語が⽂書 𝑑 に何回出現するか⽂書 𝑑 における単語 𝑤 の出現頻度 𝕍" he, him, boy, father, sir, guy, John, Leo, Noel, … 𝕍# she, her, girl, mother, madam, gal Mary, Jean, Eve, … 属性ごとに決められた属性を⽰唆する語の集合 (既存研究を参考に決定)

• ⽂書の中⽴度を定義しそれを元にランキングの指標を提案 ◦ ⽂書 𝑑 の中⽴度 𝜔 𝑑 : 各属性で決められた語の出現回数
mag!(𝑑) を全属性で正規化した値(割合)がどの程度偏っているか検索結果の公平性を測定する指標: NFaiRR (2/3) 7 ⽂書 𝑑 の中⽴度 𝜔 𝑑 : 正規化した mag!(d) が理想の割合から偏っていないか 𝐽! : 属性 𝑎 理想的な割合 (本研究では 𝐽! = 𝐽" = 0.5) 全属性で正規化された mag!(𝑑) の割合 mag!(𝑑) の和が⼩さい場合はバイアスが⼩さいとし中⽴度は 1 偏りが⼩さい (mag! 𝑑 = 4, mag"(𝑑) = 6) 場合 𝜔 𝑑 = 1 − 0.4 − 0.5 − 0.6 − 0.5 = 0.8 → 中⽴度は 1 に近づく偏りが⼤きい (mag! 𝑑 = 1, mag"(𝑑) = 9) 場合 𝜔 𝑑 = 1 − 0.1 − 0.5 − 0.9 − 0.5 = 0.2 → 中⽴度は 0 に近づく計算例

• Normalized Fairness of Retrieval Results (NFaiRR) ◦ Fairness of
Retrieval Results (FaiRR): ⽂書の中⽴度をもとにした公平性のランキング指標 • NFaiRR は FaiRR を正規化したもの ◦ nDCG の利得を⽂書の中⽴度に置き換えたものとみなせる検索結果の公平性を測定する指標: NFaiRR (3/3) 8 𝑖 位の⽂書 𝑑# の中⽴度 Ideal FaiRR (IFaiRR) ランキング R の最⼤の FaiRR ランキング

• ⽂書集合 𝑆 に対する NFaiRR も定義 ◦ 嬉しい点: コレクションに対しても公平性が定量化できる •
注: 前ページの FaiRR(𝑅) の 𝑅 はランキング (=順序のあるリスト) ◦ 考え⽅: 集合 𝑆 の⽂書から作ることができる任意のランキングに対する FaiRR の期待値を集合 𝑆 の FaiRR とする NFaiRR の⽂書集合への拡張 9 ⽂書集合 𝑆 における⽂書の中⽴度の平均 →集合に対する FaiRR は平均の中⽴度で決める上記の式は SetFaiRR を定義どおりに⾃分で計算してみた式ですが論⽂とは違う式になっていまいました… もしこれから読んでみようと思う⽅は計算してみて Slack などで結果を教えていただけると嬉しいです 𝑆 の任意のランキングの集合

敵対的学習を⾏うことで適合度予測に役に⽴つ表現を学習しつつ中⽴度予測には役に⽴たない表現を学習する⼿法: AdvBERT 10 • 適合度を精度よく予測するように学習しつつバイアスを学習しないようにしたい ◦ アイデア:
適合度を予測できるように学習しつつ，バイアスと関連が強い⽂書の中⽴度を予測できなくなるように学習する (敵対的学習) 適合度の予測 →⾼い精度(⼩さい損失)になるように学習したい (BERT を⽤いた⽂書検索と同じ設定) ⽂書の中⽴度の予測 →低い精度(⼤きい損失)になるように学習したい注: このアイデア⾃体は [8] の教師なしドメイン適応で分類器の性能をあげつつ，どのドメインのデータかを予測できないようにするというアイデアと似たもの

実験結果: NFaiRR 11 注: BERTL2/L4 の網掛け部分が元の BERT と⽐較した際の AdvBERT
(提案⼿法) によるスコアの伸びを表している提案⼿法によって公平性指標 NFairRR が向上している (特に MS MARCO) TREC DL は Rerank 以前で⼗分に公平な結果が得られている縦軸: 公平性指標 (⾼いほうが良い)

実験結果: Fairness-Utility Tradeoff 12 BM25 よりは⾼いもののBERT からは⼤きく性能が下がってしまっている性能と NFaiRR
のバランスを取るようにをモデル選択を⾏った結果 NFaiRR が⾼いモデルを選択した結果 nDCG と NFaiRR で F値を計算する BERT と同程度の性能を保ちつつ NFaiRR が⾼くなっている

Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021)
ニュースドメイン固有のバイアスを要約の事前学習に活⽤し Zero-shot 要約で⾼い要約性能を⽰した論⽂ Authors: Chenguang Zhu1, Ziyi Yang2, Robert Gmyr1, Michael Zeng1, Xuedong Huang1 1. Microsoft, 2. Stanford University

• ニュースでは最も重要な事項が先頭に記述される (Lead Bias) • ⼀⽅ニュース要約はニュースの重要な事項をまとめるタスク ◦ → アイデア: Lead
Bias が活⽤できるかも？ ◦ 実際，⼈⼿で作った要約とニュースの先頭部分は重複割合が⾼い背景: ニュースの Lead Bias 14 ニュース要約データセットにおいて正解となる要約と丸で囲ったニュースの先頭部分の単語の重複割合は先頭以外の部分よりも相対的に⼤きい

• 事前学習タスク: ニュースの 4 ⽂⽬以降から先頭 3 ⽂を⽣成 ◦ つまり先頭 3
⽂を 4 ⽂⽬以降の要約とみなす • データセット: Bing 検索のニュース記事 3 年分を利⽤ ◦ 先頭 3 ⽂と 4 ⽂⽬以降の単語の重複割合を計算し重複割合が⾼いニュースのみを使⽤ • Lead Bias は存在するものの必ずしも先頭 3 ⽂が 4 ⽂⽬以降の要約になっているとは限らないため ◦ 重複割合の閾値は既存データを元に決定 ◦ 2140 万の記事を事前学習に利⽤ • モデル: BART/T5 を⽤いる ◦ 事前学習済みのモデルを初期値としてさらに事前学習させる⼿法: Lead Bias を利⽤して要約向きのニューラル⾔語モデルを事前学習 15 CNN/DM データセットでの単語の重複割合の分布要約と記事全体の重複割合要約と 4 ⽂⽬以降の重複割合先頭 3 ⽂と 4 ⽂⽬以降の重複割合

• 問題設定: Zero-shot ニュース要約タスク ◦ 事前学習したモデルを Fine-tuning せずに要約させる ◦ 注:
教師なしニュース要約とは異なる • 教師なしの場合はラベルデータ (正解の要約データ) は使わないがラベルなしデータ (ニュース本⽂) は使う • データセット: 6 つのニュース要約データセット • 指標: ROUGE-1/2/L 実験設定: 問題設定・データセット・指標 16

• 提案⼿法は他の Zero-shot ⼿法を⼤きく上回る性能 ◦ 教師なし⼿法も上回るか同程度の性能実験結果 17 提案⼿法 Zero-shot
⼿法教師なし教師あり先頭 3 ⽂そのまま

分析: 提案⼿法は単に先頭の⽂をコピーしているわけではない 18 先頭 3 ⽂とで n-gram が重複しない割合 1-gram
でも 5 割以上は重複しておらず提案⼿法は単に先頭の⽂のコピーをしているわけではなさそう ROUGE でも 5 つのデータセットで先頭 3 ⽂と⽐較して改善している

• SIGIR 2021 のバイアスに関する研究を 2 本紹介した 1. Societal Biases in
Retrieved Contents: Measurement Framework and Adversarial Mitigation of BERT Rankers • 検索結果のバイアスを評価するための新たなデータセットと指標を提案し，バイアスを除去する⽅法を提案した論⽂ • 感想: データセット作成の難しい部分をきちんとやって公開したのは素晴らしい 2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization • ニュースドメイン固有のバイアスを要約の事前学習に活⽤し Zero-shot 要約で⾼い要約性能を⽰した論⽂ • 感想: ドメイン固有の性質から単純なアイデアで良い性能を出していて⾯⽩いまとめ 19

Appendix

クエリのカテゴリ • 公開されているデータセットを集計 MSMARCO TRECDL Career 64 11 Education 34
15 Politics 22 2 Health 49 9 Social Inequality 77 4 Violence and Exploitation 13 0 なし 3 0 クエリのカテゴリ (1 クエリに複数カテゴリが付与されている場合も)

論文紹介: 1. Societal Biases in Retrieved Contents:...

論文紹介: 1. Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation of BERT Rankers (SIGIR 2021) 2. Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021) / IR-Reading-2021-fall

Yu Nakano / 中野優

More Decks by Yu Nakano / 中野優

Other Decks in Research

Featured

Transcript

1. Societal Biases in Retrieved Contents: Measurement Framework and Adversarial

Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation

検索結果がバイアスを含むと偏⾒やステレオタイプを助⻑しうる →バイアスを測定する⽅法とバイアスを軽減する⽅法が必要背景: 検索結果のバイアス 1 位の⽂書: バイアスなし 2 位の⽂書: バイアスあり

この論⽂のやったこと 4 2. 指標 1. データセットバイアスを軽減しつつクエリに適合する⽂書を学習する AdvBERT

• MS MARCO/TREC DL の dev クエリからデータセットを作成 ◦ クエリ選択基準: Non-gendered

• ⽂書の中⽴度を定義しそれを元にランキングの指標を提案 ◦ ⽂書 𝑑 の中⽴度 𝜔 𝑑 : 各属性を⽰唆する語の出現回数

• ⽂書の中⽴度を定義しそれを元にランキングの指標を提案 ◦ ⽂書 𝑑 の中⽴度 𝜔 𝑑 : 各属性で決められた語の出現回数

• Normalized Fairness of Retrieval Results (NFaiRR) ◦ Fairness of

• ⽂書集合 𝑆 に対する NFaiRR も定義 ◦ 嬉しい点: コレクションに対しても公平性が定量化できる •

敵対的学習を⾏うことで適合度予測に役に⽴つ表現を学習しつつ中⽴度予測には役に⽴たない表現を学習する⼿法: AdvBERT 10 • 適合度を精度よく予測するように学習しつつバイアスを学習しないようにしたい ◦ アイデア:

実験結果: NFaiRR 11 注: BERTL2/L4 の網掛け部分が元の BERT と⽐較した際の AdvBERT

実験結果: Fairness-Utility Tradeoff 12 BM25 よりは⾼いもののBERT からは⼤きく性能が下がってしまっている性能と NFaiRR

Leveraging Lead Bias for Zero-shot Abstractive News Summarization (SIGIR 2021)

• ニュースでは最も重要な事項が先頭に記述される (Lead Bias) • ⼀⽅ニュース要約はニュースの重要な事項をまとめるタスク ◦ → アイデア: Lead

• 事前学習タスク: ニュースの 4 ⽂⽬以降から先頭 3 ⽂を⽣成 ◦ つまり先頭 3

• 問題設定: Zero-shot ニュース要約タスク ◦ 事前学習したモデルを Fine-tuning せずに要約させる ◦ 注:

• 提案⼿法は他の Zero-shot ⼿法を⼤きく上回る性能 ◦ 教師なし⼿法も上回るか同程度の性能実験結果 17 提案⼿法 Zero-shot

分析: 提案⼿法は単に先頭の⽂をコピーしているわけではない 18 先頭 3 ⽂とで n-gram が重複しない割合 1-gram

• SIGIR 2021 のバイアスに関する研究を 2 本紹介した 1. Societal Biases in

Appendix

クエリのカテゴリ • 公開されているデータセットを集計 MSMARCO TRECDL Career 64 11 Education 34