【論文紹介】Evaluating the Evaluation of Diversity in Natural Language Generation

Soichiro MURAKAMI Evaluating the Evaluation of Diversity in Natural Language
Generation 論文紹介

2 紹介する論文 • TL;DR ◦ テキストの多様性の評価指標を評価した論文（メタ評価） • 選定理由 ◦
広告文の多様性をどのように評価すべきか参考にするため EMNLP2020 workshop （non-archival paper）→ EACL2021 発表動画

3 Summary • 課題 ◦ 多様性を測るための標準的な評価指標が無い • 方法 ◦ 多様性の評価指標を評価（メタ評価）するためのフレームワークを提案する
◦ 評価指標： n-gramベース手法、Neuralベース手法、人手評価 ◦ 多様性の観点：Form diversity（表層多様性）、Content diversity（内容多様性） • 考察 ◦ n-gramベース手法は内容多様性を見分けることができない（人間はできる） ◦ デコーディングパラメータ（ temperature等）は内容ではなく表層に影響を与える

4 Meta Evaluation Model Evaluation Meta Evaluation Text Generation Diversity
Metrics This work → 既存の評価指標は多様性を評価できているのか

5 Text Generation Text Generation Model Context Response “Very good!”
“Fine, thank you” “Not bad” “How are you today?”

6 Diversity Metrics • N-gram based ◦ distinct n-grams ◦
n-grams cosine similarity • Neural based ◦ BERT-STS ◦ BERT Score ◦ Sentence BERT • Human Judgement ◦ 5 point scale distinct n-grams BERT-STS How are you? What’s up? [1-5] 5-point scale

7 Can humans reliably estimate diversity? Quality Diversity Metric (e.g.,
BLEU) Human judgement Metric (e.g, distinct-n) Correlation analysis • 一般的には、評価指標と人手評価スコアの相関分析が実施される • しかし、人手評価で多様性を評価できるのか自明ではない

8 Can humans reliably estimate diversity? Quality Diversity Metric (e.g,
distinct-n) Diversity parameter Correlation analysis • 一般的には、評価指標と人手評価スコアの相関分析が実施される • しかし、人手評価で多様性を評価できるのか自明ではない Proposal Metric (e.g., BLEU) Human judgement

9 Diversity Metrics Evaluation Framework

10 Diversity Metrics Evaluation Framework 出力文の多様性を制御するパラメータ Softmax温度パラメータ等 [Jang+2017] 0:
low content diversity 1: high content diversity Binary parameter

low content diversity 1: high content diversity Binary parameter Context（入力発話）

low content diversity 1: high content diversity Binary parameter Context（入力発話） Model／Human

low content diversity 1: high content diversity Binary parameter Context（入力発話） Model／Human Generated texts

low content diversity 1: high content diversity Binary parameter Context（入力発話） Model／Human Generated texts n-gram based, neural based, Human judgement

low content diversity 1: high content diversity Binary parameter Context（入力発話） Model／Human Generated texts n-gram based, neural based, Human judgement Correlation analysis

16 Aspect of diversity Tester Diversity parameter Metrics Decoding Test
Form diversity （How to say） Model • Softmax temperature (τ) • Nucleus sampling (p) • Top-k sampling (k) • N-gram based • Neural based • Human judgement Content Test Content diversity （What to say） Human • Binary parameters {0, 1} → low and high content diversity Overview of the Two Tests

17 Overview of the Two Tests Correlation analysis 生成テキスト評価指標
Aspect of diversity Tester Diversity parameter Metrics Decoding Test Form diversity （How to say） Model • Softmax temperature (τ) • Nucleus sampling (p) • Top-k sampling (k) • N-gram based • Neural based • Human judgement Content Test Content diversity （What to say） Human • Binary parameters {0, 1} → low and high content diversity

18 Human Diversity Score（HDS） • absHDS：文集合に対して、5段階の絶対スコアを付与 • aspHDS：absHDSを内容・表層多様性の観点ベースに拡張 • rnkHDS
：文集合に対して、相対スコアを付与（ランク付け） • simHDS：文ペアに対して、類似度スコアを付与

19 Human Diversity Score（HDS） • absHDS：文集合に対して、5段階の絶対スコアを付与 • aspHDS：absHDSを内容・表層多様性の観点ベースに拡張 • rnkHDS
：文集合に対して、相対スコアを付与（ランク付け） • simHDS：文ペアに対して、類似度スコアを付与 • 文ペアよりも、文集合で評価したほうが相関が高い • 絶対的な評価が良いか、相対的な評価が良いかは結論出ず • 人間は異なる多様性の観点（内容 , 表層）を評価できる本研究で分かったこと多様性の人手評価のTipsが気になる方はぜひ論文で！

20 absHDSの具体例

21 Decoding Test Softmax温度パラメータ GPT-2 • Softmax温度パラメータと多様性評価指標の相関分析

22 Result -Decoding test- • 人手評価スコア（absHDS）およびニューラル手法はn-gram手法よりlinear • n-gramベース評価指標（Cos-sim）は温度パラメータの感度が高い Pearson: 0.6
Pearson: 0.75 Pearson: 0.77 ※各点は生成文集合を表す

23 Content Test • Workerが作成した2種類の文集合と多様性評価指標の相関分析 Crowdsourcing Worker Binary parameter (high
or low diversity) High content diversity Low content diversity

24 Result -Content Test- • HDS（人手評価スコア）では内容多様性が高い／低いを区別できている • n-gramベース評価指標（distinct-n)は両文集合ともスコアが高くなる

25 Content Diversity Benchmark • Metrics for content Diversity（McDiv）をリリース [Github]
◦ 6000件の{Context, 文集合}のペアからなるデータセット ▪ 各2000件（storyGen, respGen, promptGen) ▪ Form diversityが中立化されたchallengingセット（3000件）も含む -> McDiv_{nuggets} McDiv_{nuggets}, 200 sets McDiv（通常版), 6K sets

26 HDS Stability: Picking Parameter Values • 人手評価スコアを収集する際の各種パラメータの決め方について ◦ #ratings
per set：各文集合に対して何人に評価スコアをつけてもらうか ◦ #sets：各モデルについてどのくらいの生成文集合を評価するか • 各set10人 • 全200 sets

27 Aspect of Diversity • 本論文で扱った多様性の観点は次の２つ： ◦ 内容多様性（content diversity）
→ “What to say?” ◦ 表層多様性（form diversity）→ “How to say it?” • 筆者らの観察によると，多様性の観点はツリー構造になっている ◦ 内容多様性 ▪ sentiment → positive / negative ▪ relevance → relevant / not relevant ◦ 表層多様性 ▪ syntactic diversity（構文的多様性）→ “Someone took it from me.” vs. “It was taken from me.” ▪ lexical diversity（語彙的多様性）→ “I feel fine.” vs. “I feel very well.” • さらに文体（丁寧語か／カジュアルか）の観点も考えられる

28 Summary（再掲） • 課題 ◦ 多様性を測るための標準的な評価指標が無い • 方法 ◦ 多様性の評価指標を評価（メタ評価）するためのフレームワークを提案する
◦ 評価指標： n-gramベース手法、Neuralベース手法、人手評価 ◦ 多様性の観点：Form diversity（表層多様性）、Content diversity（内容多様性） • 考察 ◦ n-gramベース手法は内容多様性を見分けることができない（人間はできる） ◦ デコーディングパラメータ（ temperature等）は内容ではなく表層に影響を与える

29 Appendix

30 Result - different decoding parameters -

【論文紹介】Evaluating the Evaluation of Diversity in...

【論文紹介】Evaluating the Evaluation of Diversity in Natural Language Generation

Soichiro Murakami

More Decks by Soichiro Murakami

Other Decks in Research

Featured

Transcript

Soichiro MURAKAMI Evaluating the Evaluation of Diversity in Natural Language

2 紹介する論文 • TL;DR ◦ テキストの多様性の評価指標を評価した論文（メタ評価） • 選定理由 ◦

3 Summary • 課題 ◦ 多様性を測るための標準的な評価指標が無い • 方法 ◦ 多様性の評価指標を評価（メタ評価）するためのフレームワークを提案する

4 Meta Evaluation Model Evaluation Meta Evaluation Text Generation Diversity

5 Text Generation Text Generation Model Context Response “Very good!”

6 Diversity Metrics • N-gram based ◦ distinct n-grams ◦

7 Can humans reliably estimate diversity? Quality Diversity Metric (e.g.,

8 Can humans reliably estimate diversity? Quality Diversity Metric (e.g,

9 Diversity Metrics Evaluation Framework

10 Diversity Metrics Evaluation Framework 出力文の多様性を制御するパラメータ Softmax温度パラメータ等 [Jang+2017] 0:

11 Diversity Metrics Evaluation Framework 出力文の多様性を制御するパラメータ Softmax温度パラメータ等 [Jang+2017] 0:

12 Diversity Metrics Evaluation Framework 出力文の多様性を制御するパラメータ Softmax温度パラメータ等 [Jang+2017] 0:

13 Diversity Metrics Evaluation Framework 出力文の多様性を制御するパラメータ Softmax温度パラメータ等 [Jang+2017] 0:

14 Diversity Metrics Evaluation Framework 出力文の多様性を制御するパラメータ Softmax温度パラメータ等 [Jang+2017] 0:

15 Diversity Metrics Evaluation Framework 出力文の多様性を制御するパラメータ Softmax温度パラメータ等 [Jang+2017] 0:

16 Aspect of diversity Tester Diversity parameter Metrics Decoding Test

17 Overview of the Two Tests Correlation analysis 生成テキスト評価指標

18 Human Diversity Score（HDS） • absHDS：文集合に対して、5段階の絶対スコアを付与 • aspHDS：absHDSを内容・表層多様性の観点ベースに拡張 • rnkHDS

19 Human Diversity Score（HDS） • absHDS：文集合に対して、5段階の絶対スコアを付与 • aspHDS：absHDSを内容・表層多様性の観点ベースに拡張 • rnkHDS

20 absHDSの具体例

21 Decoding Test Softmax温度パラメータ GPT-2 • Softmax温度パラメータと多様性評価指標の相関分析

22 Result -Decoding test- • 人手評価スコア（absHDS）およびニューラル手法はn-gram手法よりlinear • n-gramベース評価指標（Cos-sim）は温度パラメータの感度が高い Pearson: 0.6

23 Content Test • Workerが作成した2種類の文集合と多様性評価指標の相関分析 Crowdsourcing Worker Binary parameter (high

24 Result -Content Test- • HDS（人手評価スコア）では内容多様性が高い／低いを区別できている • n-gramベース評価指標（distinct-n)は両文集合ともスコアが高くなる

25 Content Diversity Benchmark • Metrics for content Diversity（McDiv）をリリース [Github]

26 HDS Stability: Picking Parameter Values • 人手評価スコアを収集する際の各種パラメータの決め方について ◦ #ratings

27 Aspect of Diversity • 本論文で扱った多様性の観点は次の２つ： ◦ 内容多様性（content diversity）

28 Summary（再掲） • 課題 ◦ 多様性を測るための標準的な評価指標が無い • 方法 ◦ 多様性の評価指標を評価（メタ評価）するためのフレームワークを提案する

29 Appendix

30 Result - different decoding parameters -