Slide 1

Slide 1 text

Soichiro MURAKAMI Evaluating the Evaluation of Diversity in Natural Language Generation 論文紹介

Slide 2

Slide 2 text

2 紹介する論文 ● TL;DR ○ テキストの多様性の評価指標を評価 した論文(メタ評価) ● 選定理由 ○ 広告文の多様性をどのように評価すべきか参考にするため EMNLP2020 workshop (non-archival paper)→ EACL2021 発表動画

Slide 3

Slide 3 text

3 Summary ● 課題 ○ 多様性を測るための標準的な評価指標が無い ● 方法 ○ 多様性の評価指標を評価(メタ評価)するためのフレームワークを提案する ○ 評価指標: n-gramベース手法、Neuralベース手法、人手評価 ○ 多様性の観点:Form diversity(表層多様性)、Content diversity(内容多様性) ● 考察 ○ n-gramベース手法は内容多様性を見分けることができない(人間はできる) ○ デコーディングパラメータ( temperature等)は内容ではなく表層に影響を与える

Slide 4

Slide 4 text

4 Meta Evaluation Model Evaluation Meta Evaluation Text Generation Diversity Metrics This work → 既存の評価指標は多様性を 評価できているのか

Slide 5

Slide 5 text

5 Text Generation Text Generation Model Context Response “Very good!” “Fine, thank you” “Not bad” “How are you today?”

Slide 6

Slide 6 text

6 Diversity Metrics ● N-gram based ○ distinct n-grams ○ n-grams cosine similarity ● Neural based ○ BERT-STS ○ BERT Score ○ Sentence BERT ● Human Judgement ○ 5 point scale distinct n-grams BERT-STS How are you? What’s up? [1-5] 5-point scale

Slide 7

Slide 7 text

7 Can humans reliably estimate diversity? Quality Diversity Metric (e.g., BLEU) Human judgement Metric (e.g, distinct-n) Correlation analysis ● 一般的には、評価指標と人手評価スコアの相関分析が実施される ● しかし、人手評価で多様性を評価できるのか自明ではない

Slide 8

Slide 8 text

8 Can humans reliably estimate diversity? Quality Diversity Metric (e.g, distinct-n) Diversity parameter Correlation analysis ● 一般的には、評価指標と人手評価スコアの相関分析が実施される ● しかし、人手評価で多様性を評価できるのか自明ではない Proposal Metric (e.g., BLEU) Human judgement

Slide 9

Slide 9 text

9 Diversity Metrics Evaluation Framework

Slide 10

Slide 10 text

10 Diversity Metrics Evaluation Framework 出力文の多様性を制御す るパラメータ Softmax温度パラメータ等 [Jang+2017] 0: low content diversity 1: high content diversity Binary parameter

Slide 11

Slide 11 text

11 Diversity Metrics Evaluation Framework 出力文の多様性を制御す るパラメータ Softmax温度パラメータ等 [Jang+2017] 0: low content diversity 1: high content diversity Binary parameter Context(入力発話)

Slide 12

Slide 12 text

12 Diversity Metrics Evaluation Framework 出力文の多様性を制御す るパラメータ Softmax温度パラメータ等 [Jang+2017] 0: low content diversity 1: high content diversity Binary parameter Context(入力発話) Model/Human

Slide 13

Slide 13 text

13 Diversity Metrics Evaluation Framework 出力文の多様性を制御す るパラメータ Softmax温度パラメータ等 [Jang+2017] 0: low content diversity 1: high content diversity Binary parameter Context(入力発話) Model/Human Generated texts

Slide 14

Slide 14 text

14 Diversity Metrics Evaluation Framework 出力文の多様性を制御す るパラメータ Softmax温度パラメータ等 [Jang+2017] 0: low content diversity 1: high content diversity Binary parameter Context(入力発話) Model/Human Generated texts n-gram based, neural based, Human judgement

Slide 15

Slide 15 text

15 Diversity Metrics Evaluation Framework 出力文の多様性を制御す るパラメータ Softmax温度パラメータ等 [Jang+2017] 0: low content diversity 1: high content diversity Binary parameter Context(入力発話) Model/Human Generated texts n-gram based, neural based, Human judgement Correlation analysis

Slide 16

Slide 16 text

16 Aspect of diversity Tester Diversity parameter Metrics Decoding Test Form diversity (How to say) Model ● Softmax temperature (τ) ● Nucleus sampling (p) ● Top-k sampling (k) ● N-gram based ● Neural based ● Human judgement Content Test Content diversity (What to say) Human ● Binary parameters {0, 1} → low and high content diversity Overview of the Two Tests

Slide 17

Slide 17 text

17 Overview of the Two Tests Correlation analysis 生成テキスト 評価指標 Aspect of diversity Tester Diversity parameter Metrics Decoding Test Form diversity (How to say) Model ● Softmax temperature (τ) ● Nucleus sampling (p) ● Top-k sampling (k) ● N-gram based ● Neural based ● Human judgement Content Test Content diversity (What to say) Human ● Binary parameters {0, 1} → low and high content diversity

Slide 18

Slide 18 text

18 Human Diversity Score(HDS) ● absHDS:文集合に対して、5段階の絶対スコアを付与 ● aspHDS:absHDSを内容・表層多様性の観点ベースに拡張 ● rnkHDS :文集合に対して、相対スコアを付与(ランク付け) ● simHDS:文ペアに対して、類似度スコアを付与

Slide 19

Slide 19 text

19 Human Diversity Score(HDS) ● absHDS:文集合に対して、5段階の絶対スコアを付与 ● aspHDS:absHDSを内容・表層多様性の観点ベースに拡張 ● rnkHDS :文集合に対して、相対スコアを付与(ランク付け) ● simHDS:文ペアに対して、類似度スコアを付与 ● 文ペアよりも、文集合で評価したほうが相関が高い ● 絶対的な評価が良いか、相対的な評価が良いかは結論出ず ● 人間は異なる多様性の観点(内容 , 表層)を評価できる 本研究で分かったこと 多様性の人手評価のTipsが 気になる方はぜひ論文で!

Slide 20

Slide 20 text

20 absHDSの具体例

Slide 21

Slide 21 text

21 Decoding Test Softmax温度パラメータ GPT-2 ● Softmax温度パラメータと多様性評価指標の相関分析

Slide 22

Slide 22 text

22 Result -Decoding test- ● 人手評価スコア(absHDS)およびニューラル手法はn-gram手法よりlinear ● n-gramベース評価指標(Cos-sim)は温度パラメータの感度が高い Pearson: 0.6 Pearson: 0.75 Pearson: 0.77 ※各点は生成文 集合を表す

Slide 23

Slide 23 text

23 Content Test ● Workerが作成した2種類の文集合と多様性評価指標の相関分析 Crowdsourcing Worker Binary parameter (high or low diversity) High content diversity Low content diversity

Slide 24

Slide 24 text

24 Result -Content Test- ● HDS(人手評価スコア)では内容多様性が高い/低いを区別できている ● n-gramベース評価指標(distinct-n)は両文集合ともスコアが高くなる

Slide 25

Slide 25 text

25 Content Diversity Benchmark ● Metrics for content Diversity(McDiv)をリリース [Github] ○ 6000件の{Context, 文集合}のペアからなるデータセット ■ 各2000件 (storyGen, respGen, promptGen) ■ Form diversityが中立化されたchallengingセット(3000件)も含む -> McDiv_{nuggets} McDiv_{nuggets}, 200 sets McDiv(通常版), 6K sets

Slide 26

Slide 26 text

26 HDS Stability: Picking Parameter Values ● 人手評価スコアを収集する際の各種パラメータの決め方について ○ #ratings per set:各文集合に対して何人に評価スコアをつけてもらうか ○ #sets:各モデルについてどのくらいの生成文集合を評価するか ● 各set10人 ● 全200 sets

Slide 27

Slide 27 text

27 Aspect of Diversity ● 本論文で扱った多様性の観点は次の2つ: ○ 内容多様性 (content diversity) → “What to say?” ○ 表層多様性(form diversity)→ “How to say it?” ● 筆者らの観察によると,多様性の観点はツリー構造になっている ○ 内容多様性 ■ sentiment → positive / negative ■ relevance → relevant / not relevant ○ 表層多様性 ■ syntactic diversity(構文的多様性)→ “Someone took it from me.” vs. “It was taken from me.” ■ lexical diversity(語彙的多様性)→ “I feel fine.” vs. “I feel very well.” ● さらに文体(丁寧語か/カジュアルか)の観点も考えられる

Slide 28

Slide 28 text

28 Summary(再掲) ● 課題 ○ 多様性を測るための標準的な評価指標が無い ● 方法 ○ 多様性の評価指標を評価(メタ評価)するためのフレームワークを提案する ○ 評価指標: n-gramベース手法、Neuralベース手法、人手評価 ○ 多様性の観点:Form diversity(表層多様性)、Content diversity(内容多様性) ● 考察 ○ n-gramベース手法は内容多様性を見分けることができない(人間はできる) ○ デコーディングパラメータ( temperature等)は内容ではなく表層に影響を与える

Slide 29

Slide 29 text

29 Appendix

Slide 30

Slide 30 text

30 Result - different decoding parameters -