Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Evaluating the Evaluation of Diversity in Natural Language Generation

【論文紹介】Evaluating the Evaluation of Diversity in Natural Language Generation

社内論文読み会で使用した資料です。

元論文はこちらです。
https://aclanthology.org/2021.eacl-main.25/

Guy Tevet and Jonathan Berant. 2021. Evaluating the Evaluation of Diversity in Natural Language Generation. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 326–346, Online. Association for Computational Linguistics.

Soichiro Murakami

October 28, 2022
Tweet

More Decks by Soichiro Murakami

Other Decks in Research

Transcript

  1. 2 紹介する論文 • TL;DR ◦ テキストの多様性の評価指標を評価 した論文(メタ評価) • 選定理由 ◦

    広告文の多様性をどのように評価すべきか参考にするため EMNLP2020 workshop (non-archival paper)→ EACL2021 発表動画
  2. 3 Summary • 課題 ◦ 多様性を測るための標準的な評価指標が無い • 方法 ◦ 多様性の評価指標を評価(メタ評価)するためのフレームワークを提案する

    ◦ 評価指標: n-gramベース手法、Neuralベース手法、人手評価 ◦ 多様性の観点:Form diversity(表層多様性)、Content diversity(内容多様性) • 考察 ◦ n-gramベース手法は内容多様性を見分けることができない(人間はできる) ◦ デコーディングパラメータ( temperature等)は内容ではなく表層に影響を与える
  3. 4 Meta Evaluation Model Evaluation Meta Evaluation Text Generation Diversity

    Metrics This work → 既存の評価指標は多様性を 評価できているのか
  4. 5 Text Generation Text Generation Model Context Response “Very good!”

    “Fine, thank you” “Not bad” “How are you today?”
  5. 6 Diversity Metrics • N-gram based ◦ distinct n-grams ◦

    n-grams cosine similarity • Neural based ◦ BERT-STS ◦ BERT Score ◦ Sentence BERT • Human Judgement ◦ 5 point scale distinct n-grams BERT-STS How are you? What’s up? [1-5] 5-point scale
  6. 7 Can humans reliably estimate diversity? Quality Diversity Metric (e.g.,

    BLEU) Human judgement Metric (e.g, distinct-n) Correlation analysis • 一般的には、評価指標と人手評価スコアの相関分析が実施される • しかし、人手評価で多様性を評価できるのか自明ではない
  7. 8 Can humans reliably estimate diversity? Quality Diversity Metric (e.g,

    distinct-n) Diversity parameter Correlation analysis • 一般的には、評価指標と人手評価スコアの相関分析が実施される • しかし、人手評価で多様性を評価できるのか自明ではない Proposal Metric (e.g., BLEU) Human judgement
  8. 12 Diversity Metrics Evaluation Framework 出力文の多様性を制御す るパラメータ Softmax温度パラメータ等 [Jang+2017] 0:

    low content diversity 1: high content diversity Binary parameter Context(入力発話) Model/Human
  9. 13 Diversity Metrics Evaluation Framework 出力文の多様性を制御す るパラメータ Softmax温度パラメータ等 [Jang+2017] 0:

    low content diversity 1: high content diversity Binary parameter Context(入力発話) Model/Human Generated texts
  10. 14 Diversity Metrics Evaluation Framework 出力文の多様性を制御す るパラメータ Softmax温度パラメータ等 [Jang+2017] 0:

    low content diversity 1: high content diversity Binary parameter Context(入力発話) Model/Human Generated texts n-gram based, neural based, Human judgement
  11. 15 Diversity Metrics Evaluation Framework 出力文の多様性を制御す るパラメータ Softmax温度パラメータ等 [Jang+2017] 0:

    low content diversity 1: high content diversity Binary parameter Context(入力発話) Model/Human Generated texts n-gram based, neural based, Human judgement Correlation analysis
  12. 16 Aspect of diversity Tester Diversity parameter Metrics Decoding Test

    Form diversity (How to say) Model • Softmax temperature (τ) • Nucleus sampling (p) • Top-k sampling (k) • N-gram based • Neural based • Human judgement Content Test Content diversity (What to say) Human • Binary parameters {0, 1} → low and high content diversity Overview of the Two Tests
  13. 17 Overview of the Two Tests Correlation analysis 生成テキスト 評価指標

    Aspect of diversity Tester Diversity parameter Metrics Decoding Test Form diversity (How to say) Model • Softmax temperature (τ) • Nucleus sampling (p) • Top-k sampling (k) • N-gram based • Neural based • Human judgement Content Test Content diversity (What to say) Human • Binary parameters {0, 1} → low and high content diversity
  14. 18 Human Diversity Score(HDS) • absHDS:文集合に対して、5段階の絶対スコアを付与 • aspHDS:absHDSを内容・表層多様性の観点ベースに拡張 • rnkHDS

    :文集合に対して、相対スコアを付与(ランク付け) • simHDS:文ペアに対して、類似度スコアを付与
  15. 19 Human Diversity Score(HDS) • absHDS:文集合に対して、5段階の絶対スコアを付与 • aspHDS:absHDSを内容・表層多様性の観点ベースに拡張 • rnkHDS

    :文集合に対して、相対スコアを付与(ランク付け) • simHDS:文ペアに対して、類似度スコアを付与 • 文ペアよりも、文集合で評価したほうが相関が高い • 絶対的な評価が良いか、相対的な評価が良いかは結論出ず • 人間は異なる多様性の観点(内容 , 表層)を評価できる 本研究で分かったこと 多様性の人手評価のTipsが 気になる方はぜひ論文で!
  16. 25 Content Diversity Benchmark • Metrics for content Diversity(McDiv)をリリース [Github]

    ◦ 6000件の{Context, 文集合}のペアからなるデータセット ▪ 各2000件 (storyGen, respGen, promptGen) ▪ Form diversityが中立化されたchallengingセット(3000件)も含む -> McDiv_{nuggets} McDiv_{nuggets}, 200 sets McDiv(通常版), 6K sets
  17. 26 HDS Stability: Picking Parameter Values • 人手評価スコアを収集する際の各種パラメータの決め方について ◦ #ratings

    per set:各文集合に対して何人に評価スコアをつけてもらうか ◦ #sets:各モデルについてどのくらいの生成文集合を評価するか • 各set10人 • 全200 sets
  18. 27 Aspect of Diversity • 本論文で扱った多様性の観点は次の2つ: ◦ 内容多様性 (content diversity)

    → “What to say?” ◦ 表層多様性(form diversity)→ “How to say it?” • 筆者らの観察によると,多様性の観点はツリー構造になっている ◦ 内容多様性 ▪ sentiment → positive / negative ▪ relevance → relevant / not relevant ◦ 表層多様性 ▪ syntactic diversity(構文的多様性)→ “Someone took it from me.” vs. “It was taken from me.” ▪ lexical diversity(語彙的多様性)→ “I feel fine.” vs. “I feel very well.” • さらに文体(丁寧語か/カジュアルか)の観点も考えられる
  19. 28 Summary(再掲) • 課題 ◦ 多様性を測るための標準的な評価指標が無い • 方法 ◦ 多様性の評価指標を評価(メタ評価)するためのフレームワークを提案する

    ◦ 評価指標: n-gramベース手法、Neuralベース手法、人手評価 ◦ 多様性の観点:Form diversity(表層多様性)、Content diversity(内容多様性) • 考察 ◦ n-gramベース手法は内容多様性を見分けることができない(人間はできる) ◦ デコーディングパラメータ( temperature等)は内容ではなく表層に影響を与える