$30 off During Our Annual Pro Sale. View Details »

【論文紹介】Evaluating the Evaluation of Diversity in Natural Language Generation

【論文紹介】Evaluating the Evaluation of Diversity in Natural Language Generation

社内論文読み会で使用した資料です。

元論文はこちらです。
https://aclanthology.org/2021.eacl-main.25/

Guy Tevet and Jonathan Berant. 2021. Evaluating the Evaluation of Diversity in Natural Language Generation. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 326–346, Online. Association for Computational Linguistics.

Soichiro Murakami

October 28, 2022
Tweet

More Decks by Soichiro Murakami

Other Decks in Research

Transcript

  1. Soichiro MURAKAMI
    Evaluating the Evaluation of
    Diversity in Natural
    Language Generation
    論文紹介

    View Slide

  2. 2
    紹介する論文
    ● TL;DR
    ○ テキストの多様性の評価指標を評価 した論文(メタ評価)
    ● 選定理由
    ○ 広告文の多様性をどのように評価すべきか参考にするため
    EMNLP2020 workshop (non-archival paper)→ EACL2021
    発表動画

    View Slide

  3. 3
    Summary
    ● 課題
    ○ 多様性を測るための標準的な評価指標が無い
    ● 方法
    ○ 多様性の評価指標を評価(メタ評価)するためのフレームワークを提案する
    ○ 評価指標: n-gramベース手法、Neuralベース手法、人手評価
    ○ 多様性の観点:Form diversity(表層多様性)、Content diversity(内容多様性)
    ● 考察
    ○ n-gramベース手法は内容多様性を見分けることができない(人間はできる)
    ○ デコーディングパラメータ( temperature等)は内容ではなく表層に影響を与える

    View Slide

  4. 4
    Meta Evaluation
    Model Evaluation
    Meta
    Evaluation
    Text Generation Diversity Metrics This work
    → 既存の評価指標は多様性を
    評価できているのか

    View Slide

  5. 5
    Text Generation
    Text Generation
    Model
    Context Response
    “Very good!”
    “Fine, thank you”
    “Not bad”
    “How are you today?”

    View Slide

  6. 6
    Diversity Metrics
    ● N-gram based
    ○ distinct n-grams
    ○ n-grams cosine similarity
    ● Neural based
    ○ BERT-STS
    ○ BERT Score
    ○ Sentence BERT
    ● Human Judgement
    ○ 5 point scale
    distinct n-grams
    BERT-STS
    How are you?
    What’s up?
    [1-5]
    5-point scale

    View Slide

  7. 7
    Can humans reliably estimate diversity?
    Quality
    Diversity
    Metric (e.g., BLEU) Human judgement
    Metric (e.g, distinct-n)
    Correlation analysis
    ● 一般的には、評価指標と人手評価スコアの相関分析が実施される
    ● しかし、人手評価で多様性を評価できるのか自明ではない

    View Slide

  8. 8
    Can humans reliably estimate diversity?
    Quality
    Diversity Metric (e.g, distinct-n) Diversity parameter
    Correlation analysis
    ● 一般的には、評価指標と人手評価スコアの相関分析が実施される
    ● しかし、人手評価で多様性を評価できるのか自明ではない
    Proposal
    Metric (e.g., BLEU) Human judgement

    View Slide

  9. 9
    Diversity Metrics Evaluation Framework

    View Slide

  10. 10
    Diversity Metrics Evaluation Framework
    出力文の多様性を制御す
    るパラメータ
    Softmax温度パラメータ等
    [Jang+2017]
    0: low content diversity
    1: high content diversity
    Binary parameter

    View Slide

  11. 11
    Diversity Metrics Evaluation Framework
    出力文の多様性を制御す
    るパラメータ
    Softmax温度パラメータ等
    [Jang+2017]
    0: low content diversity
    1: high content diversity
    Binary parameter
    Context(入力発話)

    View Slide

  12. 12
    Diversity Metrics Evaluation Framework
    出力文の多様性を制御す
    るパラメータ
    Softmax温度パラメータ等
    [Jang+2017]
    0: low content diversity
    1: high content diversity
    Binary parameter
    Context(入力発話)
    Model/Human

    View Slide

  13. 13
    Diversity Metrics Evaluation Framework
    出力文の多様性を制御す
    るパラメータ
    Softmax温度パラメータ等
    [Jang+2017]
    0: low content diversity
    1: high content diversity
    Binary parameter
    Context(入力発話)
    Model/Human
    Generated texts

    View Slide

  14. 14
    Diversity Metrics Evaluation Framework
    出力文の多様性を制御す
    るパラメータ
    Softmax温度パラメータ等
    [Jang+2017]
    0: low content diversity
    1: high content diversity
    Binary parameter
    Context(入力発話)
    Model/Human
    Generated texts
    n-gram based,
    neural based,
    Human judgement

    View Slide

  15. 15
    Diversity Metrics Evaluation Framework
    出力文の多様性を制御す
    るパラメータ
    Softmax温度パラメータ等
    [Jang+2017]
    0: low content diversity
    1: high content diversity
    Binary parameter
    Context(入力発話)
    Model/Human
    Generated texts
    n-gram based,
    neural based,
    Human judgement
    Correlation analysis

    View Slide

  16. 16
    Aspect of
    diversity
    Tester Diversity parameter Metrics
    Decoding
    Test
    Form diversity
    (How to say)
    Model
    ● Softmax temperature (τ)
    ● Nucleus sampling (p)
    ● Top-k sampling (k)
    ● N-gram based
    ● Neural based
    ● Human
    judgement
    Content
    Test
    Content diversity
    (What to say)
    Human
    ● Binary parameters {0, 1}
    → low and high content diversity
    Overview of the Two Tests

    View Slide

  17. 17
    Overview of the Two Tests
    Correlation analysis
    生成テキスト 評価指標
    Aspect of
    diversity
    Tester Diversity parameter Metrics
    Decoding
    Test
    Form diversity
    (How to say)
    Model
    ● Softmax temperature (τ)
    ● Nucleus sampling (p)
    ● Top-k sampling (k)
    ● N-gram based
    ● Neural based
    ● Human
    judgement
    Content
    Test
    Content diversity
    (What to say)
    Human
    ● Binary parameters {0, 1}
    → low and high content diversity

    View Slide

  18. 18
    Human Diversity Score(HDS)
    ● absHDS:文集合に対して、5段階の絶対スコアを付与
    ● aspHDS:absHDSを内容・表層多様性の観点ベースに拡張
    ● rnkHDS :文集合に対して、相対スコアを付与(ランク付け)
    ● simHDS:文ペアに対して、類似度スコアを付与

    View Slide

  19. 19
    Human Diversity Score(HDS)
    ● absHDS:文集合に対して、5段階の絶対スコアを付与
    ● aspHDS:absHDSを内容・表層多様性の観点ベースに拡張
    ● rnkHDS :文集合に対して、相対スコアを付与(ランク付け)
    ● simHDS:文ペアに対して、類似度スコアを付与
    ● 文ペアよりも、文集合で評価したほうが相関が高い
    ● 絶対的な評価が良いか、相対的な評価が良いかは結論出ず
    ● 人間は異なる多様性の観点(内容
    , 表層)を評価できる
    本研究で分かったこと
    多様性の人手評価のTipsが
    気になる方はぜひ論文で!

    View Slide

  20. 20
    absHDSの具体例

    View Slide

  21. 21
    Decoding Test
    Softmax温度パラメータ
    GPT-2
    ● Softmax温度パラメータと多様性評価指標の相関分析

    View Slide

  22. 22
    Result -Decoding test-
    ● 人手評価スコア(absHDS)およびニューラル手法はn-gram手法よりlinear
    ● n-gramベース評価指標(Cos-sim)は温度パラメータの感度が高い
    Pearson: 0.6 Pearson: 0.75 Pearson: 0.77
    ※各点は生成文
    集合を表す

    View Slide

  23. 23
    Content Test
    ● Workerが作成した2種類の文集合と多様性評価指標の相関分析
    Crowdsourcing Worker
    Binary parameter
    (high or low diversity)
    High content diversity
    Low content diversity

    View Slide

  24. 24
    Result -Content Test-
    ● HDS(人手評価スコア)では内容多様性が高い/低いを区別できている
    ● n-gramベース評価指標(distinct-n)は両文集合ともスコアが高くなる

    View Slide

  25. 25
    Content Diversity Benchmark
    ● Metrics for content Diversity(McDiv)をリリース [Github]
    ○ 6000件の{Context, 文集合}のペアからなるデータセット
    ■ 各2000件 (storyGen, respGen, promptGen)
    ■ Form diversityが中立化されたchallengingセット(3000件)も含む -> McDiv_{nuggets}
    McDiv_{nuggets}, 200 sets
    McDiv(通常版), 6K sets

    View Slide

  26. 26
    HDS Stability: Picking Parameter Values
    ● 人手評価スコアを収集する際の各種パラメータの決め方について
    ○ #ratings per set:各文集合に対して何人に評価スコアをつけてもらうか
    ○ #sets:各モデルについてどのくらいの生成文集合を評価するか
    ● 各set10人
    ● 全200 sets

    View Slide

  27. 27
    Aspect of Diversity
    ● 本論文で扱った多様性の観点は次の2つ:
    ○ 内容多様性 (content diversity) → “What to say?”
    ○ 表層多様性(form diversity)→ “How to say it?”
    ● 筆者らの観察によると,多様性の観点はツリー構造になっている
    ○ 内容多様性
    ■ sentiment → positive / negative
    ■ relevance → relevant / not relevant
    ○ 表層多様性
    ■ syntactic diversity(構文的多様性)→ “Someone took it from me.” vs. “It was taken from me.”
    ■ lexical diversity(語彙的多様性)→ “I feel fine.” vs. “I feel very well.”
    ● さらに文体(丁寧語か/カジュアルか)の観点も考えられる

    View Slide

  28. 28
    Summary(再掲)
    ● 課題
    ○ 多様性を測るための標準的な評価指標が無い
    ● 方法
    ○ 多様性の評価指標を評価(メタ評価)するためのフレームワークを提案する
    ○ 評価指標: n-gramベース手法、Neuralベース手法、人手評価
    ○ 多様性の観点:Form diversity(表層多様性)、Content diversity(内容多様性)
    ● 考察
    ○ n-gramベース手法は内容多様性を見分けることができない(人間はできる)
    ○ デコーディングパラメータ( temperature等)は内容ではなく表層に影響を与える

    View Slide

  29. 29
    Appendix

    View Slide

  30. 30
    Result - different decoding parameters -

    View Slide