Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation

tosho
September 25, 2022

Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation

第14回最先端NLP勉強会での発表資料。
元論文:https://aclanthology.org/2021.tacl-1.87/

tosho

September 25, 2022
Tweet

More Decks by tosho

Other Decks in Research

Transcript

  1. 論文紹介
    Experts, Errors, and Context:
    A Large-Scale Study of Human Evaluation
    for Machine Translation
    Markus Freitag, George Foster, David Grangier, Viresh Ratnakar, Qijun Tan,
    Wolfgang Macherey
    TACL, Volume 9 (2021)
    読み手:平澤 寅庄
    東京都立大学小町研究室 D2
    2022/9/27 第14回最先端NLP勉強会

    View Slide

  2. 論文 (TACL) : https://aclanthology.org/2021.tacl-1.87/ (8/2021)
    論文 (arXiv) : https://arxiv.org/abs/2104.14478 (4/2021)
    データセット : https://github.com/google/wmt-mqm-human-evaluation
    MQM Viewer :
    https://github.com/google-research/google-research/tree/master/mqm_viewer
    注釈のない図表は論文から引用されたものです
    2

    View Slide

  3. この論文の...
    問題設定
    ● 正しく機械翻訳を評価できているか
    キモとなる技術や手法
    ● Professional translators による MQM 評価をプラチナとする
    ● MQM 評価との相関で各評価手法の良し悪しを評価する
    分かったこと
    ● 人手翻訳(HT)は依然として機械翻訳(MT)よりも品質がよい
    ● 自動評価は Crowd-worker による人手評価よりも、MQM との相関が高い
    3

    View Slide

  4. (機械)翻訳の評価手法
    自動評価
    ● BLEU, COMET, chrF, YiSi, etc
    Crowd-sourcing による人手評価
    ● Scalar Quality Metric (cSQM)
    Professional translator による人手評価
    ● Scalar Quality Metric (pSQM)
    ● Multidimensional Quality Metrics (MQM)
    4

    View Slide

  5. (機械)翻訳の評価手法
    自動評価
    ● BLEU, COMET, chrF, YiSi, etc
    Crowd-sourcing による人手評価
    ● Scalar Quality Metric (cSQM)
    Professional translator による人手評価
    ● Scalar Quality Metric (pSQM)
    ● Multidimensional Quality Metrics (MQM)




    精度 コスト
    5

    View Slide

  6. (機械)翻訳の評価手法
    自動評価
    ● BLEU, COMET, chrF, YiSi, etc
    Crowd-sourcing による人手評価
    ● Scalar Quality Metric (cSQM)
    Professional translator による人手評価
    ● Scalar Quality Metric (pSQM)
    ● Multidimensional Quality Metrics (MQM)




    精度 コスト
    6
    WMT
    Direct Assessment

    View Slide

  7. WMT Direct Assessment (or WMT)
    ● 文(segment)ごとに 0 - 100 でスコアを付ける
    ● 評価時は文脈(原文を含む文書)が提示される
    Translations out of English (X → English)
    ● 原文のみで評価
    ● researchers / translators
    Translation into English (English → X)
    ● 参照訳のみで評価
    ● crowd workers
    7

    View Slide

  8. Scalar Quality Metric (SQM)
    ● 文(segment)ごとに 0 - 6 でスコアを付ける
    ● 評価時は原文・参照訳・文脈(原文を含む文書)が提示される
    cSQM
    ● crowd worker による評価
    ● proficiency test に合格した rater のみで行う
    pSQM
    ● professional translator による評価
    8

    View Slide

  9. Multidimensional Quality Metrics (MQM)
    ● 階層化された誤りカテゴリを用いて評価を行う
    ○ Accuracy / Fluency / Terminology / Style / Locale convention / Other
    ● それぞれの誤りは重大度(severity)が付けられる
    ○ Major: 意味的もしくは文法的な誤り
    ○ Minor: より小さな不完全さ
    ○ Neutral: 評価者の主観によるもの
    ○ MQM でよく使われる Critical は Major と主観的な違いしかないため、廃止した
    ● 2つの追加の誤り
    ○ Source error: 入力文の誤り
    ○ Non-translation: 個別の誤りとは分類できない翻訳
    ○ これらの誤りは重大度を持たず、階層化された誤りカテゴリとは区別されて付与される。
    9

    View Slide

  10. MQM の階層
    10

    View Slide

  11. Accuracy の例
    Mistranslation
    Omission
    Addition
    11

    View Slide

  12. Fluency の例
    Grammer
    Punctuation
    12

    View Slide

  13. Style の例
    Awkward
    13

    View Slide

  14. Non-translation の例
    14

    View Slide

  15. MQM からスコア(数値評価)への変換
    誤りの重大度の重み付け合計でスコアを付ける。
    ● Non-translation=25
    ● Major=5, Minor=1, Neutral=0
    ● Minor Fluency/Punctuation=0.1
    重みは resampling したときの安定性で選択した
    ● resampling したサブセットで、
    システムを MQM で ranking
    ● 全体を使ったときの ranking と比較する
    ● 全体との一致率が高い重みを採用する
    Lower is better
    15

    View Slide

  16. 実験
    データ:WMT 2020/2021 test sets, TED test set
    言語対:English→German / Chinese→English
    ● 1,418 / 2,000 segments, 130 / 155 documents
    MT systems:10 システム
    ● うち、3 / 2 システムは参照訳
    ● pSQM, MQM では1つのドキュメントを3名の評価者で評価する
    評価方法:WMT, cSQM, pSQM, MQM
    16

    View Slide

  17. 全体の順位(MQM 評価で昇順)
    MQM 評価 (plutinum
    standard)で昇順
    Human-A/B: 参照訳
    Human-P:
    参照訳の言い換え
    Online-A/B:
    オンライン翻訳
    17

    View Slide

  18. Crowd worker は人手翻訳 (HT) を過小評価している
    翻訳者 (pSQM / MQM)が HT を上位にランク
    している一方、crowd worker は中位〜下位
    にランクすることがある。
    pSQM / MQM の評価だと、HT と MT の品質
    には依然として大きな差がある。
    crowd worker は表面的な・簡単に評価できる
    翻訳を好む
    ● Human-P は参照訳の言い換えで、原文と
    用語や構造が違うことが多い
    18

    View Slide

  19. MQM と MQM 以外の人手評価の相関
    すべての言語対について、WMT DA と
    MQM は低い相関を示す
    システム単位だと pSQM は MQM と高
    い相関を示すが、文単位だと相関が低く
    なる
    → 性能が似たシステムの比較にはより
    細かい評価が必要
    19

    View Slide

  20. MQM 評価は主に Major / Accuracy を見ている
    Major / Accuracy によ
    る順位が MQM のものと
    ほぼ一致する
    20

    View Slide

  21. MQM 誤りの分布
    21

    View Slide

  22. MT の主な誤りは Mistranslation
    HT と比べ 4+ 倍
    MQM スコアの半分を占め

    22

    View Slide

  23. Accuracy/Addition 誤りは MT のほうが少ない
    人手翻訳では目的言語側
    での理解を促進するため、
    単語・句を追加することが
    ある。
    23

    View Slide

  24. MT system 毎に得手不得手が異なる
    Tohoku
    ● 平均的な流暢性
    ● 優秀な正確性
    eTranslation
    ● 優秀な流暢性
    ● 平均的な正確性
    OPPO
    ● 中間的な性能
    24

    View Slide

  25. 文書レベルの誤り分布
    25

    View Slide

  26. 文書レベルの誤り分布(English→German)
    26
    HT の品質はドキュメントに
    よらずほぼ一定

    View Slide

  27. 文書レベルの誤り分布(English→German)
    27
    MT の出力品質は入力文に
    依存している

    View Slide

  28. 文書レベルの誤り分布(Chinese→English)
    28
    HT と MT の誤り分布が似
    ている
    ● 言語が遠いから?
    ● 原文が政府系新聞の
    記事でスタイルが翻訳
    しにくい?

    View Slide

  29. Annotator Agreement と信頼性
    29

    View Slide

  30. Annotator Agreement と信頼性
    30
    ほぼ平均 ±20% 以内に収まっている。

    View Slide

  31. Annotator Agreement と信頼性
    31
    Annotator 間のスコア差は存在するが、
    annotation models を使うことで訂正すること
    ができる。

    View Slide

  32. Annotator Agreement と信頼性
    32
    英独よりもばらつきが大きい( ±30%)。
    → 遠い言語間の翻訳は、 MQM ラベルの曖
    昧さも増大させる。

    View Slide

  33. Pairwise Inter-rater agreement
    同じ professional translator でも MQM
    の一致率は SQM の一致率より良い
    → 厳格なエラーラベルを用いることは評
    価者の信頼性を向上させる
    33

    View Slide

  34. 自動評価と人手評価の相関
    WMT DA と比べ、ほぼすべての
    自動評価が MQM と高い相関を
    示す。
    WMT を基準に自動評価をメタ評
    価すると、MQM を基準とした場
    合と異なる順位となる。
    34

    View Slide

  35. 自動評価と人手評価の相関(粒度別、平均)
    自動評価は WMT よりも MQM との相関が
    高いが、有意なのは英独のみ
    自動評価は HT を追加して評価すると
    MQM との相関が大幅に落ちる
    → 自動評価は HT を過小評価している
    文レベルだと、英独よりも中英のほうが相関
    が高い
    → 文レベルの結果をうまく集計することでシ
    ステムレベルの評価を改善できる
    35
    avg. p-value →

    View Slide

  36. 結論
    問題設定
    ● 正しく機械翻訳を評価できているか
    キモとなる技術や手法
    ● Professional translators による MQM 評価をプラチナとする
    ● MQM 評価との相関で各評価手法の良し悪しを評価する
    分かったこと
    ● 人手翻訳(HT)は依然として機械翻訳(MT)よりも品質がよい
    ● 自動評価は Crowd-worker による人手評価よりも、MQM との相関が高い
    36

    View Slide

  37. おまけ: とりあえず MQM 評価すればよいのか?
    MQM スキームが変わると、seg-level の評価が変わることが分かった。
    Freitag et al., 2021. “Results of the WMT21 Metrics Shared Task: Evaluating
    Metrics with Expert-based Human Evaluations on TED and News Domain”
    実験: TED talk データについて、2つの MQM スキー
    ムで評価を行った。
    ● seg-level では、2つの MQM 評価の相関は低い
    (r = 0.212、κ = 0.165)
    ● 誤りを含む文のみを評価しても相関が低い
    ● sys-level ranking はおおよそ一致(特に上位)し
    た結果を出している
    ● TED talk の segmentation の複雑さに起因した
    不一致であると結論づけた 37

    View Slide