Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation

tosho
September 25, 2022

Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation

第14回最先端NLP勉強会での発表資料。
元論文:https://aclanthology.org/2021.tacl-1.87/

tosho

September 25, 2022
Tweet

More Decks by tosho

Other Decks in Research

Transcript

  1. 論文紹介 Experts, Errors, and Context: A Large-Scale Study of Human

    Evaluation for Machine Translation Markus Freitag, George Foster, David Grangier, Viresh Ratnakar, Qijun Tan, Wolfgang Macherey TACL, Volume 9 (2021) 読み手:平澤 寅庄 東京都立大学小町研究室 D2 2022/9/27 第14回最先端NLP勉強会
  2. 論文 (TACL) : https://aclanthology.org/2021.tacl-1.87/ (8/2021) 論文 (arXiv) : https://arxiv.org/abs/2104.14478 (4/2021)

    データセット : https://github.com/google/wmt-mqm-human-evaluation MQM Viewer : https://github.com/google-research/google-research/tree/master/mqm_viewer 注釈のない図表は論文から引用されたものです 2
  3. この論文の... 問題設定 • 正しく機械翻訳を評価できているか キモとなる技術や手法 • Professional translators による MQM

    評価をプラチナとする • MQM 評価との相関で各評価手法の良し悪しを評価する 分かったこと • 人手翻訳(HT)は依然として機械翻訳(MT)よりも品質がよい • 自動評価は Crowd-worker による人手評価よりも、MQM との相関が高い 3
  4. (機械)翻訳の評価手法 自動評価 • BLEU, COMET, chrF, YiSi, etc Crowd-sourcing による人手評価

    • Scalar Quality Metric (cSQM) Professional translator による人手評価 • Scalar Quality Metric (pSQM) • Multidimensional Quality Metrics (MQM) 4
  5. (機械)翻訳の評価手法 自動評価 • BLEU, COMET, chrF, YiSi, etc Crowd-sourcing による人手評価

    • Scalar Quality Metric (cSQM) Professional translator による人手評価 • Scalar Quality Metric (pSQM) • Multidimensional Quality Metrics (MQM) 低 高 低 高 精度 コスト 5
  6. (機械)翻訳の評価手法 自動評価 • BLEU, COMET, chrF, YiSi, etc Crowd-sourcing による人手評価

    • Scalar Quality Metric (cSQM) Professional translator による人手評価 • Scalar Quality Metric (pSQM) • Multidimensional Quality Metrics (MQM) 低 高 低 高 精度 コスト 6 WMT Direct Assessment
  7. WMT Direct Assessment (or WMT) • 文(segment)ごとに 0 - 100

    でスコアを付ける • 評価時は文脈(原文を含む文書)が提示される Translations out of English (X → English) • 原文のみで評価 • researchers / translators Translation into English (English → X) • 参照訳のみで評価 • crowd workers 7
  8. Scalar Quality Metric (SQM) • 文(segment)ごとに 0 - 6 でスコアを付ける

    • 評価時は原文・参照訳・文脈(原文を含む文書)が提示される cSQM • crowd worker による評価 • proficiency test に合格した rater のみで行う pSQM • professional translator による評価 8
  9. Multidimensional Quality Metrics (MQM) • 階層化された誤りカテゴリを用いて評価を行う ◦ Accuracy / Fluency

    / Terminology / Style / Locale convention / Other • それぞれの誤りは重大度(severity)が付けられる ◦ Major: 意味的もしくは文法的な誤り ◦ Minor: より小さな不完全さ ◦ Neutral: 評価者の主観によるもの ◦ MQM でよく使われる Critical は Major と主観的な違いしかないため、廃止した • 2つの追加の誤り ◦ Source error: 入力文の誤り ◦ Non-translation: 個別の誤りとは分類できない翻訳 ◦ これらの誤りは重大度を持たず、階層化された誤りカテゴリとは区別されて付与される。 9
  10. MQM からスコア(数値評価)への変換 誤りの重大度の重み付け合計でスコアを付ける。 • Non-translation=25 • Major=5, Minor=1, Neutral=0 •

    Minor Fluency/Punctuation=0.1 重みは resampling したときの安定性で選択した • resampling したサブセットで、 システムを MQM で ranking • 全体を使ったときの ranking と比較する • 全体との一致率が高い重みを採用する Lower is better 15
  11. 実験 データ:WMT 2020/2021 test sets, TED test set 言語対:English→German /

    Chinese→English • 1,418 / 2,000 segments, 130 / 155 documents MT systems:10 システム • うち、3 / 2 システムは参照訳 • pSQM, MQM では1つのドキュメントを3名の評価者で評価する 評価方法:WMT, cSQM, pSQM, MQM 16
  12. Crowd worker は人手翻訳 (HT) を過小評価している 翻訳者 (pSQM / MQM)が HT

    を上位にランク している一方、crowd worker は中位〜下位 にランクすることがある。 pSQM / MQM の評価だと、HT と MT の品質 には依然として大きな差がある。 crowd worker は表面的な・簡単に評価できる 翻訳を好む • Human-P は参照訳の言い換えで、原文と 用語や構造が違うことが多い 18
  13. MQM と MQM 以外の人手評価の相関 すべての言語対について、WMT DA と MQM は低い相関を示す システム単位だと

    pSQM は MQM と高 い相関を示すが、文単位だと相関が低く なる → 性能が似たシステムの比較にはより 細かい評価が必要 19
  14. MQM 評価は主に Major / Accuracy を見ている Major / Accuracy によ

    る順位が MQM のものと ほぼ一致する 20
  15. MT system 毎に得手不得手が異なる Tohoku • 平均的な流暢性 • 優秀な正確性 eTranslation •

    優秀な流暢性 • 平均的な正確性 OPPO • 中間的な性能 24
  16. Pairwise Inter-rater agreement 同じ professional translator でも MQM の一致率は SQM

    の一致率より良い → 厳格なエラーラベルを用いることは評 価者の信頼性を向上させる 33
  17. 自動評価と人手評価の相関(粒度別、平均) 自動評価は WMT よりも MQM との相関が 高いが、有意なのは英独のみ 自動評価は HT を追加して評価すると

    MQM との相関が大幅に落ちる → 自動評価は HT を過小評価している 文レベルだと、英独よりも中英のほうが相関 が高い → 文レベルの結果をうまく集計することでシ ステムレベルの評価を改善できる 35 avg. p-value →
  18. 結論 問題設定 • 正しく機械翻訳を評価できているか キモとなる技術や手法 • Professional translators による MQM

    評価をプラチナとする • MQM 評価との相関で各評価手法の良し悪しを評価する 分かったこと • 人手翻訳(HT)は依然として機械翻訳(MT)よりも品質がよい • 自動評価は Crowd-worker による人手評価よりも、MQM との相関が高い 36
  19. おまけ: とりあえず MQM 評価すればよいのか? MQM スキームが変わると、seg-level の評価が変わることが分かった。 Freitag et al.,

    2021. “Results of the WMT21 Metrics Shared Task: Evaluating Metrics with Expert-based Human Evaluations on TED and News Domain” 実験: TED talk データについて、2つの MQM スキー ムで評価を行った。 • seg-level では、2つの MQM 評価の相関は低い (r = 0.212、κ = 0.165) • 誤りを含む文のみを評価しても相関が低い • sys-level ranking はおおよそ一致(特に上位)し た結果を出している • TED talk の segmentation の複雑さに起因した 不一致であると結論づけた 37