[Journal club] COMET: A Neural Framework for MT Evaluation

慶應義塾⼤学杉浦孔明研究室 B4 齋藤⼤地 COMET: A Neural Framework for MT
Evaluation Ricardo Rei, Craig Stewart, Ana C Farinha, Alon Lavie (Unbabel AI) EMNLP 2020 COMET: A Neural Framework for MT Evaluation (Rei et al., EMNLP 2020)

背景：Rule-basedの評価指標は⼈間による評価との相関が低い - 3 - ▪ Rule-basedの評価指標 • BLEU [Papineni+, ACL02]やMETEOR
[Lavie+, ACL05] • !-gramの⼀致率に基づいて評価 ü シンプルで⾼速 ü 機械翻訳において主流 Ø ⼈間による評価との相関が低い BLEU = BP× exp + !"# $ ,! log 0! = 短い翻訳へのPenalty × 5 − gram精度の幾何平均 METEOR = Fmean ∗ 1 − #chunks #unigrams_matched

既存研究：学習可能な既存尺度は改善が必要 - 4 - ▪ RUSE [Shimanaka+, WMT18] • MLPにより⼈間による評価を回帰
▪ BLEURT [Sellam+, ACL20] • Wikipediaから取得した⼤量のテキストデータを使⽤し，BERT [Devlin+, NAACL19]で事前学習 • ⼈間による評価でFine-tuning Ø 未だ性能に改善の余地あり RUSE [Shimanaka+, WMT18] BERT [Devlin+, NAACL19]

提案⼿法：COMET - 5 - ▪ 機械翻訳における学習可能な⾃動評価尺度COMETを提案 • Reference，Source，Hypothesisを⼊⼒とし，⼈間による評価を学習 ▪ 2種類のモデルを提案
• Estimator Model ü ⼈間による評価を直接回帰 • Translation Ranking Model ü DA Scoreに基づいてBetter Hypothesis ℎIとWorse Hypothesis ℎJを⽤意 ü ℎIがℎJよりも⾼いScoreとなるように最適化参照⽂翻訳元⽣成⽂ Estimator Model Translation Ranking Model

Estimator Model：⼈間による評価を直接回帰 - 6 - ▪ Source #，Hypothesis ℎ，Reference $の埋め込み表現から
アダマール積と差を計算し，FFNに⼊⼒ ▪ Quality ScoreとPredicted ScoreのMSEを最⼩化 • DA (Direct Assessment)[Graham+, LAW13] • HTER (Human Targeted Edit Rate)[Snover+, AMTA06] • MQM (Multidimensional Quality Metrics)[Lommel+, 14]

Estimator Model：⼈間による評価を直接回帰 - 7 - ▪ Source #，Hypothesis ℎ，Reference $の埋め込み表現から
アダマール積と差を計算し，FFNに⼊⼒ ▪ Quality ScoreとPredicted ScoreのMSEを最⼩化 • DA (Direct Assessment)[Graham+, LAW13] • HTER (Human Targeted Edit Rate)[Snover+, AMTA06] • MQM (Multidimensional Quality Metrics)[Lommel+, 14] Sourceの埋め込み表現を直接含めない理由「各⾔語の特徴空間は，適切に対応付けられていない」 [Zhao+, ACL20] Ø Sourceの埋め込み表現を排除し特徴空間を縮⼩ → モデルがより関連性のある情報に集中

Translation Ranking Model①：%Iが%Jよりも⾼いScoreとなるように最適化 - 8 - ▪ ⼊⼒：Better Hypothesis ℎIとWorse
Hypothesis ℎJ ▪ 埋め込み表現 #, ℎI, ℎJ, $ からTriplet Margin Loss [Schroff+, CVPR15]を計算 → 'と%Iの距離が， 'と%Jの距離よりも(以上⼤きくなるように最適化（) についても同様） ※ !: source, ": reference

- 9 - ▪ 推論時， Hypothesis hを⼊⼒として加えた #, * ℎ,
$ を⽤いて調和平均を計算 ▪ +を 0, 1 に正規化し値を出⼒ ※ K：ユークリッド距離 Translation Ranking Model②：推論時に調和平均を⽤いてScoreを計算

実験設定：3つのモデルを⽤意 - 10 - ▪ Estimator Model • COMET-HTER：4つの⾔語ペアで学習しHTERを回帰 •
COMET-MQM：12の⾔語ペアで学習しMQMを回帰 ▪ Translation Ranking Model • COMET-Rank：24の⾔語ペアで学習しDAを回帰⼈間による評価 • HTER：評価者がHypothesisを編集しEdit Rateを計算 • MQM：エラーの度合いに応じて3段階に分類 • DA：翻訳の品質を⼈間が評価 Estimator Model Translation Ranking Model

実験設定：3つのモデルを⽤意 - 11 - ▪ Estimator Model • COMET-HTER：4つの⾔語ペアで学習しHTERを回帰 •
COMET-MQM：12の⾔語ペアで学習しMQMを回帰 ▪ Translation Ranking Model • COMET-Rank：24の⾔語ペアで学習しDAを回帰⼈間による評価 • HTER：評価者がHypothesisを編集しEdit Rateを計算 • MQM：エラーの度合いに応じて3段階に分類 • DA：翻訳の品質を⼈間が評価 Estimator Model Translation Ranking Model データセット • 訓練データ • COMET-HTER：QT21 Corpus [Specia+, XVI21] • COMET-MQM：MQM Corpus (独⾃に収集) • COMET-Rank：WMT DARR Corpus (2017, 2018) [Barrault+, WMT19] • テストデータ：WMT DARR Corpus (2019)

定量的結果①：英語から他⾔語への翻訳評価タスクで既存⼿法を上回る - 12 - ▪ 英語から他⾔語への翻訳において，Kendallの相関係数で評価 ▪ ベースライン • BLEU[Papineni+,
ACL02] • BERTScore[Zhang+, ICLR20] 全ての⾔語ペアにおいて既存⼿法を上回る性能 • YiSi-1[Lo+, WMT19] • CHRF[Popović+, WMT15]

定量的結果②：英語以外の翻訳評価タスクにおいて既存⼿法を上回る - 13 - ▪ 英語を含まない⾔語ペアにおける翻訳評価 • 英語を含む⾔語ペアしか学習していないのにも拘らず，既存⼿法を上回る性能
全ての⾔語ペアにおいて最も⾼い性能

定量的結果③：複数の翻訳器に対する翻訳評価で既存⼿法を上回る - 14 - ▪ 複数の翻訳器に対する評価を⽐較 • ⽤意した翻訳器のうち，性能の⾼い上位 !
種の翻訳器に対して評価を⾏い，それぞれの平均Scoreを計算 • ⼈間による評価の平均との相関係数を計算し，! を変えた時の結果をPlot Ø 全ての ! において既存⼿法を上回る性能

Ablation Study：Sourceを⼊⼒に含めることで性能が向上 - 15 - ▪ SourceをInputに含める場合の性能への寄与を調査 ▪ 2種類のモデルを⽤意 1.
Source, Referenceを使って学習 2. Referenceのみを使って学習 Ø どの⾔語ペアにおいても，SourceをInputに含めた場合に性能が向上 ※ ∆$: Kendallの相関係数の差

結論 - 18 - ▪ 問題点 • 機械翻訳の評価において，BLEUやMETEORといった Rule-basedの⼿法は，⼈間による評価との相関が低い ▪
提案⼿法 • 機械翻訳における学習可能な⾃動評価尺度COMETを提案 • Reference，Source，Hypothesisを⼊⼒とし，⼈間による評価を学習 ▪ 様々な機械翻訳評価タスクにおいて既存⼿法を上回る性能

Appendix：DA - 20 - ▪ DA (Direct Assessment)[Graham+, LAW13]：連続的な評価スケール Continuous
Measurement Scales [Graham+, LAW13] Continuous rating scale Likert-type scale

Appendix：TER, HTER - 21 - ▪ TER [Snover+, AMTA06]：事前に作成されたReferenceを⽤いて評価 ▪
HTER [Snover+, AMTA06] • 以下の処理により動的に新たなReferenceを⽣成して評価 • Step1：作業者にHypothesisとReferenceを提⽰ • Step2：作業者はReferenceをもとにHypothesisを編集し，新たにTargeted Referenceを作成 • Step3：Targeted Referenceを⽤いてTERと同様にScoreを計算 ※S：ReferenceとHypothesisを⽐較した時の置換語数, I：ReferenceとHypothesisを⽐較した時の挿⼊語数 D：ReferenceとHypothesisを⽐較した時の脱落語数, M : 単語もしくは単語列のシフト回数 T：Referenceの単語数

Appendix：MQM - 22 - ▪ MQM：Multidimensional Quality Metric • エラーの度合いに応じて，Minor
/ Major / Criticalの3つに分類 !!"#$% ：Minor Errorの数， !!&'$% ：Major Errorの数， !(%"). ：Critical Errorの数

Appendix：BERT Score - 23 - ▪ BERT Score [Zhang+, ICLR20]
• 事前学習されたBERT [Devlin+, NAACL19]から得られるベクトル表現を利⽤して，トークン間のcos類似度を計算 • 最後にPrecision, Recall, F値を計算

Appendix：BLEU - 24 - ▪ BLEU [Papineni+, ACL02] • !-gramのうち，どの程度が正解テキストに含まれているかを評価
• 出⼒テキストの⻑さに対する制約であるBP (Brevity Penalty)を導⼊ BLEU = BP× exp / !"# $ 0! log 4! = 短い翻訳へのPenalty × 9 − gram精度の幾何平均ただし， LM = N 1 if P ≥ R S(#&'/)) if P ≤ R , 0! = ∑+ 5−gramの⼀致数 ∑+ 全5−gram数 P : 翻訳⽂の⻑さ R : referenceの⻑さ ,! : 重み (Baselineでは,! = 1/N)

Appendix：Kendallの相関係数 - 25 - ▪ Kendallの相関係数：⼤⼩関係の⼀致率に基づいた相関係数ただし，

[Journal club] COMET: A Neural Framework for MT...

[Journal club] COMET: A Neural Framework for MT Evaluation

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾⼤学杉浦孔明研究室 B4 齋藤⼤地 COMET: A Neural Framework for MT

背景：Rule-basedの評価指標は⼈間による評価との相関が低い - 3 - ▪ Rule-basedの評価指標 • BLEU [Papineni+, ACL02]やMETEOR

既存研究：学習可能な既存尺度は改善が必要 - 4 - ▪ RUSE [Shimanaka+, WMT18] • MLPにより⼈間による評価を回帰

提案⼿法：COMET - 5 - ▪ 機械翻訳における学習可能な⾃動評価尺度COMETを提案 • Reference，Source，Hypothesisを⼊⼒とし，⼈間による評価を学習 ▪ 2種類のモデルを提案

Estimator Model：⼈間による評価を直接回帰 - 6 - ▪ Source #，Hypothesis ℎ，Reference $の埋め込み表現から

Estimator Model：⼈間による評価を直接回帰 - 7 - ▪ Source #，Hypothesis ℎ，Reference $の埋め込み表現から

Translation Ranking Model①：%Iが%Jよりも⾼いScoreとなるように最適化 - 8 - ▪ ⼊⼒：Better Hypothesis ℎIとWorse

- 9 - ▪ 推論時， Hypothesis hを⼊⼒として加えた #, * ℎ,

実験設定：3つのモデルを⽤意 - 10 - ▪ Estimator Model • COMET-HTER：4つの⾔語ペアで学習しHTERを回帰 •

実験設定：3つのモデルを⽤意 - 11 - ▪ Estimator Model • COMET-HTER：4つの⾔語ペアで学習しHTERを回帰 •

定量的結果①：英語から他⾔語への翻訳評価タスクで既存⼿法を上回る - 12 - ▪ 英語から他⾔語への翻訳において，Kendallの相関係数で評価 ▪ ベースライン • BLEU[Papineni+,

定量的結果②：英語以外の翻訳評価タスクにおいて既存⼿法を上回る - 13 - ▪ 英語を含まない⾔語ペアにおける翻訳評価 • 英語を含む⾔語ペアしか学習していないのにも拘らず，既存⼿法を上回る性能

定量的結果③：複数の翻訳器に対する翻訳評価で既存⼿法を上回る - 14 - ▪ 複数の翻訳器に対する評価を⽐較 • ⽤意した翻訳器のうち，性能の⾼い上位 !

Ablation Study：Sourceを⼊⼒に含めることで性能が向上 - 15 - ▪ SourceをInputに含める場合の性能への寄与を調査 ▪ 2種類のモデルを⽤意 1.

結論 - 18 - ▪ 問題点 • 機械翻訳の評価において，BLEUやMETEORといった Rule-basedの⼿法は，⼈間による評価との相関が低い ▪

Appendix：DA - 20 - ▪ DA (Direct Assessment)[Graham+, LAW13]：連続的な評価スケール Continuous

Appendix：TER, HTER - 21 - ▪ TER [Snover+, AMTA06]：事前に作成されたReferenceを⽤いて評価 ▪

Appendix：MQM - 22 - ▪ MQM：Multidimensional Quality Metric • エラーの度合いに応じて，Minor

Appendix：BERT Score - 23 - ▪ BERT Score [Zhang+, ICLR20]

Appendix：BLEU - 24 - ▪ BLEU [Papineni+, ACL02] • !-gramのうち，どの程度が正解テキストに含まれているかを評価

Appendix：Kendallの相関係数 - 25 - ▪ Kendallの相関係数：⼤⼩関係の⼀致率に基づいた相関係数ただし，