2017/08/30の文献紹介で発表
Integrating Meaning into QualityEvaluation of Machine TranslationProceedings of EACL 2017, Vol. 1,Long Papers, pages 210-219.1文献紹介(2017/08/30)自然言語処理研究室 稲岡 夢人
View Slide
概要● 機械翻訳(MT)の品質はMTの出力と人間の翻訳を比較して評価している● 上のような評価は形式に関連した特徴(語彙や文法)に依存し意味の伝達は無視● 意味に関連する特徴と他の評価指標を組み合わせて人手評価を予測2
既存手法の問題点● MTはよく意味を保持しない翻訳を行う● BLEU, METEORはMTによる意味の変化を直接考慮して評価していない3
自動評価と人手評価の差人手評価で最低の評価となった4文1. badlyが消えて意味が失われている2. 否定文が肯定文になっている3. 不確かな情報を生成している4. 形式が異なっている4
自動評価と人手評価の差● MTの評価では主に語彙や文法に焦点を当てている● 下のような出力に高いスコアを与えやすい5
本研究で行っていること● 意味に関連する特徴が人手評価に影響を与えるのかを調べる● MTの評価における形式や意味に関連する特徴を比較● 形式と意味に関連する特徴を組み合わせることで既存の評価手法を改善できるか測定6
意味に関連した特徴● Sentiment Polarity : 肯定, 否定的な感情を持つか● Subjectivity : 意見を表現するか● Connotation : 文化, 感情的な連想● Negation : 肯定的記述を否定的に変化● Speculation : 確実性のレベルを表現● Readability : 文長, 音節数による可読性● Formality : 文が形式的であるか7
個々の特徴が品質に与える影響● それぞれの特徴と人手評価の相関を調べる● データセットはWMT15の目的言語が英語であるものを使用8
個々の特徴が品質に与える影響9
個々の特徴が品質に与える影響● ベースラインより意味関連の特徴が上回る● Formality-RBが最も相関の強い特徴● BLEU, METEOR, DPMFCombがそれより強い相関を示す10
複合の特徴が品質に与える影響● 意味に関する特徴を全て用いて利用● 意味に関する特徴全てとBLEU, METEOR,DPMFCombを組み合わせて利用● 上のアンサンブルシステムの構築にはRandomForestと呼ばれる手法を用いる11
複合の特徴が品質に与える影響12
複合の特徴が品質に与える影響● 意味に関連する特徴を複合したものはBLEUより優れている● それをBLEU, METEOR, DPMFcombと組み合わせるとさらに性能が向上● 従来の評価手法がこれらの特徴を補足できていないことを意味している13
結論● 人手評価によって高評価なMTシステムは意味に関連した特徴を保持する● 意味に関連した特徴を用いた評価は人手評価と高い相関を示す● 既存の評価手法と組み合わせることでより正確に人手評価を予測できる14