Upgrade to Pro — share decks privately, control downloads, hide ads and more …

語順の相関に基づく機械翻訳の自動評価方法

takegue
June 18, 2014

 語順の相関に基づく機械翻訳の自動評価方法

takegue

June 18, 2014
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. • 平尾努, 磯崎秀樹, 須藤克仁, K. Duh, and 塚田元, “語順の相 関に基づく機械翻訳の自動評価法,”

    自然言語処理. vol. 21, no.3, pp. 421–444, 2014. Abstract – 機械翻訳のタスクでの評価法の重要性 • 自動評価法の需要 • BLUE(2002)が 高い ≠ 日英翻訳の精度が高い – (言語の構造情報が大きく異なる) • ROUGE-L, IMPACT, METEOR, BLEU など… – 評価法を評価する(メタ評価) • 人間の感覚に近い(相関が高い)自動評価方法が必要 • NTCIR-7,NTCIR-9といった日英, 英日の特許翻訳タスク – RIBES(提案手法):語順を中心とした評価~人間の評価感覚 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 文献紹介:語順の相関に基づく機械翻訳の自動評価法 2014/6/19 lang1 lang2’’ SMT RBMT 参照翻訳 lang2’
  2. • BLEU(2002) – システム翻訳と参照翻訳のNグラム一致度で評価法 – 機械翻訳の自動評価法のデファクトスタンダード(実装が簡易) – Nグラムの一致 ≠ 参照翻訳の意味の一致

    の 問題 • 翻訳時の語順構造が異なる言語間では非常に起こりやすい c.f. 翻訳前に並び替えすることで翻訳精度が上がる(preordering) • 日英・英日翻訳では BLEUが高い ≠ 人の評価結果が高い(相関が低い) • ROUGE-L(2004), IMPACT(2007) – 大局的な語順構造を考慮した評価法。最長共通部分文字列(LCS) – BLUEと同様訳語の違いに敏感(訳語の意味の類似性が捉えられない) 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 既存の評価手法とその問題点 2014/6/19
  3. 原)雨にぬれたので、彼は風をひいた 訳)He caught a cold because he got soaked in

    the rain. 1:He caught a cold because he had gotten wet in the rain. 2:He got soaked in the rain because he caught a cold. 3:He caught a cold as a result of getting hit by the rain. 2は完全な間違い だが BLEU1と2ではほぼ差が付かない ROUGE-L, IMPACTでは差がつく しかし3の評価は低くなる傾向にある 2014/6/19 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 例
  4. • RIBES(2011~:提案手法) – 正規化されたKendall距離を利用した評価法 • Kendall距離 ・・・同じ並びなら1, 逆ならば-1, バラバラの場合0 –

    文の大局的な語順を考慮される – 参照翻訳とシステム翻訳とで一致しない単語を採点から除去 • LRscore(2011) – 文の大局的な語順が考慮される – 非線形変換されたKendall距離とBLEUスコアの線形補間 – 特殊な状況下でRIBESと一致(想定する対象言語が違う) 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 語順の相関に基づく評価手法 2014/6/19
  5. 1. 単語アライメント – 相関を求めるための単語アライメントを取る – 単語表層アライメント 2. 単語出現順の相関の算出 – Kendallの順位相関係数τを用いて評価を行う

    3. ペナルティ – 単語のアライメント結果だけでは不十分な可能性が高い – 単語正解率とBP(Brevity Penalty)によるペナルティ 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ RIBESにおける評価方法 2014/6/19
  6. 原)雨にぬれたので、彼は風をひいた 2014/6/19 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 例 r) he caught

    a cold because he got soaked in the rain. h) he got soaked in the rain because he caught a cold. r) he caught a cold because he got soaked in the rain. h) he caught a cold because he had gotten wet in the rain.
  7. • NTCIR-7, NTCIR-9の特許翻訳タスクを利用 – メタ評価対象は翻訳の内容としての適切性のみ(adequacy) • 翻訳の流暢性は考慮していない – BLEU, ROUGE-L,

    IMPACT, LRsocreの比較 • 参照翻訳それぞれのスコアの最大値 – メタ評価指標 • Pearsonの積率相関係数,Spearmanの順位相関係数, Kendallの順位相関係数の3種で評価 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ メタ評価タスク NTCIR 2014/6/19
  8. RIBESは単一・複数に関わらず安定している。 JEでは人評価と最も相関が高い手法である 2014/6/19 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 評価結果(NTCIR-7の結果) (Spearman) JE

    EJ RIBES 0.926 0.835 LRscore(dk1) 0.869 0.846 LRscore(dk2); 0.823 0.830 ROUGE-L 0.895 0.717 IMPACT 0.866 0.697 BLEU 0.588 0.676 JE EJ 0.954 0.923 0.936 0.843 0.916 0.833 0.970 0.925 0.957 0.857 0.827 0.722 単一参照文翻訳 複数参照文翻訳 EJ:検証システム 14(1), 評価者5, 文数100, JE:検証システム 15(2), 評価者3, 文数100
  9. RIBESは比較的安定。 ROUGE-L, IMPACT, BLEU は相関が弱くなる。 2014/6/19 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ

    評価結果(NTCIR-9の結果) (Spearman) JE EJ RIBES 0.614 0.895 LRscore(dk1) 0.630 0.889 LRscore(dk2) 0.489 0.873 ROUGE-L 0.292 0.249 IMPACT 0.29 0.132 BLEU -0.026 -0.032 単一参照文翻訳 JE:検証システム 19(6), 評価者1, 文数300, EJ:検証システム 17(5), 評価者1, 文数300 SMTのシステムが増えたことに起因 RIBESはSMTとRBMTの揺れが少ない ※LRScore は RIBESと同等と思われるが RBMTシステムに対しては相関が弱い
  10. • 機械翻訳におけるRIBESと既存の評価法のメタ評価 – BLEU, ROUGE-L, IMPACT の問題点および評価対象となる 翻訳システムにおける相関の特性について明らかにした。 – RIBES

    は 日英のSMT, RBMTにおいて有効な評価手法 – ただし本研究の着眼点はコーパス単位での平均的な評価法 より詳細な文単位での評価を見ることも機械翻訳研究の進展 のためには非常に重要である • 所感: – NLPにおける評価法の重要性(ユーザの視点 と 有意性) – コーパス、ツールの充実度の重要性 2014/6/19 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ まとめ
  11. • [1] 平尾努, 磯崎秀樹, K. Duh, 須藤克仁, 塚田元, and 永田昌明,

    “RIBES: 順位相関に基づく翻訳の自動評価法,” 言語処理学会第 17 年 次大会発表論文集, pp. 1111–1114, 2011. • [2] K. Papineni, S. Roukos, T. Ward, and W. Zhu, “Bleu : a Method for Automatic Evaluation of Machine Translation,” Proc. Annu. Meet. Assoc. Comput. Linguist. (ACL),, vol. 22176, no. RC22176, pp. 1–10, 2002. • [3] R. Bleu, B. Bleu, R. Ribes, B. Ribes, R. Ntcir-, and R. Ntcir, “言 語処理学会 第 20 回年次大会 発表論文集 (2014 年3月),” no. C, pp. 8–11, 2014. • [4] 磯崎秀樹, “最近の自動評価法の研究動向とRIBES,” in 平成24年 度AAMT/Japio特許翻訳研究会, 2012, vol. 7, pp. 1–62. 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ 参考文献 2014/6/19