文献紹介:The Word Sense Disambiguation Test Suite at WMT18

029be5ac1ce0db70c46dcd7152308e2e?s=47 masaya82
December 16, 2018
29

文献紹介:The Word Sense Disambiguation Test Suite at WMT18

029be5ac1ce0db70c46dcd7152308e2e?s=128

masaya82

December 16, 2018
Tweet

Transcript

  1. The Word Sense Disambiguation Test Suite at WMT18 Annette Rios,

    Mathias Muller, Rico Sennrich 2018 12/17 文献紹介 長岡技術科学大学 自然言語処理研究室 福嶋 真也 Proceedings of the Third Conference on Machine Translation (WMT), Volume 2: Shared Task Papers, pages 588–596 Belgium, Brussels, October 31 - Novermber 1, 2018.
  2. 2 Abstract • Machine Translation(MT)におけるWSDの性能評 価のためのテストセットを作成 • submissionされたシステムで評価し、いくつかの知 見を得られた。

  3. 3 introduction • 自動翻訳において語義曖昧性解消は重要 →語義の選択ミスが翻訳に影響するため • BLUEなどの評価方法では、細かく評価することが 出来ない • 以前の評価ではNMTが自然な翻訳をしているという結果

    →しかし、妥当性があるとは限らない
  4. 4 introduction • 本論文での目的 再現可能かつ半自動的な手法で WSDと妥当性の面から定量的な評価を行う。 そのために・・・ 目的に適したテストセットと評価方法を提案

  5. 5 Test set ・評価の対象 語義によって翻訳結果が異なるような語 ・テストセットの構築 ContraWSD (Rios Gonzales et

    al., 2017) をベースに構築 詳細は次ページヘ
  6. 6 Test set ・対象単語 Germanで語義曖昧性を持つ20個の単語 (語義の総数:45個) ・構成 対象単語の語義それぞれに対して最大100個の 例文を抽出した、合計3249個のGerman–English の

    文のペア
  7. 7 Test set ・ベースとの変更点 MTシステムの出力(翻訳結果)を評価 →そのため翻訳結果が複数の意味にとれる単語を 対象単語から削除 例:De:Stelle → En: job

    / place Stelle position job? place?
  8. 8 Evaluation method • 自動評価と手作業での評価を併用 ・自動評価 出力された文が ・正しく翻訳できているか ・正しくない場合、他の意味で翻訳が 行われているか

    を評価
  9. 9 Evaluation method ・自動評価 1.対象単語が正しく翻訳されている場合 →正しいと判断 2.対象単語が誤って翻訳されている場合 →誤りと判断 3.正しい翻訳と間違った翻訳が共に存在する場合 →手作業で検査

    4.既知の翻訳結果とは異なる翻訳結果の場合 →手作業で検査
  10. 10 MT system evaluation • German-EnglishのWMT’18 shared translation に提出されたMTシステムを評価 加えて、

    ・Edinburghらのneural system ・Edinburghらのsyntax-based system も評価
  11. 11 Result • accuracyとBLUEでの比較

  12. 12 Result • accuracyとBLUEでの比較

  13. 13 Result • システム間の比較 Unsupervised もしくは ルールベースのシステム

  14. 14 Result • NMTシステムの比較 ・NMTシステムの改善

  15. 15 Conclusion • MTシステムにおける語彙選択のパフォーマンスを評価 • テストセットの作成で制約を加えることで、ほとんど自動で 評価することが可能となった →ただし、この評価でも限界はある • 比較によって翻訳モデルが年々改善されていること、そして

    教師なしのシステムはあまりMTシステムに向かないことが 明らかになった
  16. 16

  17. 17 テストセット ・対象単語

  18. 18 評価方法 • 3.の例

  19. 19 Future work • 今回は限定された名詞を使用して評価 →語彙選択の誤り問題において大部分を占める動  詞や副詞などを含むもので評価を行うことに興  味がある。