文献紹介：The Word Sense Disambiguation Test Suite at WMT18

The Word Sense Disambiguation Test Suite at WMT18 Annette Rios,
Mathias Muller, Rico Sennrich 2018 12/17 文献紹介長岡技術科学大学自然言語処理研究室福嶋　真也 Proceedings of the Third Conference on Machine Translation (WMT), Volume 2: Shared Task Papers, pages 588–596 Belgium, Brussels, October 31 - Novermber 1, 2018.

2 Abstract • Machine Translation(MT)におけるWSDの性能評価のためのテストセットを作成 • submissionされたシステムで評価し、いくつかの知見を得られた。

3 introduction • 自動翻訳において語義曖昧性解消は重要 →語義の選択ミスが翻訳に影響するため • BLUEなどの評価方法では、細かく評価することが出来ない • 以前の評価ではNMTが自然な翻訳をしているという結果
→しかし、妥当性があるとは限らない

4 introduction • 本論文での目的再現可能かつ半自動的な手法で WSDと妥当性の面から定量的な評価を行う。そのために・・・目的に適したテストセットと評価方法を提案

5 Test set ・評価の対象語義によって翻訳結果が異なるような語・テストセットの構築 ContraWSD (Rios Gonzales et
al., 2017) をベースに構築詳細は次ページヘ

6 Test set ・対象単語 Germanで語義曖昧性を持つ20個の単語（語義の総数：45個）・構成対象単語の語義それぞれに対して最大100個の例文を抽出した、合計3249個のGerman–English の
文のペア

7 Test set ・ベースとの変更点 MTシステムの出力（翻訳結果）を評価 →そのため翻訳結果が複数の意味にとれる単語を対象単語から削除例：De:Stelle　→ En: job
/ place Stelle position job? place?

8 Evaluation method • 自動評価と手作業での評価を併用・自動評価出力された文が・正しく翻訳できているか・正しくない場合、他の意味で翻訳が行われているか
を評価

9 Evaluation method ・自動評価 1.対象単語が正しく翻訳されている場合 →正しいと判断 2.対象単語が誤って翻訳されている場合 →誤りと判断 3.正しい翻訳と間違った翻訳が共に存在する場合 →手作業で検査
4.既知の翻訳結果とは異なる翻訳結果の場合 →手作業で検査

10 MT system evaluation • German-EnglishのWMT’18 shared translation に提出されたMTシステムを評価加えて、
・Edinburghらのneural system ・Edinburghらのsyntax-based system も評価

11 Result • accuracyとBLUEでの比較

12 Result • accuracyとBLUEでの比較

13 Result • システム間の比較 Unsupervised もしくはルールベースのシステム

14 Result • NMTシステムの比較・NMTシステムの改善

15 Conclusion • MTシステムにおける語彙選択のパフォーマンスを評価 • テストセットの作成で制約を加えることで、ほとんど自動で評価することが可能となった →ただし、この評価でも限界はある • 比較によって翻訳モデルが年々改善されていること、そして
教師なしのシステムはあまりMTシステムに向かないことが明らかになった

17 テストセット・対象単語

18 評価方法 • ３．の例

19 Future work • 今回は限定された名詞を使用して評価 →語彙選択の誤り問題において大部分を占める動　詞や副詞などを含むもので評価を行うことに興　味がある。

文献紹介：The Word Sense Disambiguation Test Suite a...

文献紹介：The Word Sense Disambiguation Test Suite at WMT18

masaya82

More Decks by masaya82

Featured

Transcript

The Word Sense Disambiguation Test Suite at WMT18 Annette Rios,

2 Abstract • Machine Translation(MT)におけるWSDの性能評価のためのテストセットを作成 • submissionされたシステムで評価し、いくつかの知見を得られた。

3 introduction • 自動翻訳において語義曖昧性解消は重要 →語義の選択ミスが翻訳に影響するため • BLUEなどの評価方法では、細かく評価することが出来ない • 以前の評価ではNMTが自然な翻訳をしているという結果

4 introduction • 本論文での目的再現可能かつ半自動的な手法で WSDと妥当性の面から定量的な評価を行う。そのために・・・目的に適したテストセットと評価方法を提案

5 Test set ・評価の対象語義によって翻訳結果が異なるような語・テストセットの構築 ContraWSD (Rios Gonzales et

6 Test set ・対象単語 Germanで語義曖昧性を持つ20個の単語（語義の総数：45個）・構成対象単語の語義それぞれに対して最大100個の例文を抽出した、合計3249個のGerman–English の

7 Test set ・ベースとの変更点 MTシステムの出力（翻訳結果）を評価 →そのため翻訳結果が複数の意味にとれる単語を対象単語から削除例：De:Stelle　→ En: job

8 Evaluation method • 自動評価と手作業での評価を併用・自動評価出力された文が・正しく翻訳できているか・正しくない場合、他の意味で翻訳が行われているか

9 Evaluation method ・自動評価 1.対象単語が正しく翻訳されている場合 →正しいと判断 2.対象単語が誤って翻訳されている場合 →誤りと判断 3.正しい翻訳と間違った翻訳が共に存在する場合 →手作業で検査

10 MT system evaluation • German-EnglishのWMT’18 shared translation に提出されたMTシステムを評価加えて、