Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings

Improving Word Sense Disambiguation in Neural Machine Translation with Sense
Embeddings Annette Rios and Laura Mascarell and Rico Sennrich 2018 7/25 文献紹介長岡技術科学大学自然言語処理研究室福嶋　真也 Proceedings of the Conference on Machine Translation (WMT), Volume 1: Research Papers, pages 11–19 Copenhagen, Denmark, September 711, 2017.

2 Abstract • NMTにおけるWSDの能力は定量化されていない。 • NMTにおけるWSDの能力を評価するための新しいcloss – lingual WSD task
をデザインした。 • German-English, German-Frenchでそれぞれテストデータを作成し、評価を行った。

3 introduction • 機械翻訳において、正確な翻訳文を生成するためには与えられた文脈から正確な意味を決定しなければならない。 • エラーは間違った翻訳や理解不能な翻訳を生み出すが、どのタイプのエラーが難しいかは定量化されていない。 →BLEUのような自動評価では詳細な解析が出来ないため •
機械翻訳のための語彙選択を評価する手法はいくつか提案されている。しかし、同義語や言い換えなども罰されてしまう。

4 introduction • 提案するタスクではシステムに決められた翻訳セットから１つの翻訳を選択するように制限。 • 大規模かつ再現可能な方法でWSDの評価を行いたい。 →NMTでは、文のペアに対して条件付き確率P（T｜S）が割り当てられることを利用する。 ※S：元の文、T:翻訳文
• 曖昧性によるエラーを含む文とリファレンスでNMTモデルのスコアを計算し、比較することでどのくらいうまく語義を区別できているか評価する。

5 Test Set • 作成法対訳コーパスのリファレンスから曖昧性のある語を別の意味に置き換えて、別の翻訳結果を自動的に作る。 →作成には対訳コーパス、語義曖昧性を持つ名詞を　集めたものが必要。例：

6 Test Set • テストデータとなる文の収集・語義曖昧性を持つ語：既存のフレーズベースのMTシステムにある語彙の変換表からドイツ語の語義曖昧性を持つ語を抽出。・対訳コーパス：右図中の対訳コーパスを使用
(German-French, German-English,)

7 Approach • ベースラインと２つのWSDの手法を用いる。・ベースライン：最も頻出する意味を用いる。・Sense Embeddings: SenseGram(Pelevina et al.,
2016)を用いてSense Embeddingsを計算、学習して共起表現から語義を決定する手法。・Lexical chain: SenseGramを用いて意味的に似ている語を集め、それぞれの embeddingを連結させたものを語のベクトル表現として用いる手法。

8 Evaluation • ２つのNMTシステムを使用。・学習:210万文（EuroparlとNews Commentaryより）・byte pair encoding(Sennrich et
al.,2016b)とNematus (Sennrich et al., 2017)を使用・Adam (Kingma and Ba, 2015)を使い、パラメータを更新・minibatch size : 80

9 Result • accuracyの比較 Human:N=100-150 (Random sampling)

10 Result • トレーニングセット中の出現頻度ごとの正解率

11 Conclusion • NMTモデルを評価するための新たな語彙選択タスクを紹介し、German-English、German-Frenchのテストセットを提示した。 • このタスクではNMTモデルにおける語彙の曖昧性解消についての能力を自動的かつ定量的に解析できる。 • 実験では、ベースラインは学習データに頻出しない語義に弱いが、提
案した２つの手法ではそれに対して改善が見られた。 • 人間とNMTモデルの比較で、このタスクを解くためには文書の文脈を広げる必要がある。

Improving Word Sense Disambiguation in Neural M...

Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings

masaya82

More Decks by masaya82

Featured

Transcript