文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity

Beyond BLEU: Training Neural Machine Translation with Semantic Similarity 文献紹介
2019/09/27  長岡技術科学大学自然言語処理研究室  稲岡　夢人 

Literature 2

Abstract • 近年の研究ではを明示的に最大化させるようにシステムを最適化させている ← は部分点を与えず、意味類似性を考慮しない • システムを最適化するための報酬関数を提案 →
、意味的類似性、人手評価が向上 3

Introduction • では自動評価指標を明示的に最大化するよう学習させるのが一般的（例えば） • 学習基準にを用いるのには問題がある ◦ 意味が類似していても単語が違えばペナルティ
◦ 部分点がないため学習で山登りが出来ない 4

Proposed method • の報酬として意味的類似性の尺度を導入 • 意味類似性、部分点の問題に対応 • より重要な意味を持つ単語を正確に翻訳できる 5

Semantic Textual Similarity • では文の意味的類似度を出す必要がある • 今回はの研究であるを用いる ◦
逆翻訳で生成した言い換えペアのデータセット ◦ 言い換えモデルから文の分散表現を獲得 6

STS model • ベースはと同じ • 文埋め込みはの平均 • 文類似度は
つの文埋め込みのコサイン類似度 7

Length Penalty • 前述の方法では長い文の生成を妨げるものがない → 長い文にペナルティを与える必要がある • のを基にして、長さが異なるときにペナルティが加わるようにする
8

SIMILE • とを用いてを定義 • の影響を小さくする α ことでわずかに改善 9

Motivation • 意味類似度タスクとして各指標を評価 • よりも高い 10

Motivation • とを機械翻訳指標として比較 • で人手評価との相関を計算 11

Motivation • 意味類似度タスクと翻訳評価で傾向が異なるやは流暢性も捕捉する指標であるため 12

Machine Translation model • 学習手順はと同じ • モデルは • 他パラメータは論文を参照
13

Objective Functions • 基本はと同じ • コストにはまたはを用いる •
は全てのにを加えてスムージング 14

Experiments • チェコ語ドイツ語ロシア語トルコ語から英語への翻訳で評価 • 以外は
をとして学習とのを使用 • はをとして学習にはとのとのを使用 • はを使用 15

Automatic Evaluation • 以下の目的関数で実験 ◦ ◦ ◦ ◦ − •
とで評価 16

Results (AE) • の両方でが最高性能 • の評価においてもコストはのほうが高性能 17

Human Evaluation • コストにとを使った時を人手評価で比較 • コストを変化させた時に出力が変化するものの内、～トークンのものからランダムに
文を抽出 • 参照文の持つ情報を出力文が伝えているかどうか、～のスコアを付与 18

Results (HE) • が以外で最も高いスコアはも最低 • 翻訳品質が低すぎると
は効果的でないという仮説 19

Quantitative Analysis • が最も高いので分析 ◦ 部分点 ◦ ◦
◦ • 今回はとの結果のみ紹介する 20

Partial Credit (cost dist.) • の分布は歪んでおりコストが大きい → 学習時の情報が少ない 21

Lexical F1 • 翻訳のどこが改善するかを頻度と品詞別に分析 22

Lexical F1 (Frequency) • 低頻度単語の生成をより助ける 23

Lexical F1 (POS) • 名詞、固有名詞、数字といった文の意味への影響が大きな品詞でより貢献している 24

Conclusion • 報酬としてに変わるを提案 • が自動評価でより優れており、人手評価との相関も高い •
意味的に重要な単語への貢献が大きい 25

文献紹介: Beyond BLEU: Training Neural Machine Tran...

文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity

Yumeto Inaoka

More Decks by Yumeto Inaoka

Other Decks in Research

Featured

Transcript

Beyond BLEU: Training Neural Machine Translation with Semantic Similarity 文献紹介

Literature 2

Abstract • 近年の研究ではを明示的に最大化させるようにシステムを最適化させている ← は部分点を与えず、意味類似性を考慮しない • システムを最適化するための報酬関数を提案 →

Introduction • では自動評価指標を明示的に最大化するよう学習させるのが一般的（例えば） • 学習基準にを用いるのには問題がある ◦ 意味が類似していても単語が違えばペナルティ

Proposed method • の報酬として意味的類似性の尺度を導入 • 意味類似性、部分点の問題に対応 • より重要な意味を持つ単語を正確に翻訳できる 5

Semantic Textual Similarity • では文の意味的類似度を出す必要がある • 今回はの研究であるを用いる ◦

STS model • ベースはと同じ • 文埋め込みはの平均 • 文類似度は

Length Penalty • 前述の方法では長い文の生成を妨げるものがない → 長い文にペナルティを与える必要がある • のを基にして、長さが異なるときにペナルティが加わるようにする

SIMILE • とを用いてを定義 • の影響を小さくする α ことでわずかに改善 9

Motivation • 意味類似度タスクとして各指標を評価 • よりも高い 10

Motivation • とを機械翻訳指標として比較 • で人手評価との相関を計算 11

Motivation • 意味類似度タスクと翻訳評価で傾向が異なるやは流暢性も捕捉する指標であるため 12

Machine Translation model • 学習手順はと同じ • モデルは • 他パラメータは論文を参照

Objective Functions • 基本はと同じ • コストにはまたはを用いる •

Experiments • チェコ語ドイツ語ロシア語トルコ語から英語への翻訳で評価 • 以外は

Automatic Evaluation • 以下の目的関数で実験 ◦ ◦ ◦ ◦ − •

Results (AE) • の両方でが最高性能 • の評価においてもコストはのほうが高性能 17

Human Evaluation • コストにとを使った時を人手評価で比較 • コストを変化させた時に出力が変化するものの内、～トークンのものからランダムに

Results (HE) • が以外で最も高いスコアはも最低 • 翻訳品質が低すぎると

Quantitative Analysis • が最も高いので分析 ◦ 部分点 ◦ ◦

Partial Credit (cost dist.) • の分布は歪んでおりコストが大きい → 学習時の情報が少ない 21

Lexical F1 • 翻訳のどこが改善するかを頻度と品詞別に分析 22

Lexical F1 (Frequency) • 低頻度単語の生成をより助ける 23

Lexical F1 (POS) • 名詞、固有名詞、数字といった文の意味への影響が大きな品詞でより貢献している 24

Conclusion • 報酬としてに変わるを提案 • が自動評価でより優れており、人手評価との相関も高い •