Slide 1

Slide 1 text

Beyond BLEU: Training Neural Machine Translation with Semantic Similarity 文献紹介 2019/09/27
 長岡技術科学大学 自然言語処理研究室
 稲岡 夢人


Slide 2

Slide 2 text

Literature 2

Slide 3

Slide 3 text

Abstract ● 近年の研究では を明示的に最大化させるように システムを最適化させている ← は部分点を与えず、意味類似性を考慮しない ● システムを最適化するための報酬関数を提案 → 、意味的類似性、人手評価が向上 3

Slide 4

Slide 4 text

Introduction ● では自動評価指標を明示的に最大化するよう 学習させるのが一般的(例えば ) ● 学習基準に を用いるのには問題がある ○ 意味が類似していても単語が違えばペナルティ ○ 部分点がないため学習で山登りが出来ない 4

Slide 5

Slide 5 text

Proposed method ● の報酬として意味的類似性の尺度 を導入 ● 意味類似性、部分点の問題に対応 ● より重要な意味を持つ単語を正確に翻訳できる 5

Slide 6

Slide 6 text

Semantic Textual Similarity ● では文の意味的類似度を出す必要がある ● 今回は の研究である を用いる ○ 逆翻訳で生成した言い換えペアのデータセット ○ 言い換えモデルから文の分散表現を獲得 6

Slide 7

Slide 7 text

STS model ● ベースは と同じ ● 文埋め込みは の平均 ● 文類似度は つの文埋め込みのコサイン類似度 7

Slide 8

Slide 8 text

Length Penalty ● 前述の方法では長い文の生成を妨げるものがない → 長い文にペナルティを与える必要がある ● の を基にして、 長さが異なるときにペナルティが加わるようにする 8

Slide 9

Slide 9 text

SIMILE ● と を用いて を定義 ● の影響を小さくする α ことでわずかに改善 9

Slide 10

Slide 10 text

Motivation ● 意味類似度タスクとして各指標を評価 ● よりも高い 10

Slide 11

Slide 11 text

Motivation ● と を機械翻訳指標として比較 ● で人手評価との相関を計算 11

Slide 12

Slide 12 text

Motivation ● 意味類似度タスクと翻訳評価で傾向が異なる や は流暢性も捕捉する指標であるため 12

Slide 13

Slide 13 text

Machine Translation model ● 学習手順は と同じ ● モデルは ● 他パラメータは論文を参照 13

Slide 14

Slide 14 text

Objective Functions ● 基本は と同じ ● コストには または を用いる ● は全ての に を加えてスムージング 14

Slide 15

Slide 15 text

Experiments ● チェコ語 ドイツ語 ロシア語 トルコ語 から英語 への翻訳で評価 ● 以外は を として学習 と の を使用 ● は を として学習 には と の と の を使用 ● は を使用 15

Slide 16

Slide 16 text

Automatic Evaluation ● 以下の目的関数で実験 ○ ○ ○ ○ − ● と で評価 16

Slide 17

Slide 17 text

Results (AE) ● の両方で が最高性能 ● の評価においてもコストは のほうが高性能 17

Slide 18

Slide 18 text

Human Evaluation ● コストに と を使った時を人手評価で比較 ● コストを変化させた時に出力が変化するものの内、 ~ トークンのものからランダムに 文を抽出 ● 参照文の持つ情報を出力文が伝えているかどうか、 ~ のスコアを付与 18

Slide 19

Slide 19 text

Results (HE) ● が 以外で 最も高いスコア は も最低 ● 翻訳品質が低すぎると は効果的でない という仮説 19

Slide 20

Slide 20 text

Quantitative Analysis ● が最も高い の で分析 ○ 部分点 ○ ○ ○ ● 今回は と の結果のみ紹介する 20

Slide 21

Slide 21 text

Partial Credit (cost dist.) ● の分布は歪んでおり コストが大きい → 学習時の情報が少ない 21

Slide 22

Slide 22 text

Lexical F1 ● 翻訳のどこが改善するか を頻度と品詞別に分析 22

Slide 23

Slide 23 text

Lexical F1 (Frequency) ● 低頻度単語の生成をより助ける 23

Slide 24

Slide 24 text

Lexical F1 (POS) ● 名詞、固有名詞、数字といった文の意味への影響が 大きな品詞でより貢献している 24

Slide 25

Slide 25 text

Conclusion ● 報酬として に変わる を提案 ● が自動評価で より優れており、 人手評価との相関も高い ● 意味的に重要な単語への貢献が大きい 25