文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity

F637b583c221c132af26c91cb3dba0ca?s=47 Yumeto Inaoka
September 27, 2019

文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity

2019/09/27の文献紹介で発表

F637b583c221c132af26c91cb3dba0ca?s=128

Yumeto Inaoka

September 27, 2019
Tweet

Transcript

  1. Beyond BLEU: Training Neural Machine Translation with Semantic Similarity 文献紹介

    2019/09/27
 長岡技術科学大学 自然言語処理研究室
 稲岡 夢人

  2. Literature 2

  3. Abstract • 近年の研究では を明示的に最大化させるように システムを最適化させている ← は部分点を与えず、意味類似性を考慮しない • システムを最適化するための報酬関数を提案 →

    、意味的類似性、人手評価が向上 3
  4. Introduction • では自動評価指標を明示的に最大化するよう 学習させるのが一般的(例えば ) • 学習基準に を用いるのには問題がある ◦ 意味が類似していても単語が違えばペナルティ

    ◦ 部分点がないため学習で山登りが出来ない 4
  5. Proposed method • の報酬として意味的類似性の尺度 を導入 • 意味類似性、部分点の問題に対応 • より重要な意味を持つ単語を正確に翻訳できる 5

  6. Semantic Textual Similarity • では文の意味的類似度を出す必要がある • 今回は の研究である を用いる ◦

    逆翻訳で生成した言い換えペアのデータセット ◦ 言い換えモデルから文の分散表現を獲得 6
  7. STS model • ベースは と同じ • 文埋め込みは の平均 • 文類似度は

    つの文埋め込みのコサイン類似度 7
  8. Length Penalty • 前述の方法では長い文の生成を妨げるものがない → 長い文にペナルティを与える必要がある • の を基にして、 長さが異なるときにペナルティが加わるようにする

    8
  9. SIMILE • と を用いて を定義 • の影響を小さくする α ことでわずかに改善 9

  10. Motivation • 意味類似度タスクとして各指標を評価 • よりも高い 10

  11. Motivation • と を機械翻訳指標として比較 • で人手評価との相関を計算 11

  12. Motivation • 意味類似度タスクと翻訳評価で傾向が異なる や は流暢性も捕捉する指標であるため 12

  13. Machine Translation model • 学習手順は と同じ • モデルは • 他パラメータは論文を参照

    13
  14. Objective Functions • 基本は と同じ • コストには または を用いる •

    は全ての に を加えてスムージング 14
  15. Experiments • チェコ語 ドイツ語 ロシア語 トルコ語 から英語 への翻訳で評価 • 以外は

    を として学習 と の を使用 • は を として学習 には と の と の を使用 • は を使用 15
  16. Automatic Evaluation • 以下の目的関数で実験 ◦ ◦ ◦ ◦ − •

    と で評価 16
  17. Results (AE) • の両方で が最高性能 • の評価においてもコストは のほうが高性能 17

  18. Human Evaluation • コストに と を使った時を人手評価で比較 • コストを変化させた時に出力が変化するものの内、 ~ トークンのものからランダムに

    文を抽出 • 参照文の持つ情報を出力文が伝えているかどうか、 ~ のスコアを付与 18
  19. Results (HE) • が 以外で 最も高いスコア は も最低 • 翻訳品質が低すぎると

    は効果的でない という仮説 19
  20. Quantitative Analysis • が最も高い の で分析 ◦ 部分点 ◦ ◦

    ◦ • 今回は と の結果のみ紹介する 20
  21. Partial Credit (cost dist.) • の分布は歪んでおり コストが大きい → 学習時の情報が少ない 21

  22. Lexical F1 • 翻訳のどこが改善するか を頻度と品詞別に分析 22

  23. Lexical F1 (Frequency) • 低頻度単語の生成をより助ける 23

  24. Lexical F1 (POS) • 名詞、固有名詞、数字といった文の意味への影響が 大きな品詞でより貢献している 24

  25. Conclusion • 報酬として に変わる を提案 • が自動評価で より優れており、 人手評価との相関も高い •

    意味的に重要な単語への貢献が大きい 25