$30 off During Our Annual Pro Sale. View Details »

文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity

Yumeto Inaoka
September 27, 2019

文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity

2019/09/27の文献紹介で発表

Yumeto Inaoka

September 27, 2019
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Beyond BLEU:
    Training Neural Machine Translation
    with Semantic Similarity
    文献紹介 2019/09/27

    長岡技術科学大学 自然言語処理研究室

    稲岡 夢人


    View Slide

  2. Literature
    2

    View Slide

  3. Abstract
    ● 近年の研究では を明示的に最大化させるように
    システムを最適化させている
    ← は部分点を与えず、意味類似性を考慮しない
    ● システムを最適化するための報酬関数を提案
    → 、意味的類似性、人手評価が向上
    3

    View Slide

  4. Introduction
    ● では自動評価指標を明示的に最大化するよう
    学習させるのが一般的(例えば )
    ● 学習基準に を用いるのには問題がある
    ○ 意味が類似していても単語が違えばペナルティ
    ○ 部分点がないため学習で山登りが出来ない
    4

    View Slide

  5. Proposed method
    ● の報酬として意味的類似性の尺度 を導入
    ● 意味類似性、部分点の問題に対応
    ● より重要な意味を持つ単語を正確に翻訳できる
    5

    View Slide

  6. Semantic Textual Similarity
    ● では文の意味的類似度を出す必要がある
    ● 今回は の研究である を用いる
    ○ 逆翻訳で生成した言い換えペアのデータセット
    ○ 言い換えモデルから文の分散表現を獲得
    6

    View Slide

  7. STS model
    ● ベースは と同じ
    ● 文埋め込みは の平均
    ● 文類似度は つの文埋め込みのコサイン類似度
    7

    View Slide

  8. Length Penalty
    ● 前述の方法では長い文の生成を妨げるものがない
    → 長い文にペナルティを与える必要がある
    ● の を基にして、
    長さが異なるときにペナルティが加わるようにする
    8

    View Slide

  9. SIMILE
    ● と を用いて を定義
    ● の影響を小さくする α ことでわずかに改善
    9

    View Slide

  10. Motivation
    ● 意味類似度タスクとして各指標を評価
    ● よりも高い
    10

    View Slide

  11. Motivation
    ● と を機械翻訳指標として比較
    ● で人手評価との相関を計算
    11

    View Slide

  12. Motivation
    ● 意味類似度タスクと翻訳評価で傾向が異なる
    や は流暢性も捕捉する指標であるため
    12

    View Slide

  13. Machine Translation model
    ● 学習手順は と同じ
    ● モデルは
    ● 他パラメータは論文を参照
    13

    View Slide

  14. Objective Functions
    ● 基本は と同じ
    ● コストには または を用いる
    ● は全ての に を加えてスムージング
    14

    View Slide

  15. Experiments
    ● チェコ語 ドイツ語 ロシア語 トルコ語
    から英語 への翻訳で評価
    ● 以外は を として学習
    と の を使用
    ● は を として学習
    には と の と
    の を使用
    ● は を使用
    15

    View Slide

  16. Automatic Evaluation
    ● 以下の目的関数で実験



    ○ −
    ● と で評価
    16

    View Slide

  17. Results (AE)
    ● の両方で が最高性能
    ● の評価においてもコストは のほうが高性能
    17

    View Slide

  18. Human Evaluation
    ● コストに と を使った時を人手評価で比較
    ● コストを変化させた時に出力が変化するものの内、
    ~ トークンのものからランダムに 文を抽出
    ● 参照文の持つ情報を出力文が伝えているかどうか、
    ~ のスコアを付与
    18

    View Slide

  19. Results (HE)
    ● が 以外で
    最も高いスコア
    は も最低
    ● 翻訳品質が低すぎると
    は効果的でない
    という仮説
    19

    View Slide

  20. Quantitative Analysis
    ● が最も高い の で分析
    ○ 部分点



    ● 今回は と の結果のみ紹介する
    20

    View Slide

  21. Partial Credit (cost dist.)
    ● の分布は歪んでおり
    コストが大きい
    → 学習時の情報が少ない
    21

    View Slide

  22. Lexical F1
    ● 翻訳のどこが改善するか
    を頻度と品詞別に分析
    22

    View Slide

  23. Lexical F1 (Frequency)
    ● 低頻度単語の生成をより助ける
    23

    View Slide

  24. Lexical F1 (POS)
    ● 名詞、固有名詞、数字といった文の意味への影響が
    大きな品詞でより貢献している
    24

    View Slide

  25. Conclusion
    ● 報酬として に変わる を提案
    ● が自動評価で より優れており、
    人手評価との相関も高い
    ● 意味的に重要な単語への貢献が大きい
    25

    View Slide