Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介2021後期_Analyzing the Source and Target Contributions to Predictions in Neural Machine Translation

maskcott
October 22, 2021

論文紹介2021後期_Analyzing the Source and Target Contributions to Predictions in Neural Machine Translation

maskcott

October 22, 2021
Tweet

More Decks by maskcott

Other Decks in Research

Transcript

  1. 概要 • NMTにおいて単語生成時には src と prefix (過去のタイムステップで出力された部 分) の2つの文脈に影響を受ける •

    生成決定に対するソースとターゲットの相対的な貢献度を明示的に評価するため の手法は存在しない • Layerwise Relevance Propagation (LRP) を用いてこの評価を試みた 2
  2. 貢献 • NMT予測に src, tgt が貢献しているのかを評価する際の LRP の使い方を示した • 異なる

    prefix(リファレンス、モデルの出力、ランダム生成)における src と tgt の貢 献の変化 • プレフィックスがランダムのときにモデルが以前の出力に依存する傾向があること を確認した • データが多いほどモデルはsrcの情報に頼るようになり、よりシャープにトークンを 注意することがわかった • 学習プロセスはモノトニックではなくいくつかのステージに分かれることが確認でき た 3
  3. Layer-wise Relevance Propagation (LRP) • 画像処理分野にてBach et al. が2015年に提案した手法 •

    DNNの予測を単一の入力次元(画像: サブピクセル, トークン: エンべディング)に 対する “関連性スコア” に分解するフレームワーク • attention層のあるTransformerモデルにそのまま適用することができない 4
  4. LRPの設定 • 関連スコア を各層の各次元に定義 • 保存則 • 分配則 この条件を満たすために様々な手法があるが、 ここではLRP-αβを利用する

    5 l + 1 層 l 層 最終層 R i (l) R j (l+1) R j+3 (l+1 ) R j+1 (l+1 ) R j+2 (l+1 ) R k (l+2 ) ••• ••• f ••• ••• v ij ※ここのfはtop-1 logit
  5. Attention層への対処 • これまでの話は下のように表現できる構造をしているモデルに適用可能 各層は線形演算畳み込み演算を含んでおり、ReLUのような単調な活性化関数をLRPでは無視している (Bach et al., 2015) ⇨ attention層は線形演算ではないので適用不可

    (z ij に相当するものがない) ⇨                としてテイラー展開を用いて拡張する 7 任意のベクトルに対する変換をテイラー展開 元の式に代入 入力ニューロンごとに分割 このz ij を用いることで複雑な非線形層においても先の関連スコアの伝搬が可能になる TransformerにおいてAttention層で式(7)を適用する(任意のベクトルはゼロベクトルとする)
  6. 条件付き言語モデルへの適用 • 標準的な機械翻訳モデルは入力と既に生成されたトークンに基づいて出力トークン を決定 → 出力に関わる全てのトークンの貢献度を知りたい • エンコーダーデコーダー間にも伝搬を次の2ステップで適用 ◦ デコーダーを関連スコアが逆伝播するが一部がエンコーダーへ流れる

    (デコーダーはエンコーダー最終層の表現を用いるため) ◦ エンコーダーへ流れた関連スコアが伝播される ※ デコーダーの各層の関連スコアの合計は保存されない、全トークンの関連スコアの合計が予測値となる モデルの予測する単語候補の中で最も高い確率のものに対する貢献度で評価している 8 タイムステップtにおける関連スコアの制 約(top1 logitを1として正規化)
  7. 実験設定 • Transformer base model (Vaswani et al., 2017) •

    WMT14 En-Fr dataset (1m, 2.5m, 5m, 10m, 20m, 30m) • αβ-LRP (α = ½, β = ½), (α=1, β = 0)を試したが同様の傾向が見られたため、 論文では後者を利用 • 1000文からなる評価データを用いた平均で評価 各文の src, tgt のトークン数が揃ったデータセットになっている 9
  8. 結果 • ターゲット文の各単語が生成される時の ソース文の貢献度の割合 ◦ トークンが生成されるにつれてソースの貢献度 が下がっている • ターゲット文が生成される時のソース文の 各単語の貢献度

    ◦ 前の方の単語が後ろの方の単語よりも出力文 の生成に影響を与えている 10 さらに見やすさのため S/T 倍して総和を1にした EOSトークン
  9. prefixの影響 • Reference vs model prefixes (a, b) ◦ モデルの生成したprefixを与えた方がsrcの

    情報を多く利用し、より見るトークンを特定 できている → モデルの出力がより簡単なため • Reference vs random prefixes (c, d) ◦ 先行研究で述べられている NMTにおける 自己回復能力の影響が顕著に現れている 12
  10. Exposure Bias に関する分析 • Exposure bias (Ranzato et al.,2016) :

    学習時はリファレンスを与えられるのにテ スト時には出力結果に基づいた出力をするという問題 • Wang and Sennrich (2020) はNMTで問題になる幻覚現象(ソース文に全く関係 のない語を流暢に出力する)が、exposure biasに起因すると考え、Minimum Risk Training (MRT) を提案 • 実際にMRTは幻覚現象を低減したが、tgtへの過度の依存を直接測れなかった → 今回の提案手法で分析を行う • Exposure biasへのアプローチとしてword dropoutも比較対象として行う 13 文単位での目的関数
  11. • ランダムなprefixを入れたときMRTモデ ルはソースの影響が最も大きく、ソース の貢献も最も集中している • MRTは構造上、Exposure Biasを完全 に除去するため、他のモデルよりもラン ダムなprefixに惑わされない •

    tgt 側のword dropoutでもExposure Biasを僅かだが減少させるので、ソース の影響が大きくなる 15 → このように提案する分析方法が、機械翻訳だけでなく、より広く他の言語生成タスクにおいても、 Exposure Bias、ロバスト性、幻覚現象の研究に適用できる
  12. 18