Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Good for Misconceived Reasons: An Empirical Rev...

Avatar for tosho tosho
September 09, 2021

Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation

第13回最先端NLP勉強会(SNLP2021)発表資料

Avatar for tosho

tosho

September 09, 2021
Tweet

More Decks by tosho

Other Decks in Research

Transcript

  1. 論文紹介: Good for Misconceived Reasons: An Empirical Revisiting on the

    Need for Visual Context in Multimodal Machine Translation Zhiyong Wu, Lingpeng Kong, Wei Bi, Xiang Li, Ben Kao ACL 2021, https://aclanthology.org/2021.acl-long.480/ 発表者:平澤 寅庄(ひらさわ とうしょう) 東京都立大学小町研究室 D1  2021/9/16 第13回最先端NLP勉強会 
  2. 関連研究:マルチモーダル機械翻訳 言語+画像 言語+動画 5 図は Barrault et al., 2018. Findings

    of the Third Shared Task on Multimodal Machine Translation. WMT より引用 図は Wang et al., 2019. VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research. ICCV より引用
  3. Adversarial Evaluation [Elliott, 2018] 問題点 • 直感的ではない • 正規化、データバイアスなどの影響が明らかでない モデルの

    image awareness を評価 • 正しい (congruent) 画像を使用した性能と 正しくない (incongruent) 画像を使用した 性能の差を評価 • モデルの学習は congruent な画像を使用 関連研究:モデルは“マルチモーダル”なのか? 6 図は Elliott, 2018. Adversarial Evaluation of Multimodal Machine Translation. EMNLP より引用
  4. 視覚情報の関わりを明らかにするために 実験の方針 1. 入力文と視覚情報の特徴量を Gate する機構を持つ、2つのマルチモーダル 機械翻訳モデルを訓練する ◦ Gated fusion

    multimodal machine translation (MMT) model ◦ Retrieval-Augmented MMT 2. 正則化を働きをする手法を同じモデルに適用し、同様に訓練する 3. Gate の動きを比較する 7
  5. モデル2:Retrieval-Augmented MMT (RMMT) 入力文をクエリに検索した視覚情報を入力に使うモデル 1. 入力に関連する画像を検索し top-K (K=5) を取得する (

    Z ) 2. f_θ(∗)を用いて、抽出した Z をベクトル表現に変換する ◦ max-pooling over elements を使用 3. 変換した特徴量を用いて Gated fusion NMT と同様に計算する 9 画像 set max-pooling
  6. 実験設定 データセット:Multi30k, MSCOCO test set(曖昧語を含むテストセット) 画像検索モデル:Flickr30k で学習 ベースライン: • Transformer

    (base, small, tiny) • Conventional MMT models (Doubly-ATT, Imagination) • Retrieval-based MMT model (UVR-NMT) • Graph-based MMT model (GMNMT) • Dynamic context-guided capsule network (DCCN) 10
  7. MMTモデルは画像を見ているのか? Gate の重み (Λ) のマイクロ平均を計算 入力文・トークン毎の重みを平均 • 大きい → 視覚情報を使う

    • 小さい → 視覚情報を使わない Gated Fusion / RMMT の両モデル で非常に小さな値になる • 1e-10 より大きい重みはなし 結論: モデルは推論時に視覚情報を使って いない 16
  8. 学習するときに視覚情報は使われているか? 学習の初期では視覚情報を使っている → ResNet が有益な情報を抽出しているため 次第に視覚情報の重みが徐々に減っていく → textual encoder の学習が進み、入力文を品

    質良く表現できるようになったため マルチモーダルモデルが textual モデルに優る のはなぜか? → 視覚情報を入力に加えることが正則化の働き をしている、という仮説 17
  9. 実験結果(Random noise injection) Gate の重み (Λ):ResNet=97.7, Random Noise=95.2 → Random

    noise は視覚特徴量の結果が類似している → 視覚情報は random noise と同様の働き(=正則化)をしている 19 (カッコ内は画像特徴量を使った場合からの差分)
  10. どのような場合で視覚情報は有用か マスクされた入力文に対する性能を評価 Visual grounded tokens をマスクしたデータを 使い、学習と評価を行った • 出現回数 30+

    の単語(stop word 除く) • 全トークンの 45% に相当 Random noise injection や weight decay に比 べ、視覚特徴量を使うモデルは良い性能を達成 している → 入力文が不十分なときに、視覚特徴量は 役に立つ → 評価するためのベンチマークが必要 21
  11. 読んだ感想 • 現在のベンチマーク(Multi30k)では、十分にモデルのマルチモダール性を 評価できない、というのは納得感がある • 視覚情報を使うことの効果が、正則化であることがまだつながらない ◦ 正則化であるなら、Test2016 での性能向上よりも、domain shift

    した Test2017 や曖昧語を 含む MSCOCO での性能向上が顕著に現れても良さそうだが、そうではない • モデルの特性とデータセットの特性をどうやって切り分けるのだろうか? ◦ 現在のベンチマークで multimodality を活用できないのは、データセットが原因なのか、 それとも、(単純化された)モデルが原因なのか? ◦ 先行研究で Doubly-Att は高い image awareness を持つことは示されている 24