Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation

論文紹介: Good for Misconceived Reasons: An Empirical Revisiting on the
Need for Visual Context in Multimodal Machine Translation Zhiyong Wu, Lingpeng Kong, Wei Bi, Xiang Li, Ben Kao ACL 2021, https://aclanthology.org/2021.acl-long.480/ 発表者：平澤寅庄（ひらさわとうしょう）東京都立大学小町研究室 D1　 2021/9/16 第13回最先端NLP勉強会　

注釈のない図表は論文から引用されたものです 2

この論文について読んだ理由 • Multimodality のうれしみを評価する手法を知っておくのは重要 • 視覚情報の効果を同定しているが、その過程に興味があった 3

どんな論文か？タスク：マルチモーダル機械翻訳（言語＋画像、言語＋動画、etc）分かったこと： • マルチモーダルな入力を使うことで正則化の効果を得られる • 既存のデータセットで訓練したモデルは視覚情報を無視する • 入力文がマスクされていると、モデルは視覚情報を活用する 4

関連研究：マルチモーダル機械翻訳言語＋画像言語＋動画 5 図は Barrault et al., 2018. Findings
of the Third Shared Task on Multimodal Machine Translation. WMT より引用図は Wang et al., 2019. VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research. ICCV より引用

Adversarial Evaluation [Elliott, 2018] 問題点 • 直感的ではない • 正規化、データバイアスなどの影響が明らかでないモデルの
image awareness を評価 • 正しい (congruent) 画像を使用した性能と正しくない (incongruent) 画像を使用した性能の差を評価 • モデルの学習は congruent な画像を使用関連研究：モデルは“マルチモーダル”なのか？ 6 図は Elliott, 2018. Adversarial Evaluation of Multimodal Machine Translation. EMNLP より引用

視覚情報の関わりを明らかにするために実験の方針 1. 入力文と視覚情報の特徴量を Gate する機構を持つ、２つのマルチモーダル機械翻訳モデルを訓練する ◦ Gated fusion
multimodal machine translation (MMT) model ◦ Retrieval-Augmented MMT 2. 正則化を働きをする手法を同じモデルに適用し、同様に訓練する 3. Gate の動きを比較する 7

モデル１：Gated Fusion MMT Language encoder の出力に、線形変換した視覚特徴量を重み付きで加える 8 画像

モデル２：Retrieval-Augmented MMT (RMMT) 入力文をクエリに検索した視覚情報を入力に使うモデル 1. 入力に関連する画像を検索し top-K (K=5) を取得する (
Z ) 2. f_θ(∗)を用いて、抽出した Z をベクトル表現に変換する ◦ max-pooling over elements を使用 3. 変換した特徴量を用いて Gated fusion NMT と同様に計算する 9 画像 set max-pooling

実験設定データセット：Multi30k, MSCOCO test set（曖昧語を含むテストセット）画像検索モデル：Flickr30k で学習ベースライン： • Transformer
(base, small, tiny) • Conventional MMT models (Doubly-ATT, Imagination) • Retrieval-based MMT model (UVR-NMT) • Graph-based MMT model (GMNMT) • Dynamic context-guided capsule network (DCCN) 10

各モデルの性能（BLEU） 11

各モデルの性能（BLEU） 12 in-domain なテストデータ

各モデルの性能（BLEU） 13 少し domain shift したテストデータ

各モデルの性能（BLEU） 14 曖昧語を含むテストデータ

各モデルの性能（BLEU） 15

MMTモデルは画像を見ているのか？ Gate の重み (Λ) のマイクロ平均を計算入力文・トークン毎の重みを平均 • 大きい → 視覚情報を使う
• 小さい → 視覚情報を使わない Gated Fusion / RMMT の両モデルで非常に小さな値になる • 1e-10 より大きい重みはなし結論：モデルは推論時に視覚情報を使っていない 16

学習するときに視覚情報は使われているか？学習の初期では視覚情報を使っている → ResNet が有益な情報を抽出しているため次第に視覚情報の重みが徐々に減っていく → textual encoder の学習が進み、入力文を品
質良く表現できるようになったためマルチモーダルモデルが textual モデルに優るのはなぜか？ → 視覚情報を入力に加えることが正則化の働きをしている、という仮説 17

正則化であることを検証するために正則化で使われる２つの手法を使った場合の結果と比較する • Random noise injection → Gaussian でランダムな視覚特徴量を生成 •
Weight decay 18

実験結果（Random noise injection） Gate の重み (Λ)：ResNet=97.7, Random Noise=95.2 → Random
noise は視覚特徴量の結果が類似している → 視覚情報は random noise と同様の働き（＝正則化）をしている 19 （カッコ内は画像特徴量を使った場合からの差分）

実験結果（Weight decay） Weight decay を調整することで、Transformer が最も良い性能となる → 視覚情報は正則化の働きをしている 20

どのような場合で視覚情報は有用かマスクされた入力文に対する性能を評価 Visual grounded tokens をマスクしたデータを使い、学習と評価を行った • 出現回数 30+
の単語（stop word 除く） • 全トークンの 45% に相当 Random noise injection や weight decay に比べ、視覚特徴量を使うモデルは良い性能を達成している → 入力文が不十分なときに、視覚特徴量は役に立つ → 評価するためのベンチマークが必要 21

議論１．新しいベンチマークが必要である • Multi30k は翻訳として簡単なデータセットである２．提案手法は新しいベンチマークの verification に使用できる３．視覚特徴量抽出器の選択は重要である •
抽出器の精度は町モーダル機械翻訳モデルの性能に大きく影響する 22

まとめ • マルチモーダルな入力を使うことで正則化の効果を得られる • 既存のデータセットで訓練したモデルは視覚情報を無視する • 入力文がマスクされていると、モデルは視覚情報を活用する今後は • 視覚情報が必要とされるようなベンチマークが必要
23

読んだ感想 • 現在のベンチマーク（Multi30k）では、十分にモデルのマルチモダール性を評価できない、というのは納得感がある • 視覚情報を使うことの効果が、正則化であることがまだつながらない ◦ 正則化であるなら、Test2016 での性能向上よりも、domain shift
した Test2017 や曖昧語を含む MSCOCO での性能向上が顕著に現れても良さそうだが、そうではない • モデルの特性とデータセットの特性をどうやって切り分けるのだろうか？ ◦ 現在のベンチマークで multimodality を活用できないのは、データセットが原因なのか、それとも、（単純化された）モデルが原因なのか？ ◦ 先行研究で Doubly-Att は高い image awareness を持つことは示されている 24

Good for Misconceived Reasons: An Empirical Rev...

Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation

tosho

More Decks by tosho

Other Decks in Research

Featured

Transcript

論文紹介: Good for Misconceived Reasons: An Empirical Revisiting on the

注釈のない図表は論文から引用されたものです 2

この論文について読んだ理由 • Multimodality のうれしみを評価する手法を知っておくのは重要 • 視覚情報の効果を同定しているが、その過程に興味があった 3

関連研究：マルチモーダル機械翻訳言語＋画像言語＋動画 5 図は Barrault et al., 2018. Findings

Adversarial Evaluation [Elliott, 2018] 問題点 • 直感的ではない • 正規化、データバイアスなどの影響が明らかでないモデルの

視覚情報の関わりを明らかにするために実験の方針 1. 入力文と視覚情報の特徴量を Gate する機構を持つ、２つのマルチモーダル機械翻訳モデルを訓練する ◦ Gated fusion

モデル１：Gated Fusion MMT Language encoder の出力に、線形変換した視覚特徴量を重み付きで加える 8 画像

モデル２：Retrieval-Augmented MMT (RMMT) 入力文をクエリに検索した視覚情報を入力に使うモデル 1. 入力に関連する画像を検索し top-K (K=5) を取得する (

実験設定データセット：Multi30k, MSCOCO test set（曖昧語を含むテストセット）画像検索モデル：Flickr30k で学習ベースライン： • Transformer

各モデルの性能（BLEU） 11

各モデルの性能（BLEU） 12 in-domain なテストデータ

各モデルの性能（BLEU） 13 少し domain shift したテストデータ

各モデルの性能（BLEU） 14 曖昧語を含むテストデータ

各モデルの性能（BLEU） 15

MMTモデルは画像を見ているのか？ Gate の重み (Λ) のマイクロ平均を計算入力文・トークン毎の重みを平均 • 大きい → 視覚情報を使う

学習するときに視覚情報は使われているか？学習の初期では視覚情報を使っている → ResNet が有益な情報を抽出しているため次第に視覚情報の重みが徐々に減っていく → textual encoder の学習が進み、入力文を品

正則化であることを検証するために正則化で使われる２つの手法を使った場合の結果と比較する • Random noise injection → Gaussian でランダムな視覚特徴量を生成 •

実験結果（Random noise injection） Gate の重み (Λ)：ResNet=97.7, Random Noise=95.2 → Random

実験結果（Weight decay） Weight decay を調整することで、Transformer が最も良い性能となる → 視覚情報は正則化の働きをしている 20

どのような場合で視覚情報は有用かマスクされた入力文に対する性能を評価 Visual grounded tokens をマスクしたデータを使い、学習と評価を行った • 出現回数 30+

議論１．新しいベンチマークが必要である • Multi30k は翻訳として簡単なデータセットである２．提案手法は新しいベンチマークの verification に使用できる３．視覚特徴量抽出器の選択は重要である •