Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Good for Misconceived Reasons: An Empirical Rev...
Search
tosho
September 09, 2021
Research
0
320
Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation
第13回最先端NLP勉強会(SNLP2021)発表資料
tosho
September 09, 2021
Tweet
Share
More Decks by tosho
See All by tosho
Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation
tosho
0
280
Shaham and Levy, 2021. Neural Machine Translation without Embeddings. NAACL2021
tosho
0
94
Liu et al., 2021. Pay Attention to MLPs. arXiv
tosho
0
140
Huang et al. 2020 Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting
tosho
0
410
Ive, Madhyastha, Specia_2019_EMNLP_Deep Copycat Networks for Text-to-Text Generation
tosho
0
100
Tan, Bansal_2019_EMNLP_LXMERT Learning Cross-Modality Encoder Representations from Transformers
tosho
0
190
Tsai et al._2019_ACL_Multimodal Transformer for Unaligned Multimodal Language Sequences
tosho
0
320
Zhou et al. 2019. Density Matching for Bilingual Word Embedding. NAACL
tosho
3
240
Oral: Multimodal Machine Translation with Embedding Prediction
tosho
0
76
Other Decks in Research
See All in Research
アプリケーションから知るモデルマージ
maguro27
0
240
最近のVisual Odometryと Depth Estimation
sgk
1
370
移動ビッグデータに基づく地理情報の埋め込みベクトル化
tam1110
0
220
Weekly AI Agents News! 12月号 論文のアーカイブ
masatoto
0
140
非ガウス性と非線形性に基づく統計的因果探索
sshimizu2006
0
500
Segment Any Change
satai
2
110
CVPR2024 参加報告
kwchrk
0
160
Composed image retrieval for remote sensing
satai
2
150
Optimal and Diffusion Transports in Machine Learning
gpeyre
0
900
ナレッジプロデューサーとしてのミドルマネージャー支援 - MIMIGURI「知識創造室」の事例の考察 -
chiemitaki
0
180
Weekly AI Agents News! 10月号 論文のアーカイブ
masatoto
1
470
Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views
satai
2
160
Featured
See All Featured
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.6k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.6k
A Tale of Four Properties
chriscoyier
157
23k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.4k
RailsConf 2023
tenderlove
29
980
Embracing the Ebb and Flow
colly
84
4.5k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
What's in a price? How to price your products and services
michaelherold
244
12k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
Transcript
論文紹介: Good for Misconceived Reasons: An Empirical Revisiting on the
Need for Visual Context in Multimodal Machine Translation Zhiyong Wu, Lingpeng Kong, Wei Bi, Xiang Li, Ben Kao ACL 2021, https://aclanthology.org/2021.acl-long.480/ 発表者:平澤 寅庄(ひらさわ とうしょう) 東京都立大学小町研究室 D1 2021/9/16 第13回最先端NLP勉強会
注釈のない図表は論文から引用されたものです 2
この論文について 読んだ理由 • Multimodality のうれしみを評価する手法を知っておくのは重要 • 視覚情報の効果を同定しているが、その過程に興味があった 3
どんな論文か? タスク:マルチモーダル機械翻訳(言語+画像、言語+動画、etc) 分かったこと: • マルチモーダルな入力を使うことで正則化の効果を得られる • 既存のデータセットで訓練したモデルは視覚情報を無視する • 入力文がマスクされていると、モデルは視覚情報を活用する 4
関連研究:マルチモーダル機械翻訳 言語+画像 言語+動画 5 図は Barrault et al., 2018. Findings
of the Third Shared Task on Multimodal Machine Translation. WMT より引用 図は Wang et al., 2019. VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research. ICCV より引用
Adversarial Evaluation [Elliott, 2018] 問題点 • 直感的ではない • 正規化、データバイアスなどの影響が明らかでない モデルの
image awareness を評価 • 正しい (congruent) 画像を使用した性能と 正しくない (incongruent) 画像を使用した 性能の差を評価 • モデルの学習は congruent な画像を使用 関連研究:モデルは“マルチモーダル”なのか? 6 図は Elliott, 2018. Adversarial Evaluation of Multimodal Machine Translation. EMNLP より引用
視覚情報の関わりを明らかにするために 実験の方針 1. 入力文と視覚情報の特徴量を Gate する機構を持つ、2つのマルチモーダル 機械翻訳モデルを訓練する ◦ Gated fusion
multimodal machine translation (MMT) model ◦ Retrieval-Augmented MMT 2. 正則化を働きをする手法を同じモデルに適用し、同様に訓練する 3. Gate の動きを比較する 7
モデル1:Gated Fusion MMT Language encoder の出力に、線形変換した視覚特徴量を重み付きで加える 8 画像
モデル2:Retrieval-Augmented MMT (RMMT) 入力文をクエリに検索した視覚情報を入力に使うモデル 1. 入力に関連する画像を検索し top-K (K=5) を取得する (
Z ) 2. f_θ(∗)を用いて、抽出した Z をベクトル表現に変換する ◦ max-pooling over elements を使用 3. 変換した特徴量を用いて Gated fusion NMT と同様に計算する 9 画像 set max-pooling
実験設定 データセット:Multi30k, MSCOCO test set(曖昧語を含むテストセット) 画像検索モデル:Flickr30k で学習 ベースライン: • Transformer
(base, small, tiny) • Conventional MMT models (Doubly-ATT, Imagination) • Retrieval-based MMT model (UVR-NMT) • Graph-based MMT model (GMNMT) • Dynamic context-guided capsule network (DCCN) 10
各モデルの性能(BLEU) 11
各モデルの性能(BLEU) 12 in-domain なテストデータ
各モデルの性能(BLEU) 13 少し domain shift したテストデータ
各モデルの性能(BLEU) 14 曖昧語を含むテストデータ
各モデルの性能(BLEU) 15
MMTモデルは画像を見ているのか? Gate の重み (Λ) のマイクロ平均を計算 入力文・トークン毎の重みを平均 • 大きい → 視覚情報を使う
• 小さい → 視覚情報を使わない Gated Fusion / RMMT の両モデル で非常に小さな値になる • 1e-10 より大きい重みはなし 結論: モデルは推論時に視覚情報を使って いない 16
学習するときに視覚情報は使われているか? 学習の初期では視覚情報を使っている → ResNet が有益な情報を抽出しているため 次第に視覚情報の重みが徐々に減っていく → textual encoder の学習が進み、入力文を品
質良く表現できるようになったため マルチモーダルモデルが textual モデルに優る のはなぜか? → 視覚情報を入力に加えることが正則化の働き をしている、という仮説 17
正則化であることを検証するために 正則化で使われる2つの手法を使った場合の結果と比較する • Random noise injection → Gaussian でランダムな視覚特徴量を生成 •
Weight decay 18
実験結果(Random noise injection) Gate の重み (Λ):ResNet=97.7, Random Noise=95.2 → Random
noise は視覚特徴量の結果が類似している → 視覚情報は random noise と同様の働き(=正則化)をしている 19 (カッコ内は画像特徴量を使った場合からの差分)
実験結果(Weight decay) Weight decay を調整することで、Transformer が最も良い性能となる → 視覚情報は正則化の働きをしている 20
どのような場合で視覚情報は有用か マスクされた入力文に対する性能を評価 Visual grounded tokens をマスクしたデータを 使い、学習と評価を行った • 出現回数 30+
の単語(stop word 除く) • 全トークンの 45% に相当 Random noise injection や weight decay に比 べ、視覚特徴量を使うモデルは良い性能を達成 している → 入力文が不十分なときに、視覚特徴量は 役に立つ → 評価するためのベンチマークが必要 21
議論 1.新しいベンチマークが必要である • Multi30k は翻訳として簡単なデータセットである 2.提案手法は新しいベンチマークの verification に使用できる 3.視覚特徴量抽出器の選択は重要である •
抽出器の精度は町モーダル機械翻訳モデルの性能に大きく影響する 22
まとめ • マルチモーダルな入力を使うことで正則化の効果を得られる • 既存のデータセットで訓練したモデルは視覚情報を無視する • 入力文がマスクされていると、モデルは視覚情報を活用する 今後は • 視覚情報が必要とされるようなベンチマークが必要
23
読んだ感想 • 現在のベンチマーク(Multi30k)では、十分にモデルのマルチモダール性を 評価できない、というのは納得感がある • 視覚情報を使うことの効果が、正則化であることがまだつながらない ◦ 正則化であるなら、Test2016 での性能向上よりも、domain shift
した Test2017 や曖昧語を 含む MSCOCO での性能向上が顕著に現れても良さそうだが、そうではない • モデルの特性とデータセットの特性をどうやって切り分けるのだろうか? ◦ 現在のベンチマークで multimodality を活用できないのは、データセットが原因なのか、 それとも、(単純化された)モデルが原因なのか? ◦ 先行研究で Doubly-Att は高い image awareness を持つことは示されている 24