事前学習言語モデルを用いたVision & Languageの動向 / A Survey of Pre-trained Language Models for Vision & Language

事前学習⾔語モデルを⽤いた Vision & Language の動向 2019/11/30 ⻄⽥京介 1

• BERTに代表される事前学習⾔語モデルが Vision & Language タスクにも導⼊され成果を挙げている – VQA，VCR，画像/テキスト検索・含意などでSOTAを更新 • 事前学習⾔語モデルを基に画像/動画キャプションデータを
⽤いて Vision & Language の汎⽤的な事前学習を⾏い， downstreamタスクのデータセットでfine-tuningする – 1つのTransformerで⾔語と画像を同時に扱う，あるいは，2つの Transformerを⾔語・画像のそれぞれに対して⽤意 – 画像を扱うタスクでは物体領域検出を⾏い，各画像領域の表現＋位置を1つの⾔語トークンの⽤に扱うことが主流 • 現在の研究トレンドは， Vision & Language 事前学習タスクの問題設定の⼯夫および学習データ数の増加による精度向上概要 2

• 24層の巨⼤モデルで⼤量のデータで事前学習して汎⽤なモデルを獲得し、各応⽤タスクに適応させるアプローチ • 2018/10/11に発表、11/30までに2662件の被引⽤ • 多数のNLPタスクで⾼い性能を実現して注⽬を浴びる 3 BERT [Devlin(Google)+,
NAACL19 Best Paper] Vision & Language https://www.aclweb.org/anthology/N19-1423

Vision & Language モデルの概要 4

• ⼊⼒形式: 1系列2セグメント．キャプション＋画像トークンの系列 • ⾔語表現モデル: BERT large • 画像表現モデル: S3Dによるencoding
→ ベクトル量⼦化で離散トークン化(20k種類) • 事前学習データ: YouTubeの料理動画 (テキストはASR結果） • 事前学習タスク: Masked LM(⾔語＆画像トークン), テキスト-単語マッチング • 評価: YouCook II (action classification, video captioning) VideoBERT [Sun(Google)+, ICCV19, arXiv19 Apr 3] 引⽤数19 http://openaccess.thecvf.com/content_ICCV_2019/papers/Sun_VideoBERT_A_Joint_ Model_for_Video_and_Language_Representation_Learning_ICCV_2019_paper.pdf 5

• ⼊⼒形式: 2系列．キャプション単語 / 画像表現を2つのTRMにそれぞれ⼊⼒ • ⾔語表現モデル: BERT base
• 画像表現モデル: S3Dによるencoding → 画像⽤TRMへ⼊⼒ • 事前学習データ: HowTo100M (テキストはASR結果） • 事前学習タスク: 次フレーム予測，テキスト-単語マッチング • 評価: ActivityNet, Breakfast, and 50Salad (action anticipation), YouCook II (video captioning), COIN(action segmentation) CBT [Sun(Google) +, ICLR20(査読中), arXiv19 Jun 13] 引⽤数4 https://arxiv.org/abs/1906.05743 6

• ⼊⼒形式: 2系列．画像領域(ROI)表現 / キャプション単語系列 • ⾔語表現モデル: BERT base •
画像表現モデル: Faster R-CNNによるROI detection + encoding → 画像⽤TRMへ • 事前学習データ: Conceptual Captions • 事前学習タスク: Masked LM，Masked ROIの意味クラス分類（Faster R-CNNの出⼒分布とのKLの最⼩化), テキスト-画像のマッチング • 評価: VQA2, VCR, RefCOCO+, Flicker30k IR VilBERT [Lu(GIT)+, NeurIPS19, arXiv19 Aug 6] 引⽤数16 https://papers.nips.cc/paper/8297-vilbert-pretraining-task-agnostic-visiolinguistic- representations-for-vision-and-language-tasks 7 コード有 https://github.com/jiasenlu/vilbert_beta

• ⼊⼒形式: 1系列2セグメント．キャプション単語＋画像領域(ROI)表現 • ⾔語表現モデル: BERT base • 画像表現モデル: Faster
R-CNNによるregion detection + encoding • 事前学習データ: COCO • 事前学習タスク: Masked LM，テキスト-画像のマッチング • 評価: VQA2, VCR, NLVR2, and Flickr30K entities VisualBERT [Li(UCLA)+,arXiv19 Aug 9] 引⽤数15 https://arxiv.org/abs/1908.03557 8 https://github.com/uclanlp/visualbert コード有

• ⼊⼒形式: 1系列．画像領域(ROI)表現＋キャプション単語 • ⾔語表現モデル: BERT large • 画像表現モデル: ResNet
152 (VCRのROIをそのまま使う） • 事前学習データ: Conceptual Captions • 事前学習タスク: Masked LM，テキスト-画像のマッチング • 評価: VCR B2T2 [Alberti(Google) +, EMNLP19, arXiv19 Aug 14] 引⽤数8 https://www.aclweb.org/anthology/D19-1219/ 9 https://github.com/google-research/language/tree/master/language/question_answering/b2t2 コード有

• ⼊⼒形式: 1系列2セグメント．画像領域(ROI)クラス＋キャプション単語．さらに，画像表現をearly fusion • ⾔語表現モデル: BERT base •
画像表現モデル: Faster-RCNNによるregion detection + encoding + semantic class • 事前学習データ: Conceptual Captions • 事前学習タスク: Masked LM(⾔語トークン, ROIラベル), テキスト-画像マッチング • 評価: COCO & Flicker30k 画像/テキスト検索, (VCR) Unicoder-VL [Li(Microsoft)+, arXiv19 Aug 16] 引⽤数8 https://arxiv.org/abs/1908.06066 10

• ⼊⼒形式: 2系列．画像領域(ROI)表現 / キャプション単語を並列⼊⼒ • ⾔語表現モデル: 利⽤なし（構造はBERTと同じ） •
画像表現+領域検出モデル: Faster-RCNNによるregion detection + encoding • 事前学習データ: COCO, Visual Genome, VQA2, GQA, VG-QA • 事前学習タスク: Masked LM, Masked ROIの特徴回帰＆意味クラス分類，テキスト- 画像マッチング，Visual Question Answering • 評価: VQA2, GQA LXMERT [Tan(UNC) +, EMNLP19, arXiv19 Aug 20] 引⽤数12 https://arxiv.org/abs/1908.07490 11 https://github.com/airsplay/lxmert コード有

• ⼊⼒形式: 1系列2セグメント．キャプション単語＋画像領域(ROI)表現 • ⾔語表現モデル: BERT (base or large) •
画像表現モデル: Faster-RCNNによるROI detection + encoding • 事前学習データ: Conceptual Captions • 事前学習タスク: Masked LM(⾔語トークン, ROIラベル) • 評価: VCR, VQA, RefCOCO+ VLBERT [Su(Microsoft) +, ICLR20(査読中), arXiv19 Aug 22] 引⽤数10 https://arxiv.org/abs/1908.08530 12

• ⼊⼒形式: 1系列2セグメント．画像領域表現＋キャプション単語 • ⾔語表現モデル: BERT (base or large) •
画像表現+領域検出モデル: Faster-RCNN • 事前学習データ: COCO, Visual Genome, Conceptual Captions, SBU Captions • 事前学習タスク: Masked LM，Masked ROI 特徴回帰＆意味クラス分類（KL最⼩化），テキスト-画像マッチング • 評価: VCR, VQA, Flicker30k, NLVR, SNLI-VE, RefCOCO+（全タスクで現在のSOTA） UNITER [Chen(Microsoft) +, ICLR20(査読中), arXiv19 Sep 25] 引⽤数3 https://arxiv.org/abs/1909.11740 13

事前学習データ＆ Vision & Languageタスク（UNITER論⽂ベース，動画含まず） 14

15 Vision+Language データ＆タスク (UNITER論⽂より)

16 V+Lタスクのスコア⽐較（UNITER論⽂より）

• 300万件の(画像,キャプション)の組 • WebからAlt-textと画像のペアをクロール．Alt-textの固有名詞について上位語に変換しConceptual Captionsを⾃動⽣成 • Object情報は無し Conceptual Captions
[Sharma(Google)+, ACL18] 引⽤数41 https://www.aclweb.org/anthology/P18-1238/ 17

Conceptual Captions [Sharma(Google)+, ACL18] 引⽤数41 https://www.aclweb.org/anthology/P18-1238/ 18

19 COCO [Lin(Microsoft)+, ECCV14] 引⽤数7142 http://cocodataset.org/#explore • Flickrから収集した10.6万件の画像．各画像に⼈間がアノテーションしたキャプションが5件付いている •
Object情報あり https://arxiv.org/abs/1405.0312

• 画像10.8万件，画像中のobjectに関連して密に説明⽂がアノテーションされている 20 Visual Genome [Krishna(Stanford)+,IJCV17] 引⽤数871 https://arxiv.org/abs/1602.07332 https://visualgenome.org/VGViz/explore

• Flickrから収集した99.0万件の写真とキャプション • キャプションの品質を上げるためにフィルタリングを実施 21 SBU Captions [Ordonez +,NIPS11] 引⽤数871
https://papers.nips.cc/paper/4470-im2text-describing- images-using-1-million-captioned-photographs

• 画像に対する質問応答 • UNITERでは分類問題（頻出回答3129種を候補）とする 22 VQA 2.0 [Goyal(Virginia Tech)+, CVPR17]
引⽤数367 https://arxiv.org/abs/1612.00837

• 画像に対する質問応答 • 2.0では質問タイプに応じて回答が均等化されている 23 VQA 2.0 [Goyal(Virginia Tech)+, CVPR17]
引⽤数367 https://arxiv.org/abs/1612.00837

• ⾔語＋常識＋ビジョンの理解が必要なタスク • UNITERではQ->AとQA->Rに分解して解く．QAあるいは QARの組を結合してテキスト-画像⼊⼒とし， [CLS]表現を基に分類 24 VCR [Zellers
(U Washington)+, CVPR19] 引⽤数38 Rowan Zellers, Yonatan Bisk, Ali Farhadi, Yejin Choi: From Recognition to Cognition: Visual Commonsense Reasoning. CoRR abs/1811.10830 (2018) 画像と質問(Q) に対して、回答 (A)と根拠(R)を選択

25 VCRリーダーボード(抜粋) 11/29 https://visualcommonsense.com/leaderboard/ ※各モデルでensemble, largeを優先して抜粋． Q->A: 回答正解率 QA->R: 根拠正解率
Q->AR: 回答＆根拠正解率まだ⼈間とは開きあり

26 NLVR2 [Suhr(Cornell U)+, ACL19] 引⽤数14 https://www.aclweb.org/anthology/P19-1644/ • 2つの画像に関するキャプションが正しい物か否かを分類 •
UNITERでは画像ペア-テキストの組として⼊⼒，[CLS]表現を基に分類

• 画像に関するテキストの含意認識．SNLIのキャプションが Flickr30kから作られていることを利⽤して紐付け 27 SNLI-VE [Xie(NEC Lab America)+, arXiv19] 引⽤数5
https://arxiv.org/abs/1901.06706

28 Image-Text Retrieval [Lee+,ECCV18] 引⽤数73 https://arxiv.org/abs/1803.08024 • COCO, Flickr30kに基づくテキスト→画像 (IR)，画像→テキスト(TR)の検索
• UNITERではランキング問題としてfine-tuning．Fine-tuningなしのzero-shot 設定でも実験．

29 RefCOCO [Kazemzadeh+,EMNLP14] 引⽤数259 [Yu+,ECCV16] 引⽤数141 https://github.com/lichengunc/refer https://arxiv.org/abs/1608.00272 https://www.aclweb.org/anthology/D14-1086/ •
テキストに対して最も適切な画像中のRegionを選択する • UNITERではFaster R-CNNで抽出した各ROIに対応する出⼒表現を基に分類

事前学習言語モデルを用いたVision & Languageの動向 / A Survey of...

事前学習言語モデルを用いたVision & Languageの動向 / A Survey of Pre-trained Language Models for Vision & Language

Kyosuke Nishida

More Decks by Kyosuke Nishida

Other Decks in Research

Featured

Transcript

事前学習⾔語モデルを⽤いた Vision & Language の動向 2019/11/30 ⻄⽥京介 1

• BERTに代表される事前学習⾔語モデルが Vision & Language タスクにも導⼊され成果を挙げている – VQA，VCR，画像/テキスト検索・含意などでSOTAを更新 • 事前学習⾔語モデルを基に画像/動画キャプションデータを

Vision & Language モデルの概要 4

• ⼊⼒形式: 1系列2セグメント．キャプション＋画像トークンの系列 • ⾔語表現モデル: BERT large • 画像表現モデル: S3Dによるencoding

• ⼊⼒形式: 2系列．キャプション単語 / 画像表現を2つのTRMにそれぞれ⼊⼒ • ⾔語表現モデル: BERT base

• ⼊⼒形式: 2系列．画像領域(ROI)表現 / キャプション単語系列 • ⾔語表現モデル: BERT base •

• ⼊⼒形式: 1系列2セグメント．キャプション単語＋画像領域(ROI)表現 • ⾔語表現モデル: BERT base • 画像表現モデル: Faster

• ⼊⼒形式: 1系列．画像領域(ROI)表現＋キャプション単語 • ⾔語表現モデル: BERT large • 画像表現モデル: ResNet

• ⼊⼒形式: 1系列2セグメント．画像領域(ROI)クラス＋キャプション単語．さらに，画像表現をearly fusion • ⾔語表現モデル: BERT base •

• ⼊⼒形式: 2系列．画像領域(ROI)表現 / キャプション単語を並列⼊⼒ • ⾔語表現モデル: 利⽤なし（構造はBERTと同じ） •

• ⼊⼒形式: 1系列2セグメント．キャプション単語＋画像領域(ROI)表現 • ⾔語表現モデル: BERT (base or large) •

• ⼊⼒形式: 1系列2セグメント．画像領域表現＋キャプション単語 • ⾔語表現モデル: BERT (base or large) •

事前学習データ＆ Vision & Languageタスク（UNITER論⽂ベース，動画含まず） 14

15 Vision+Language データ＆タスク (UNITER論⽂より)

16 V+Lタスクのスコア⽐較（UNITER論⽂より）

• 300万件の(画像,キャプション)の組 • WebからAlt-textと画像のペアをクロール．Alt-textの固有名詞について上位語に変換しConceptual Captionsを⾃動⽣成 • Object情報は無し Conceptual Captions

Conceptual Captions [Sharma(Google)+, ACL18] 引⽤数41 https://www.aclweb.org/anthology/P18-1238/ 18

19 COCO [Lin(Microsoft)+, ECCV14] 引⽤数7142 http://cocodataset.org/#explore • Flickrから収集した10.6万件の画像．各画像に⼈間がアノテーションしたキャプションが5件付いている •

• 画像10.8万件，画像中のobjectに関連して密に説明⽂がアノテーションされている 20 Visual Genome [Krishna(Stanford)+,IJCV17] 引⽤数871 https://arxiv.org/abs/1602.07332 https://visualgenome.org/VGViz/explore

• Flickrから収集した99.0万件の写真とキャプション • キャプションの品質を上げるためにフィルタリングを実施 21 SBU Captions [Ordonez +,NIPS11] 引⽤数871

• 画像に対する質問応答 • UNITERでは分類問題（頻出回答3129種を候補）とする 22 VQA 2.0 [Goyal(Virginia Tech)+, CVPR17]

• 画像に対する質問応答 • 2.0では質問タイプに応じて回答が均等化されている 23 VQA 2.0 [Goyal(Virginia Tech)+, CVPR17]

• ⾔語＋常識＋ビジョンの理解が必要なタスク • UNITERではQ->AとQA->Rに分解して解く．QAあるいは QARの組を結合してテキスト-画像⼊⼒とし， [CLS]表現を基に分類 24 VCR [Zellers

25 VCRリーダーボード(抜粋) 11/29 https://visualcommonsense.com/leaderboard/ ※各モデルでensemble, largeを優先して抜粋． Q->A: 回答正解率 QA->R: 根拠正解率

26 NLVR2 [Suhr(Cornell U)+, ACL19] 引⽤数14 https://www.aclweb.org/anthology/P19-1644/ • 2つの画像に関するキャプションが正しい物か否かを分類 •

• 画像に関するテキストの含意認識．SNLIのキャプションが Flickr30kから作られていることを利⽤して紐付け 27 SNLI-VE [Xie(NEC Lab America)+, arXiv19] 引⽤数5

28 Image-Text Retrieval [Lee+,ECCV18] 引⽤数73 https://arxiv.org/abs/1803.08024 • COCO, Flickr30kに基づくテキスト→画像 (IR)，画像→テキスト(TR)の検索

29 RefCOCO [Kazemzadeh+,EMNLP14] 引⽤数259 [Yu+,ECCV16] 引⽤数141 https://github.com/lichengunc/refer https://arxiv.org/abs/1608.00272 https://www.aclweb.org/anthology/D14-1086/ •