Upgrade to Pro — share decks privately, control downloads, hide ads and more …

事前学習言語モデルを用いたVision & Languageの動向 / A Survey of Pre-trained Language Models for Vision & Language

Kyosuke Nishida
November 30, 2019

事前学習言語モデルを用いたVision & Languageの動向 / A Survey of Pre-trained Language Models for Vision & Language

Kyosuke Nishida

November 30, 2019
Tweet

More Decks by Kyosuke Nishida

Other Decks in Research

Transcript

  1. 事前学習⾔語モデルを⽤いた
    Vision & Language の動向
    2019/11/30
    ⻄⽥京介
    1

    View Slide

  2. • BERTに代表される事前学習⾔語モデルが Vision & Language
    タスクにも導⼊され成果を挙げている
    – VQA,VCR,画像/テキスト検索・含意などでSOTAを更新
    • 事前学習⾔語モデルを基に画像/動画キャプションデータを
    ⽤いて Vision & Language の汎⽤的な事前学習を⾏い,
    downstreamタスクのデータセットでfine-tuningする
    – 1つのTransformerで⾔語と画像を同時に扱う,あるいは,2つの
    Transformerを⾔語・画像のそれぞれに対して⽤意
    – 画像を扱うタスクでは物体領域検出を⾏い,各画像領域の表現+位置
    を1つの⾔語トークンの⽤に扱うことが主流
    • 現在の研究トレンドは, Vision & Language 事前学習タスクの
    問題設定の⼯夫および学習データ数の増加による精度向上
    概要
    2

    View Slide

  3. • 24層の巨⼤モデルで⼤量のデータで事前学習して汎⽤なモ
    デルを獲得し、各応⽤タスクに適応させるアプローチ
    • 2018/10/11に発表、11/30までに2662件の被引⽤
    • 多数のNLPタスクで⾼い性能を実現して注⽬を浴びる
    3
    BERT [Devlin(Google)+, NAACL19 Best Paper]
    Vision & Language
    https://www.aclweb.org/anthology/N19-1423

    View Slide

  4. Vision & Language モデルの概要
    4

    View Slide

  5. • ⼊⼒形式: 1系列2セグメント.キャプション+画像トークンの系列
    • ⾔語表現モデル: BERT large
    • 画像表現モデル: S3Dによるencoding → ベクトル量⼦化で離散トークン化(20k種類)
    • 事前学習データ: YouTubeの料理動画 (テキストはASR結果)
    • 事前学習タスク: Masked LM(⾔語&画像トークン), テキスト-単語マッチング
    • 評価: YouCook II (action classification, video captioning)
    VideoBERT [Sun(Google)+, ICCV19, arXiv19 Apr 3] 引⽤数19
    http://openaccess.thecvf.com/content_ICCV_2019/papers/Sun_VideoBERT_A_Joint_
    Model_for_Video_and_Language_Representation_Learning_ICCV_2019_paper.pdf
    5

    View Slide

  6. • ⼊⼒形式: 2系列.キャプション単語 / 画像表現 を2つのTRMにそれぞれ⼊⼒
    • ⾔語表現モデル: BERT base
    • 画像表現モデル: S3Dによるencoding → 画像⽤TRMへ⼊⼒
    • 事前学習データ: HowTo100M (テキストはASR結果)
    • 事前学習タスク: 次フレーム予測,テキスト-単語マッチング
    • 評価: ActivityNet, Breakfast, and 50Salad (action anticipation), YouCook II (video
    captioning), COIN(action segmentation)
    CBT [Sun(Google) +, ICLR20(査読中), arXiv19 Jun 13] 引⽤数4
    https://arxiv.org/abs/1906.05743
    6

    View Slide

  7. • ⼊⼒形式: 2系列.画像領域(ROI)表現 / キャプション単語系列
    • ⾔語表現モデル: BERT base
    • 画像表現モデル: Faster R-CNNによるROI detection + encoding → 画像⽤TRMへ
    • 事前学習データ: Conceptual Captions
    • 事前学習タスク: Masked LM,Masked ROIの意味クラス分類(Faster R-CNNの出⼒
    分布とのKLの最⼩化), テキスト-画像のマッチング
    • 評価: VQA2, VCR, RefCOCO+, Flicker30k IR
    VilBERT [Lu(GIT)+, NeurIPS19, arXiv19 Aug 6] 引⽤数16
    https://papers.nips.cc/paper/8297-vilbert-pretraining-task-agnostic-visiolinguistic-
    representations-for-vision-and-language-tasks
    7
    コード有
    https://github.com/jiasenlu/vilbert_beta

    View Slide

  8. • ⼊⼒形式: 1系列2セグメント.キャプション単語+画像領域(ROI)表現
    • ⾔語表現モデル: BERT base
    • 画像表現モデル: Faster R-CNNによるregion detection + encoding
    • 事前学習データ: COCO
    • 事前学習タスク: Masked LM,テキスト-画像のマッチング
    • 評価: VQA2, VCR, NLVR2, and Flickr30K entities
    VisualBERT [Li(UCLA)+,arXiv19 Aug 9] 引⽤数15
    https://arxiv.org/abs/1908.03557
    8
    https://github.com/uclanlp/visualbert
    コード有

    View Slide

  9. • ⼊⼒形式: 1系列.画像領域(ROI)表現+キャプション単語
    • ⾔語表現モデル: BERT large
    • 画像表現モデル: ResNet 152 (VCRのROIをそのまま使う)
    • 事前学習データ: Conceptual Captions
    • 事前学習タスク: Masked LM,テキスト-画像のマッチング
    • 評価: VCR
    B2T2 [Alberti(Google) +, EMNLP19, arXiv19 Aug 14] 引⽤数8
    https://www.aclweb.org/anthology/D19-1219/
    9
    https://github.com/google-research/language/tree/master/language/question_answering/b2t2
    コード有

    View Slide

  10. • ⼊⼒形式: 1系列2セグメント.画像領域(ROI)クラス+キャプション単語.さらに,
    画像表現をearly fusion
    • ⾔語表現モデル: BERT base
    • 画像表現モデル: Faster-RCNNによるregion detection + encoding + semantic class
    • 事前学習データ: Conceptual Captions
    • 事前学習タスク: Masked LM(⾔語トークン, ROIラベル), テキスト-画像マッチング
    • 評価: COCO & Flicker30k 画像/テキスト検索, (VCR)
    Unicoder-VL [Li(Microsoft)+, arXiv19 Aug 16] 引⽤数8
    https://arxiv.org/abs/1908.06066
    10

    View Slide

  11. • ⼊⼒形式: 2系列.画像領域(ROI)表現 / キャプション単語 を並列⼊⼒
    • ⾔語表現モデル: 利⽤なし(構造はBERTと同じ)
    • 画像表現+領域検出モデル: Faster-RCNNによるregion detection + encoding
    • 事前学習データ: COCO, Visual Genome, VQA2, GQA, VG-QA
    • 事前学習タスク: Masked LM, Masked ROIの特徴回帰&意味クラス分類,テキスト-
    画像マッチング,Visual Question Answering
    • 評価: VQA2, GQA
    LXMERT [Tan(UNC) +, EMNLP19, arXiv19 Aug 20] 引⽤数12
    https://arxiv.org/abs/1908.07490
    11
    https://github.com/airsplay/lxmert
    コード有

    View Slide

  12. • ⼊⼒形式: 1系列2セグメント.キャプション単語+画像領域(ROI)表現
    • ⾔語表現モデル: BERT (base or large)
    • 画像表現モデル: Faster-RCNNによるROI detection + encoding
    • 事前学習データ: Conceptual Captions
    • 事前学習タスク: Masked LM(⾔語トークン, ROIラベル)
    • 評価: VCR, VQA, RefCOCO+
    VLBERT [Su(Microsoft) +, ICLR20(査読中), arXiv19 Aug 22] 引⽤数10
    https://arxiv.org/abs/1908.08530
    12

    View Slide

  13. • ⼊⼒形式: 1系列2セグメント.画像領域表現+キャプション単語
    • ⾔語表現モデル: BERT (base or large)
    • 画像表現+領域検出モデル: Faster-RCNN
    • 事前学習データ: COCO, Visual Genome, Conceptual Captions, SBU Captions
    • 事前学習タスク: Masked LM,Masked ROI 特徴回帰&意味クラス分類(KL最⼩化),
    テキスト-画像マッチング
    • 評価: VCR, VQA, Flicker30k, NLVR, SNLI-VE, RefCOCO+(全タスクで現在のSOTA)
    UNITER [Chen(Microsoft) +, ICLR20(査読中), arXiv19 Sep 25] 引⽤数3
    https://arxiv.org/abs/1909.11740
    13

    View Slide

  14. 事前学習データ&
    Vision & Languageタスク
    (UNITER論⽂ベース,動画含まず)
    14

    View Slide

  15. 15
    Vision+Language データ&タスク (UNITER論⽂より)

    View Slide

  16. 16
    V+Lタスクのスコア⽐較(UNITER論⽂より)

    View Slide

  17. • 300万件の(画像,キャプション)の組
    • WebからAlt-textと画像のペアをクロール.Alt-textの固有名詞
    について上位語に変換しConceptual Captionsを⾃動⽣成
    • Object情報は無し
    Conceptual Captions [Sharma(Google)+, ACL18] 引⽤数41
    https://www.aclweb.org/anthology/P18-1238/ 17

    View Slide

  18. Conceptual Captions [Sharma(Google)+, ACL18] 引⽤数41
    https://www.aclweb.org/anthology/P18-1238/
    18

    View Slide

  19. 19
    COCO [Lin(Microsoft)+, ECCV14] 引⽤数7142
    http://cocodataset.org/#explore
    • Flickrから収集した10.6万件の画像.各画像に⼈間がアノテー
    ションしたキャプションが5件付いている
    • Object情報あり
    https://arxiv.org/abs/1405.0312

    View Slide

  20. • 画像10.8万件,画像中のobjectに関連して密に説明⽂がアノ
    テーションされている
    20
    Visual Genome [Krishna(Stanford)+,IJCV17] 引⽤数871
    https://arxiv.org/abs/1602.07332 https://visualgenome.org/VGViz/explore

    View Slide

  21. • Flickrから収集した99.0万件の写真とキャプション
    • キャプションの品質を上げるためにフィルタリングを実施
    21
    SBU Captions [Ordonez +,NIPS11] 引⽤数871
    https://papers.nips.cc/paper/4470-im2text-describing-
    images-using-1-million-captioned-photographs

    View Slide

  22. • 画像に対する質問応答
    • UNITERでは分類問題(頻出回答3129種を候補)とする
    22
    VQA 2.0 [Goyal(Virginia Tech)+, CVPR17] 引⽤数367
    https://arxiv.org/abs/1612.00837

    View Slide

  23. • 画像に対する質問応答
    • 2.0では質問タイプに応じて回答が均等化されている
    23
    VQA 2.0 [Goyal(Virginia Tech)+, CVPR17] 引⽤数367
    https://arxiv.org/abs/1612.00837

    View Slide

  24. • ⾔語+常識+ビジョンの理解が必要なタスク
    • UNITERではQ->AとQA->Rに分解して解く.QAあるいは QARの
    組を結合してテキスト-画像⼊⼒とし, [CLS]表現を基に分類
    24
    VCR [Zellers (U Washington)+, CVPR19] 引⽤数38
    Rowan Zellers, Yonatan Bisk, Ali Farhadi, Yejin Choi:
    From Recognition to Cognition: Visual Commonsense Reasoning. CoRR abs/1811.10830 (2018)
    画像と質問(Q)
    に対して、回答
    (A)と根拠(R)を
    選択

    View Slide

  25. 25
    VCRリーダーボード(抜粋) 11/29
    https://visualcommonsense.com/leaderboard/ ※各モデルでensemble, largeを優先して抜粋.
    Q->A: 回答正解率
    QA->R: 根拠正解率
    Q->AR: 回答&根拠正解率
    まだ⼈間とは開きあり

    View Slide

  26. 26
    NLVR2 [Suhr(Cornell U)+, ACL19] 引⽤数14
    https://www.aclweb.org/anthology/P19-1644/
    • 2つの画像に関するキャプションが正しい物か否かを分類
    • UNITERでは画像ペア-テキストの組として⼊⼒,[CLS]表現を基に分類

    View Slide

  27. • 画像に関するテキストの含意認識.SNLIのキャプションが
    Flickr30kから作られていることを利⽤して紐付け
    27
    SNLI-VE [Xie(NEC Lab America)+, arXiv19] 引⽤数5
    https://arxiv.org/abs/1901.06706

    View Slide

  28. 28
    Image-Text Retrieval [Lee+,ECCV18] 引⽤数73
    https://arxiv.org/abs/1803.08024
    • COCO, Flickr30kに基づくテキスト→画像 (IR),画像→テキスト(TR)の検索
    • UNITERではランキング問題としてfine-tuning.Fine-tuningなしのzero-shot
    設定でも実験.

    View Slide

  29. 29
    RefCOCO [Kazemzadeh+,EMNLP14] 引⽤数259 [Yu+,ECCV16] 引⽤数141
    https://github.com/lichengunc/refer
    https://arxiv.org/abs/1608.00272
    https://www.aclweb.org/anthology/D14-1086/
    • テキストに対して最も適切な画像中のRegionを選択する
    • UNITERではFaster R-CNNで抽出した各ROIに対応する出⼒表現
    を基に分類

    View Slide