画像表現+領域検出モデル: Faster-RCNN • 事前学習データ: COCO, Visual Genome, Conceptual Captions, SBU Captions • 事前学習タスク: Masked LM,Masked ROI 特徴回帰&意味クラス分類(KL最⼩化), テキスト-画像マッチング • 評価: VCR, VQA, Flicker30k, NLVR, SNLI-VE, RefCOCO+(全タスクで現在のSOTA) UNITER [Chen(Microsoft) +, ICLR20(査読中), arXiv19 Sep 25] 引⽤数3 https://arxiv.org/abs/1909.11740 13