Slide 40
Slide 40 text
• ⼊⼒形式: 1系列2セグメント.画像領域表現+キャプション単語
• ⾔語表現モデル: BERT (base or large)
• 画像表現+領域検出モデル: Faster-RCNN
• 事前学習データ: COCO, Visual Genome, Conceptual Captions, SBU Captions
• 事前学習タスク: Masked LM,Masked ROI 特徴回帰&意味クラス分類(KL最⼩化),
テキスト-画像マッチング
• 評価: VCR, VQA, Flicker30k, NLVR, SNLI-VE, RefCOCO+(全タスクで現在のSOTA)
UNITER [Chen(Microsoft) +, ICLR20(rejected), arXiv19/09/25] 被引⽤数12←3
https://arxiv.org/abs/1909.11740
40