Slide 19
Slide 19 text
19
モデル(2/2)
• UNITER[3], VILLA[4], VinVL[5], ViLT[6], VisualBERT[7]︓物体検出(Object
Detection) やパッチ埋め込みを⽤いたクロスエンコーダモデル
• LXMERT[8], UniT[9], ViLBERT[10]︓物体検出を⽤いたデュアル+クロスエン
コーダモデル
• VSRN, VSE++︓RNN利⽤モデル(説明割愛)
Vision Text
some plants
surrounding
a lightbulb
Joint
LXMERT, UniT,
ViLBERT
Joint
some plants
surrounding
a lightbulb
OD/Patch
OD
UNITER, ViLLA, VinVL,
ViLT, VisualBERT
※ ざっくりとしたイメージ.各モデルの細部は異なります