Slide 133
Slide 133 text
工夫④ 事前学習/表現学習
• モダリティごとの事前学習/表現学習
– 画像ならImageNetでの事前学習済みCNNモデル
– テキストならBooksCorpusやWikipedia、Text-to-Text Transfer Transformer (T5) [Raffel+, JMLR
2020]での事前学習済みTransformerモデル
• ビジョン&ランゲージでも:
Transformerの流行に合わせて膨大なさいきょうの表現学習が出現
– Transformer以前のCNN+RNNによる表現学習もあるよ! [Kiros+, NIPS WS 2014]
– 画像や文のパーツを1本ずつベクトルで表現
VideoBERT [Sun+, ICCV’19], LXMERT [Tan+Bansal, EMNLP’19],
ViLBERT [Lu+, NeurIPS’19], VL-BERT [Su+, ICLR’20], UNITER
[Chen+, ECCV’20], OSCAR [Li+, ECCV’20], Voken [Tan+Bansal,
EMNLP’20], COOT [Ging+, NeurIPS’20]
– 画像/文全体をそれぞれ1つのベクトルで表現
VSE++ [Faghri+, BMVC’18], CLIP [Radford+, ICML’21],
ALIGN [Jia+, ICML’21]
[Tan+Bansal, EMNLP’20]