Slide 23
Slide 23 text
表現学習
• これまで:Transformerの流行に合わせて膨大なさいきょうの表現学習が出現
– 画像や文のパーツを1本ずつベクトルで表現
VideoBERT [Sun+, ICCV’19], LXMERT [Tan+Bansal, EMNLP’19],
ViLBERT [Lu+, NeurIPS’19], VL-BERT [Su+, ICLR’20], UNITER
[Chen+, ECCV’20], OSCAR [Li+, ECCV’20], Voken [Tan+Bansal,
EMNLP’20], COOT [Ging+, NeurIPS’20]
– 画像/文全体をそれぞれ1つのベクトルで表現
VSE++ [Faghri+, BMVC’18], CLIP [Radford+, ICML’21],
ALIGN [Jia+, ICML’21]
• ICCV 2021では
– CrossCLR [Zolfaghari+, ICCV’21]: 動画のクリップと文全体をそれぞれ埋め込む空間の学習
– COOKIE [Wen+, ICCV’21]: 画像と文を独立に入力して埋め込みベクトルを計算可能
※他の表現学習では画像と文のペアを同時入力しないと埋め込みベクトルが計算できない
– LocTex [Liu+, ICCV’21]: マウスカーソル軌跡を利用した表現学習
– GLoRIA [Su+, ICCV’21]: 医療画像と読影レポートからの表現学習
[Tan+Bansal, EMNLP’20]