Slide 6
Slide 6 text
視覚モデルの事前学習
● 本論⽂ではDINOv2 [Oquab+ 23]
, DINOv2-reg [Darcet+ 23]
, CLIP [Radford+ 21]
, MAE [He+ 21]
, DeiT-III [Touvron+ 22]
などの
⾃⼰教師あり学習を⾏った2D視覚モデルに対して適⽤ (CNNでもViTでも何でも適⽤できるはず)
○ 各学習⽅法は今回は割愛します🙏
● 各視覚モデルは特有の Artifact (アーチファクト) が存在する ← ここ⼤事
⾃⼰教師あり学習
(画像のみ)
⾃⼰教師あり学習
(画像のみ)
⾃⼰教師あり学習
(画像-テキスト)
⾃⼰教師あり学習
(画像のみ)
教師あり学習
(画像とラベル)