Slide 9
Slide 9 text
• 従来のImageNetデータセットでは,25,000⼈が1,400万枚の画像に対して
22,000クラスをアノテーション
• CLIPはWebから収集したデータを⽤いて,(ノイズはあるが)⽐較的
低コストで遥かに広い概念を⾔語と結びつけて学習可能
9
CLIPは何が凄いのか
ImageNetの ”Tench”(コイ科の淡⽔⿂)カテゴリの写真の例
ImageNetの ”Siberian Husky”カテゴリの写真の例
本来不要な男性も含めてTenchが
学習されてしまう
⽝の数や動作については無考慮
https://salient-imagenet.cs.umd.edu/explore/class_0/feature_686.html
https://salient-imagenet.cs.umd.edu/explore/class_250/feature_829.html
CLIP: 「釣り上げたTenchを
抱えている男性」と学習
CLIP: 「3匹のシベリアンハ
スキーが芝⽣に座る」と学習