[Journal club] Learning Transferable Visual Models From Natural Language Supervision

Learning Transferable Visual Models From Natural Language Supervision Alec Radford,
Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever (OpenAI) Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021. 杉浦孔明研究室上田雄斗

概要 2 ✓ 画像分類タスクにおいて，様々なデータセットにZero-shot転移が可能な自然言語を教師ラベルとした画像分類モデル ✓ 大規模な自然言語教師データ ”WebImageText” の構築 ✓
完全教師あり学習モデルに匹敵する画像分類精度を達成 • Zero-shot転移：学習用データセットにはない，初めて見るデータセットに対して画像分類タスクを行うこと

背景：画像処理分野における問題点 3 ◼ ラベル付けに非常にコストがかかる ◼ クラス数が限定されたデータセットで学習したモデルは，Zero-shot転移の精度が低い • 一つのデータセットに最適化されてしまい，他のデータセットに対する分類に柔軟に応用できないインターネットから画像と生のテキスト(=自然言語)のペアを収集し，幅広いラベルを学習することで解決を試みる
1=犬 2=猫

既存研究 4 ◼ VirTex [Desai+, 20] • 画像キャプションを用いて，自然言語から視覚表現を事前学習する ◼ ConVIRT
[Zhang+, 20] • 医療画像とテキストレポートから，医療用視覚表現を対照学習 ◼ Visual N-Grams [Li+, 17] • CNNを用いて，画像の内容に関連するn-gramを予測する • 画像分類などのタスクにZero-shot転移 [弱点] 学習したデータセットの規模が小さく，教師あり学習モデルに精度が及ばない大規模なデータセットを構築し，新たな手法(CLIP)で学習

提案手法：Contrastive Language-Image Pre-training (CLIP) 5 ◼ 巨大なデータセット WebImageText (WIT) の構築
• インターネット上から4億個の画像とテキストをデータセットとして構築 • ベースの検索リストとして，Wikipediaで100回以上出現するワードを設定 Step1：Contrastive pre-training Step2：Zero-shot prediction ◼ モデル構造

Step1：Contrastive pre-training 6 ◼ Image Encoder • Vision Transformer (ViT-L/14)
[Dosovitskiy+, 20] ◼ Text Encoder • Transformerベースモデル • 12層のTransformer Decoderを連結 • パラメータ数：約6300万

Step1：Contrastive pre-training 7 ◼ 画像とテキストをEncode ◼ 得られた埋め込み表現に重み行列をかけて正規化 ◼ 内積をとってコサイン類似度を計算 ◼
交差エントロピー誤差を最小化（n：バッチサイズ）

Step2：Zero-shot prediction 8 ◼ データセットにあるすべてのラベル候補の中から，コサイン類似度が最も高いラベルを選択

実験・結果：Zero-shot転移で大幅な精度改善 9 ◼ 画像分類タスクに対するZero-shot転移の精度比較 • Visual N-Grams：CNNを用いて，画像の内容に関連するn-gramを予測 ◼ 特に，ImageNet上での精度を11.5％から76.2％に向上させている． •
aYahoo [Farhadi+, CVPR09]： Yahoo画像検索から収集した12のカテゴリを持つ • SUN [Xiao+, CVPR10]：シーン，場所，環境に関する899のカテゴリを持つ CLIPの柔軟性を示している

実験・結果：教師あり学習モデルに匹敵する精度 10 ◼ 各データセットにおいて完全教師あり学習した線形分類器をもつResNet-50との精度比較 ✓ 27個のデータセット中，16個で精度上回る ◼ 精度良い：動画のデータセット（Kinetics700, UCF101）
◼ 精度悪い：専門性が高く，複雑・抽象的なもの自然言語で学習したため，動詞を含むラベルのデータセットで高性能考察（ResNet-50を0とした精度の差） • 衛星画像分類（EuroSAT、RESISC45） • リンパ節腫瘍検出（PatchCamelyon）

定性的評価：様々なデータセットに対して適した分類 11 ImageNet CIFAR-10 Kinetics-700

CLIP動かしてみた：数え上げタスクには向かない 12 Label Prob[%] a photo of three cats 15.39
a photo of four cats 84.57 a photo of two cats 0.05 Label Prob[%] a photo of three carrots 12.65 a photo of two carrots 82.47 a photo of five carrots 4.88 画像内の数を数え上げるタスクにはうまく機能しないと考えられる [改善案] 別に用意した「数に関するラベル」を使用して，fine tuningする GT GT https://github.com/openai/CLIP

まとめ 13 ✓ 画像分類タスクにおいて，様々なデータセットにZero-shot転移が可能な自然言語を教師ラベルとした画像分類モデル ✓ 巨大な自然言語教師データ ”WebImageText” の構築 ✓
完全教師あり学習モデルに匹敵する画像分類精度を達成

[Journal club] Learning Transferable Visual Mod...

[Journal club] Learning Transferable Visual Models From Natural Language Supervision

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Learning Transferable Visual Models From Natural Language Supervision Alec Radford,

概要 2 ✓ 画像分類タスクにおいて，様々なデータセットにZero-shot転移が可能な自然言語を教師ラベルとした画像分類モデル ✓ 大規模な自然言語教師データ ”WebImageText” の構築 ✓

既存研究 4 ◼ VirTex [Desai+, 20] • 画像キャプションを用いて，自然言語から視覚表現を事前学習する ◼ ConVIRT

提案手法：Contrastive Language-Image Pre-training (CLIP) 5 ◼ 巨大なデータセット WebImageText (WIT) の構築

Step1：Contrastive pre-training 6 ◼ Image Encoder • Vision Transformer (ViT-L/14)

Step1：Contrastive pre-training 7 ◼ 画像とテキストをEncode ◼ 得られた埋め込み表現に重み行列をかけて正規化 ◼ 内積をとってコサイン類似度を計算 ◼

Step2：Zero-shot prediction 8 ◼ データセットにあるすべてのラベル候補の中から，コサイン類似度が最も高いラベルを選択

定性的評価：様々なデータセットに対して適した分類 11 ImageNet CIFAR-10 Kinetics-700

CLIP動かしてみた：数え上げタスクには向かない 12 Label Prob[%] a photo of three cats 15.39

まとめ 13 ✓ 画像分類タスクにおいて，様々なデータセットにZero-shot転移が可能な自然言語を教師ラベルとした画像分類モデル ✓ 巨大な自然言語教師データ ”WebImageText” の構築 ✓