Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Learning Transferable Visual Mod...

[Journal club] Learning Transferable Visual Models From Natural Language Supervision

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Learning Transferable Visual Models From Natural Language Supervision Alec Radford,

    Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever (OpenAI) Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021. 杉浦孔明研究室 上田雄斗
  2. 概要 2 ✓ 画像分類タスクにおいて,様々なデータセットにZero-shot転移が可能な自然言語を 教師ラベルとした画像分類モデル ✓ 大規模な自然言語教師データ ”WebImageText” の構築 ✓

    完全教師あり学習モデルに匹敵する画像分類精度を達成 • Zero-shot転移:学習用データセットにはない,初めて見るデータセットに対して画像分類タスクを 行うこと
  3. 既存研究 4 ◼ VirTex [Desai+, 20] • 画像キャプションを用いて,自然言語から視覚表現を事前学習する ◼ ConVIRT

    [Zhang+, 20] • 医療画像とテキストレポートから,医療用視覚表現を対照学習 ◼ Visual N-Grams [Li+, 17] • CNNを用いて,画像の内容に関連するn-gramを予測する • 画像分類などのタスクにZero-shot転移 [弱点] 学習したデータセットの規模が小さく,教師あり学習モデルに精度が及ばない 大規模なデータセットを構築し,新たな手法(CLIP)で学習
  4. 提案手法:Contrastive Language-Image Pre-training (CLIP) 5 ◼ 巨大なデータセット WebImageText (WIT) の構築

    • インターネット上から4億個の画像とテキストをデータセットとして構築 • ベースの検索リストとして,Wikipediaで100回以上出現するワードを設定 Step1:Contrastive pre-training Step2:Zero-shot prediction ◼ モデル構造
  5. Step1:Contrastive pre-training 6 ◼ Image Encoder • Vision Transformer (ViT-L/14)

    [Dosovitskiy+, 20] ◼ Text Encoder • Transformerベースモデル • 12層のTransformer Decoderを連結 • パラメータ数:約6300万
  6. 実験・結果:Zero-shot転移で大幅な精度改善 9 ◼ 画像分類タスクに対するZero-shot転移の精度比較 • Visual N-Grams:CNNを用いて,画像の内容に関連するn-gramを予測 ◼ 特に,ImageNet上での精度を11.5%から76.2%に向上させている. •

    aYahoo [Farhadi+, CVPR09]: Yahoo画像検索から収集した12のカテゴリを持つ • SUN [Xiao+, CVPR10]: シーン,場所,環境に関する899のカテゴリを持つ CLIPの柔軟性を示している
  7. 実験・結果:教師あり学習モデルに匹敵する精度 10 ◼ 各データセットにおいて完全教師あり学習した 線形分類器をもつResNet-50との精度比較 ✓ 27個のデータセット中,16個で精度上回る ◼ 精度良い:動画のデータセット(Kinetics700, UCF101)

    ◼ 精度悪い:専門性が高く,複雑・抽象的なもの 自然言語で学習したため,動詞を含むラベルのデータセットで高性能 考察 (ResNet-50を0とした精度の差) • 衛星画像分類(EuroSAT、RESISC45) • リンパ節腫瘍検出(PatchCamelyon)
  8. CLIP動かしてみた:数え上げタスクには向かない 12 Label Prob[%] a photo of three cats 15.39

    a photo of four cats 84.57 a photo of two cats 0.05 Label Prob[%] a photo of three carrots 12.65 a photo of two carrots 82.47 a photo of five carrots 4.88 画像内の数を数え上げるタスクにはうまく機能しないと考えられる [改善案] 別に用意した「数に関するラベル」を使用して,fine tuningする GT GT https://github.com/openai/CLIP