Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GroupViT CVPR2022読み会スライド

GroupViT CVPR2022読み会スライド

CVPR2022論文読み会で使用した「GroupViT: Semantic Segmentation Emerges from Text Supervision. (Xu et. al.)」のスライド

Daigo HIROOKA

August 21, 2022
Tweet

More Decks by Daigo HIROOKA

Other Decks in Research

Transcript

  1. 自己紹介 • 廣岡大吾 ◦ Twitter:dhirooka (@daigo_hirooka) • 機械学習エンジニア@ BrainPad •

    関心 ◦ Deep Learning ◦ 機械学習の実用化 ◦ ソフトウェアアーキテクチャ 2
  2. 関連研究 4 トピック 概要 GroupViTでの利用 Vision Transformer (ViT) 画像をパッチに分割し、トークン集合とし て処理するモデルアーキテクチャ

    Grouping Blockによってトークンを統合 し、セグメンテーションを行う テキスト教師による画 像認識学習 画像・テキストペアによる学習方式。 幅広いカテゴリの認識が可能。 CLIP(後述)が有名 CLIPと同様の学習方式を実施。 幅広いカテゴリの認識が可能 セグメンテーションの学 習 ピクセル単位で画像内の物体を予測する タスク。学習データの作成が大変 Webから収集できる豊富な 画像・テキストペアで学習可能。
  3. GroupViT:アーキテクチャ全体像 ②Grouping Stageの積層 • Grouping Stage:複数のTransformerレイヤ +Grouping Block(後述) • 入力:セグメント・グループトークン

    • 出力:セグメントトークン 類似したセグメントトークンを階層的に グルーピングし、画像内の構造を抽出する 14 ②
  4. GroupViT:学習方法 CLIPと同様に、画像・テキストペアの特徴ベクトルを抽出し、正しいペア同士の類似度が高くなるように学習する (対照学習) • ①Image-Text Contrastive Loss ◦ CLIPと同様の対照損失 •

    ②Multi-Label Image-Text Contrastive Loss ◦ オリジナルのテキストからランダムに名詞を 抽出・生成したテキストによる対照損失 ◦ Positive pairを水増しできる • Total loss:①+② 21 NeRF in the Wild ① ②
  5. 実験概要 • アーキテクチャ ◦ Grouping Stageが1,2の2種類のGroupViTを構築 ◦ 最終的なグループ数はどちらも 8 ◦

    テキストエンコーダは CLIPと同じTransformer • 学習 ◦ CC(12M画像・テキストペア)、 YFCC(14Mペア)データセットで学習 ◦ ゼロショットセグメンテーションは PASCAL VOC2012、PASCAL Contextデータセットで評価 24
  6. 実験:抽出されたグループの可視化 • 各グループに対応した領域を可視化 ◦ Stage 1:eye, limb ◦ Stage 2:grass,

    body, face • →階層的なグルーピングによって、細かい概念を 徐々に統合できている 30
  7. まとめ・感想 • 画像・テキストペアによって対照学習を行い、ゼロショットのセグメンテーション推論が可能 ◦ ピクセル単位の(高コストな)アノテーションが不要 ◦ テキストを介してほぼ任意のカテゴリを扱える • Gumbel Softmaxを介したグルーピング(離散化)のテクニックが面白い

    ◦ wav2vec 2.0(音声生成)でも使われている ◦ モデル内でカテゴリのサンプリングを組み込みたいときには汎用的と思われる • テキスト教師による学習の隆盛を感じた ◦ bboxの扱いが難しいが、物体検知での試みも面白そう 32
  8. References • 記載のない限り画像は GroupViTの論文・プロジェクトページより引用 ◦ GroupViT: Semantic Segmentation Emerges from

    Text Supervision • その他論文 ◦ [1611.01144] Categorical Reparameterization with Gumbel-Softmax ◦ Gumbel Softmax Explained | Papers With Code ◦ [2006.11477] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 33