GroupViT CVPR2022読み会スライド

第11回全日本コンピュータビジョン勉強会　Presenter：廣岡大吾

自己紹介 • 廣岡大吾 ◦ Twitter：dhirooka (@daigo_hirooka) • 機械学習エンジニア＠ BrainPad •
関心 ◦ Deep Learning ◦ 機械学習の実用化 ◦ ソフトウェアアーキテクチャ 2

紹介論文：GroupViT • セマンティックセグメンテーションを行うモデル • ピクセル単位ラベルではなく、画像・テキストペアによって対照学習を行う • 認識カテゴリをテキストとして入力できるので、柔軟に認識カテゴリを設定できる •
選んだ理由：画像アノテーションに触れる機会があり、効率化や省力化に興味があったため • https://github.com/NVlabs/GroupViT 3

関連研究 4 トピック概要 GroupViTでの利用 Vision Transformer （ViT）画像をパッチに分割し、トークン集合として処理するモデルアーキテクチャ
Grouping Blockによってトークンを統合し、セグメンテーションを行うテキスト教師による画像認識学習画像・テキストペアによる学習方式。幅広いカテゴリの認識が可能。 CLIP（後述）が有名 CLIPと同様の学習方式を実施。幅広いカテゴリの認識が可能セグメンテーションの学習ピクセル単位で画像内の物体を予測するタスク。学習データの作成が大変 Webから収集できる豊富な画像・テキストペアで学習可能。

テキスト教師による画像認識 5

CLIP：Contrastive Language-Image Pretraining • OpenAIから発表された、画像・テキストペアによる画像認識の事前学習手法 • dog, catなどのラベルではなく、画像・テキストペアを教師として学習する 6 CLIP:
Connecting Text and Images

CLIPにおける画像・テキストペアによる対照学習 • 画像・テキストの特徴ベクトルをそれぞれ抽出し、同一ペアは類似度を高く、異なるペアは類似度が低くなるように学習する。（対照学習： Contrastive Learningと呼ばれる） 7 NeRF in the
Wild CLIP: Connecting Text and Images

CLIPによるゼロショット推論 • 認識候補カテゴリをテキストとして特徴抽出し、画像特徴ベクトルとの類似度によって分類する • 学習時に明示的に認識カテゴリを明示することなく、柔軟な認識対象を扱える 8 CLIP: Connecting Text and
Images

GroupViT: Semantic Segmentation Emerges from Text Supervision 9

GroupViT：ポイント • Grouping Blockによる段階的なトークンのグルーピング • ピクセル単位ラベルではなく、画像・テキストペアによる対照学習 • テキスト特徴量との類似度計算による
ゼロショット推論（セグメンテーション） 10

GroupViT：アーキテクチャ全体像 ①画像のパッチ分割とトークン化 ②Grouping Stageの積層 ③AvgPoolingによる特徴ベクトルの抽出（学習時のみ） 11 ① ② ③

GroupViT：アーキテクチャ全体像 ①画像のパッチ分割とトークン化 • 画像を16×16のパッチによって分割し、全結合層によってトークン（特徴ベクトル）とする（一般的なViTと同様） 12 ①

GroupViT：アーキテクチャ全体像 ②Grouping Stageの積層 • Grouping Stage：複数のTransformerレイヤ＋Grouping Block • 右図はGrouping
Stage×2の例 13 ②

GroupViT：アーキテクチャ全体像 ②Grouping Stageの積層 • Grouping Stage：複数のTransformerレイヤ＋Grouping Block（後述） • 入力：セグメント・グループトークン
• 出力：セグメントトークン類似したセグメントトークンを階層的にグルーピングし、画像内の構造を抽出する 14 ②

GroupViT：アーキテクチャ全体像 ③AvgPoolingによる特徴ベクトルの抽出（学習時のみ） • 入力：グループ数分のセグメントトークン • 出力：単一の特徴ベクトル 15 ③

GroupViT：Grouping Block グループトークンとセグメントトークンのアテンション計算によって、セグメントトークンをグループ化する • ①各セグメントトークンとグループの対応行列の計算 • ②各グループの特徴量（新しいセグメントトークン）の計算 16 ②
①

GroupViT：Grouping Block ①各グループとセグメントトークンの対応行列の計算 Gumbel Softmax • トークンjのグループiへの割り当て確率のモデリング 17 ①

GroupViT：Grouping Block ①各グループとセグメントトークンの対応行列の計算 Hard assignment • グループとセグメントの割り当て確率 Alを0/1のグループ割り当て行列に変換する •
argmax+one-hotは微分不可であるため、実装状の工夫として上記の定式化を実施 ◦ sg：stop gradient処理 18 ①

GroupViT：Grouping Block ②各グループの特徴量（新しいセグメントトークン）の計算 • グループ割り当て行列に基づいてセグメントトークン sl を統合し、新たなセグメントトークン sl+1を得る 19 ②

GroupViT：アーキテクチャ全体像 Grouping Stageによってセグメントトークンを統合していくことで、画像の構造を抽出する 20 NeRF in the Wild

GroupViT：学習方法 CLIPと同様に、画像・テキストペアの特徴ベクトルを抽出し、正しいペア同士の類似度が高くなるように学習する（対照学習） • ①Image-Text Contrastive Loss ◦ CLIPと同様の対照損失 •
②Multi-Label Image-Text Contrastive Loss ◦ オリジナルのテキストからランダムに名詞を抽出・生成したテキストによる対照損失 ◦ Positive pairを水増しできる • Total loss：①＋② 21 NeRF in the Wild ① ②

GroupViT：ゼロショットのセグメンテーションカテゴリ分類と領域割り当てによってセグメンテーションを行う • カテゴリ分類 ◦ セグメントトークンとテキスト特徴ベクトルの類似度に基づいて分類を実施 22 NeRF in
the Wild

GroupViT：ゼロショットのセグメンテーション 23 カテゴリ分類と領域割り当てによってセグメンテーションを行う • 領域割り当て ◦ 各Grouping Stageのグループ割り当て行列の積によって、各画像パッチとグループの対応が得られる

実験概要 • アーキテクチャ ◦ Grouping Stageが1,2の2種類のGroupViTを構築 ◦ 最終的なグループ数はどちらも 8 ◦
テキストエンコーダは CLIPと同じTransformer • 学習 ◦ CC（12M画像・テキストペア）、 YFCC（14Mペア）データセットで学習 ◦ ゼロショットセグメンテーションは PASCAL VOC2012、PASCAL Contextデータセットで評価 24

実験：hard/soft assignmentの効果 • Hard assignment（グループ割り当て行列の one-hot化）によってマスク精度向上 ◦ →One-hot化によって、グループ間の曖昧性を抑えることができる 25

実験：マルチラベル対照損失の効果 • マルチラベル対照損失の追加によってマスク精度向上 ◦ →学習・推論時のpromptの一貫性が貢献したと考えられる ◦ ※推論時のprompt：「A picture of a
<対象クラス>」 26

実験：グループトークン数の効果 • グループトークンは概ね多いほど優れた認識性能となる ◦ それぞれのグループが画像内の個別のカテゴリに対応できている 27

実験：マルチステージグルーピングの効果 • 2stageのグルーピングによって、セグメンテーションの性能向上 ◦ 定性的にも、より滑らかなセグメンテーションマスクを予測できている 28

実験：既存の事前学習手法との比較 • 既存のDINO、MoCoなどの自己教師あり →ファインチューニング時の精度よりも、 GroupViTのゼロショット推論が優れている ◦ →テキストによる対照学習がセグメンテーションでも有用 29

実験：抽出されたグループの可視化 • 各グループに対応した領域を可視化 ◦ Stage 1：eye, limb ◦ Stage 2：grass,
body, face • →階層的なグルーピングによって、細かい概念を徐々に統合できている 30

Limitations：背景カテゴリの認識 • PASCAL Contextの背景カテゴリ（ground, road, wallなど）は精度が低い（〜 1.5 IoU） ◦ グループ自体は統合できているが、分類が失敗する傾向
◦ →背景がテキストとして描写されづらいことに起因すると考えられる。改善の余地あり 31

まとめ・感想 • 画像・テキストペアによって対照学習を行い、ゼロショットのセグメンテーション推論が可能 ◦ ピクセル単位の（高コストな）アノテーションが不要 ◦ テキストを介してほぼ任意のカテゴリを扱える • Gumbel Softmaxを介したグルーピング（離散化）のテクニックが面白い
◦ wav2vec 2.0（音声生成）でも使われている ◦ モデル内でカテゴリのサンプリングを組み込みたいときには汎用的と思われる • テキスト教師による学習の隆盛を感じた ◦ bboxの扱いが難しいが、物体検知での試みも面白そう 32

References • 記載のない限り画像は GroupViTの論文・プロジェクトページより引用 ◦ GroupViT: Semantic Segmentation Emerges from
Text Supervision • その他論文 ◦ [1611.01144] Categorical Reparameterization with Gumbel-Softmax ◦ Gumbel Softmax Explained | Papers With Code ◦ [2006.11477] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 33

GroupViT CVPR2022読み会スライド

GroupViT CVPR2022読み会スライド

Daigo HIROOKA

More Decks by Daigo HIROOKA

Other Decks in Research

Featured

Transcript

第11回全日本コンピュータビジョン勉強会　Presenter：廣岡大吾

自己紹介 • 廣岡大吾 ◦ Twitter：dhirooka (@daigo_hirooka) • 機械学習エンジニア＠ BrainPad •

関連研究 4 トピック概要 GroupViTでの利用 Vision Transformer （ViT）画像をパッチに分割し、トークン集合として処理するモデルアーキテクチャ

テキスト教師による画像認識 5

CLIP：Contrastive Language-Image Pretraining • OpenAIから発表された、画像・テキストペアによる画像認識の事前学習手法 • dog, catなどのラベルではなく、画像・テキストペアを教師として学習する 6 CLIP:

GroupViT: Semantic Segmentation Emerges from Text Supervision 9

GroupViT：ポイント • Grouping Blockによる段階的なトークンのグルーピング • ピクセル単位ラベルではなく、画像・テキストペアによる対照学習 • テキスト特徴量との類似度計算による

GroupViT：アーキテクチャ全体像 ①画像のパッチ分割とトークン化 ②Grouping Stageの積層 ③AvgPoolingによる特徴ベクトルの抽出（学習時のみ） 11 ① ② ③

GroupViT：アーキテクチャ全体像 ①画像のパッチ分割とトークン化 • 画像を16×16のパッチによって分割し、全結合層によってトークン（特徴ベクトル）とする（一般的なViTと同様） 12 ①

GroupViT：アーキテクチャ全体像 ②Grouping Stageの積層 • Grouping Stage：複数のTransformerレイヤ＋Grouping Block • 右図はGrouping

GroupViT：アーキテクチャ全体像 ②Grouping Stageの積層 • Grouping Stage：複数のTransformerレイヤ＋Grouping Block（後述） • 入力：セグメント・グループトークン

GroupViT：アーキテクチャ全体像 ③AvgPoolingによる特徴ベクトルの抽出（学習時のみ） • 入力：グループ数分のセグメントトークン • 出力：単一の特徴ベクトル 15 ③

GroupViT：Grouping Block ①各グループとセグメントトークンの対応行列の計算 Gumbel Softmax • トークンjのグループiへの割り当て確率のモデリング 17 ①

GroupViT：Grouping Block ①各グループとセグメントトークンの対応行列の計算 Hard assignment • グループとセグメントの割り当て確率 Alを0/1のグループ割り当て行列に変換する •

GroupViT：Grouping Block ②各グループの特徴量（新しいセグメントトークン）の計算 • グループ割り当て行列に基づいてセグメントトークン sl を統合し、新たなセグメントトークン sl+1を得る 19 ②

GroupViT：アーキテクチャ全体像 Grouping Stageによってセグメントトークンを統合していくことで、画像の構造を抽出する 20 NeRF in the Wild

GroupViT：学習方法 CLIPと同様に、画像・テキストペアの特徴ベクトルを抽出し、正しいペア同士の類似度が高くなるように学習する（対照学習） • ①Image-Text Contrastive Loss ◦ CLIPと同様の対照損失 •

GroupViT：ゼロショットのセグメンテーションカテゴリ分類と領域割り当てによってセグメンテーションを行う • カテゴリ分類 ◦ セグメントトークンとテキスト特徴ベクトルの類似度に基づいて分類を実施 22 NeRF in

実験概要 • アーキテクチャ ◦ Grouping Stageが1,2の2種類のGroupViTを構築 ◦ 最終的なグループ数はどちらも 8 ◦

実験：hard/soft assignmentの効果 • Hard assignment（グループ割り当て行列の one-hot化）によってマスク精度向上 ◦ →One-hot化によって、グループ間の曖昧性を抑えることができる 25

実験：マルチラベル対照損失の効果 • マルチラベル対照損失の追加によってマスク精度向上 ◦ →学習・推論時のpromptの一貫性が貢献したと考えられる ◦ ※推論時のprompt：「A picture of a

実験：グループトークン数の効果 • グループトークンは概ね多いほど優れた認識性能となる ◦ それぞれのグループが画像内の個別のカテゴリに対応できている 27

実験：マルチステージグルーピングの効果 • 2stageのグルーピングによって、セグメンテーションの性能向上 ◦ 定性的にも、より滑らかなセグメンテーションマスクを予測できている 28

実験：既存の事前学習手法との比較 • 既存のDINO、MoCoなどの自己教師あり →ファインチューニング時の精度よりも、 GroupViTのゼロショット推論が優れている ◦ →テキストによる対照学習がセグメンテーションでも有用 29

実験：抽出されたグループの可視化 • 各グループに対応した領域を可視化 ◦ Stage 1：eye, limb ◦ Stage 2：grass,

Limitations：背景カテゴリの認識 • PASCAL Contextの背景カテゴリ（ground, road, wallなど）は精度が低い（〜 1.5 IoU） ◦ グループ自体は統合できているが、分類が失敗する傾向

References • 記載のない限り画像は GroupViTの論文・プロジェクトページより引用 ◦ GroupViT: Semantic Segmentation Emerges from