CLIP:Contrastive Language-Image Pretraining
● OpenAIから発表された、画像・テキストペアによる画像認識の事前学習手法
● dog, catなどのラベルではなく、画像・テキストペアを教師として学習する
6
CLIP: Connecting Text and Images
Slide 7
Slide 7 text
CLIPにおける画像・テキストペアによる対照学習
● 画像・テキストの特徴ベクトルをそれぞれ抽出し、同一ペアは類似度を高く、異なるペアは類似度が低くな
るように学習する。(対照学習: Contrastive Learningと呼ばれる)
7
NeRF in the Wild
CLIP: Connecting Text and Images
Slide 8
Slide 8 text
CLIPによるゼロショット推論
● 認識候補カテゴリをテキストとして特徴抽出し、画像特徴ベクトルとの類似度によって分類する
● 学習時に明示的に認識カテゴリを明示することなく、柔軟な認識対象を扱える
8
CLIP: Connecting Text and Images
Slide 9
Slide 9 text
GroupViT: Semantic Segmentation Emerges
from Text Supervision
9
GroupViT:アーキテクチャ全体像
③AvgPoolingによる特徴ベクトルの抽出
(学習時のみ)
● 入力:グループ数分のセグメントトークン
● 出力:単一の特徴ベクトル
15
③
Slide 16
Slide 16 text
GroupViT:Grouping Block
グループトークンとセグメントトークンのアテンション計算
によって、セグメントトークンをグループ化する
● ①各セグメントトークンとグループの対応行列の計算
● ②各グループの特徴量(新しいセグメントトークン)の計算
16
②
①
Slide 17
Slide 17 text
GroupViT:Grouping Block
①各グループとセグメントトークンの対応行列の計算
Gumbel Softmax
● トークンjのグループiへの割り当て確率のモデリング
17
①
Slide 18
Slide 18 text
GroupViT:Grouping Block
①各グループとセグメントトークンの対応行列の計算
Hard assignment
● グループとセグメントの割り当て確率 Alを0/1の
グループ割り当て行列に変換する
● argmax+one-hotは微分不可であるため、実装状の工夫として
上記の定式化を実施
○ sg:stop gradient処理
18
①
Slide 19
Slide 19 text
GroupViT:Grouping Block
②各グループの特徴量(新しいセグメントトークン)の計算
● グループ割り当て行列に基づいてセグメントトークン sl
を統合し、新たなセグメントトークン sl+1を得る
19
②
Slide 20
Slide 20 text
GroupViT:アーキテクチャ全体像
Grouping Stageによってセグメントトークンを統合していくことで、画像の構造を抽出する
20
NeRF in the Wild
Slide 21
Slide 21 text
GroupViT:学習方法
CLIPと同様に、画像・テキストペアの特徴ベクトルを抽出し、正しいペア同士の類似度が高くなるように学習する
(対照学習)
● ①Image-Text Contrastive Loss
○ CLIPと同様の対照損失
● ②Multi-Label Image-Text Contrastive Loss
○ オリジナルのテキストからランダムに名詞を
抽出・生成したテキストによる対照損失
○ Positive pairを水増しできる
● Total loss:①+②
21
NeRF in the Wild
①
②
Slide 22
Slide 22 text
GroupViT:ゼロショットのセグメンテーション
カテゴリ分類と領域割り当てによってセグメンテーションを行う
● カテゴリ分類
○ セグメントトークンとテキスト特徴ベクトル
の類似度に基づいて分類を実施
22
NeRF in the Wild