• GroupViT[1]は画像とキャプションペアのデータセットだけから,画素単位
のラベルなしでセマンティックセグメンテーションを⾏うモデル
• これまでは画像分類,物体検出タスクでは研究例が存在したが,セマン
ティックセグメンテーションでは研究例がなく,初めての試み
• GroupViTはVision Transformerをベースとしたモデルで,Group tokenと呼
ばれる特殊なトークンを⽤いて,画像パッチをクラスタリングしていく
• 学習には,クラスタリング後のGroup tokenの平均ベクトルと⼊⼒キャプ
ションの埋め込みベクトルによる対照学習によって,最適化を⾏う
• PASCAL VOCなどのベンチマーク上で,既存研究よりも優れたセグメン
テーション性能を⽰した
12
ダメなスライド例:⽂章が多すぎる
[1] Xu+, GroupViT: Semantic Segmentation Emerges from Text Supervision, CVPRʼ22