Slide 12
Slide 12 text
• GroupViT[1]は画像とキャプションペアのデータセットだけから,画素単位
のラベルなしでセマンティックセグメンテーションを行うモデル
• これまでは画像分類,物体検出タスクでは研究例が存在したが,セマン
ティックセグメンテーションでは研究例がなく,初めての試み
• GroupViTはVision Transformerをベースとしたモデルで,Group tokenと
呼ばれる特殊なトークンを用いて,画像パッチをクラスタリングしていく
• 学習には,クラスタリング後のGroup tokenの平均ベクトルと入力キャプ
ションの埋め込みベクトルによる対照学習によって,最適化を行う
• PASCAL VOCなどのベンチマーク上で,既存研究よりも優れたセグメン
テーション性能を示した
12
典型的なダメなスライド例:文章が多すぎる
[1] Xu+, GroupViT: Semantic Segmentation Emerges from Text Supervision, CVPR’22