呼ばれる特殊なトークンを用いて,画像パッチをクラスタリングしていく • 学習には,クラスタリング後のGroup tokenの平均ベクトルと入力キャプ ションの埋め込みベクトルによる対照学習によって,最適化を行う • PACAL VOCなどのベンチマーク上で,既存研究よりも優れたセグメンテー ション性能を示した 13 典型的なダメなスライド例:文章が多すぎる [1] Xu+, GroupViT: Semantic Segmentation Emerges from Text Supervision, CVPR’22 • 文章が多いスライドは聴衆に認知負荷がかかる • 話を聞こうという気を削ぐきっかけになる • スライドの半分は文章,残り半分は図表,くらいのイメージが良い