Slide 6
Slide 6 text
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
6
● ジオタグで地上画像と衛星画像ペアデータセットを
作成
● GRAFT: 衛星画像エンコーダと CLIP の地上画像
エンコーダを接続することで、衛星画像と CLIP の
テキスト表現を間接的に接続し、テキストアノテー
ションを必要とせずにOpen-vocabulary VLM を構
築する手法を提案
● Zero-shot の Open-vocabulary 画像分類・検索、
セグメンテーション、VQA タスクにおいて、テキスト
アノテーションを必要とするCLIP系ベースラインを
大幅に上回る性能を達成。
テキストアノテーションを必要としないリモセン画像ー言語基盤モデル(VLM)の構築方法を提案
Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用