Upgrade to Pro — share decks privately, control downloads, hide ads and more …

FUSE-RSVLM: Feature Fusion Vision-Language Mode...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、
「FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing」です。
本研究は、衛星・UAV画像を対象に、マルチスケール視覚特徴の融合と再注入によって、
小物体・数・位置関係まで含めた状況説明・VQA・分類・キャプション生成を
高精度に行うリモートセンシング特化VLMを提案します。
293Kの指示データで学習し、視覚情報の“忘却”を抑える設計により、
複数RSベンチマークで既存RS-VLMや汎用VLMを安定して上回る性能を示しています。
Dang et al. (2025), “FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing” arXiv:2512.24022. より引用

Avatar for SatAI.challenge

SatAI.challenge

January 30, 2026
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. FUSE-RSVLM 
 画像を”読む”ための視覚言語モデル 
 Feature Fusion Vision-Language Model for Remote

    Sensing 
 フリーランサー
 柴田たけお
 1 Yunkai Dang, Donghao Wang et al.** Nanjing University https://arxiv.org/pdf/2512.24022 ※ 本資料中で個別に出典を明記していない図・概念図は, Dang et al. (2025), “FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing” (arXiv:2512.24022) を基に作成しています。
  2. 目次
 3 ▪ 自己紹介
 ▪ 研究の1ページサマリ ▪ 研究の背景 ▪ 関連研究

    ▪ 手法 ▪ 実験
 ▪ 実装による推論再現結果 ▪ まとめ ▪ 参考文献 
 
 
 

  3. FUSE-RSVLMの1ページサマリ 
 7 •目的 衛星・UAV画像において、小物体や局所構造を見失わず 、状況説明・質問応答・分類を高精度に行う リモートセンシング特化 Vision-Language Model(VLM)を構築 •対応データ

    光学リモートセンシング画像( RGB) 高解像度衛星・UAV(Unmanned Aerial Vehicle)無人機撮影画像 •主な機能 分類、キャプション生成、質問応答(存在・数・位置)、カウント •強み 小物体・数・位置推定で既存 RS-VLM/汎用VLMを上回る 高解像度情報を保持したまま言語生成が可能 視覚情報の忘却(visual forgetting)を抑制 •技術的特徴 マルチスケール視覚特徴抽出(低解像度+高解像度) LLMへの視覚特徴の再注入( feature injection) •学習データ・性能 約29万のRS指示データで学習 VQA・分類・キャプションで複数 RSベンチマークSOTA
  4. 研究の背景 
 9 •背景 Vision-Language Model(VLM)は分類・QA・推論で高性能だが、 衛星・UAV画像(Remote Sensing)ではそのまま機能しない * 原因①:解像度問題

    多くのRS-VLMは高解像度画像を単一スケールで縮小し、 車両・船・道路など小さく細い構造が消失 * 原因②:特徴表現の限界 Vision Encoderの最終層のみをLLMに入力するため、 局所的・低レベルな視覚特徴が保持されない * 原因③:視覚情報の忘却 視覚トークンを一度だけLLMに与える設計により、 生成途中で言語側に引きずられ視覚的根拠が薄れる (visual forgetting) •提案手法( MF-RSVLM) マルチスケール視覚特徴(全体+局所)を抽出・融合し、 LLMの複数層に視覚特徴を再注入 するRS特化VLMを提案 •学習と評価 キャプション・VQA・分類など 6タスク・29万件のRS指示データ で学習し、 分類・キャプション・VQAで既存RS-VLM/汎用VLMを上回る性能 を達成
  5. 関連研究
 11 1. 汎用 Vision–Language Models(VLM) CLIP・ALIGN・SimVLM などにより、画像と言語の大規模対応付けが進展 BLIP /

    BLIP-2、LLaVA、InstructBLIP によりキャプション生成・ VQA・視覚推論 が可能に Claude / Gemini / GPT-5、Qwen2.5-VL、InternVL などは高解像度入力や汎用マルチモーダル理解 に強み ただし 衛星画像特有の高解像度・小物体・空間構造には不十分 2. リモートセンシング向け VLM(RS-VLM) 統合型モデル :EarthGPT、RSUniVLM、FlexiMo→ 光学・SAR・マルチスペクトルを横断的に扱う 高解像度・大規模文脈対応 :GeoLLaVA-8K→ 超高解像度シーンへの対応 信頼性・不確実性重視 :VHM→ ハルシネーション抑制 対話型 RS-VLM:RSGPT、GeoChat、SkyEyeGPT、EarthDial→ 大規模指示データによる自然言語対話とEO理解 しかし多くは 単一スケール入力 や視覚情報の保持不足 という課題を残す 3. マルチスケール特徴抽出・融合 物体検出・分類・時系列解析でマルチスケール特徴融合 は広く研究 (Pyramid Transformer、FA-YOLO、MAFNet 等) Remote Sensing 向けにもMSFMamba などが提案されている ただしこれらはVLMにおける言語生成中の視覚保持までは未対応 4. 本研究の位置づけ 既存 RS-VLM(EarthDial 等)の 対話・汎用性路線 を踏まえつつマルチスケール視覚特徴 × LLMへの再注入 により 小物体・局所構造を 言語生成の最後まで保持 する点が新規 

  6. •学習戦略( Two-stage) Stage 1:Pretraining VersaD を用いた事前学習(Vision Encoder + MLP +

    LLM を end-to-end) Stage 2:Supervised Fine-Tuning Vision Encoder を固定し、RS指示データで最適化 (VHM・EarthDial と同系統の設計) •指示データセット概要 総数:293,202 インスタンス 統一フォーマット : ⟨image(+bbox), instruction, output⟩ 6タスクを網羅 : Captioning / VQA / Visual Grounding / Classification / Instruction-style QA / Detection •データ構成 UAV + Satellite 画像 光学RGBリモートセンシング画像 VRSBench / RSVQA / DOTA / FAIR1M / DIOR / NWPU-RESISC45 / fMoW / UCMerced-LandUse / RSITMD など 広く使われる RSベンチマークを統合 •設計上の工夫 地理分布・解像度を考慮したサンプリング マルチタスク指示により 汎用RS状況理解と推論能力を同時に学習 手法 (1/4): データセット 

  7. •基本構成 Vision Encoder → MLP Projector → LLM からなる標準的VLMパイプライン •使用モデル

    Vision Encoder:CLIP ViT-L/14@336 LLM:Vicuna-v1.5(7B) •入力設計 低解像度画像(336×336)で全体文脈を取得 高解像度画像(672×672)から マルチスケール局所パッチを生成 •特徴処理の流れ 低・高解像度画像を共有の Vision Encoderで処理 局所特徴を統合し高解像度の特徴キャンバスを構築 Global / Local 特徴を結合し、MLPでLLM空間へ射影 •LLMとの統合 融合された詳細特徴を、 LLMの選択された中間層へ注入 •学習戦略( Two-stage) Stage 1:Vision Encoder・MLP・LLMを end-to-end で事前学習 Stage 2:Vision Encoderを固定し、MLPとLLMのみを指示データで微調整 手法 (2/4): アーキテクチャー 

  8. •背景 既存RS-VLMは高解像度画像を単一スケールで縮小し、小物体や細い構造(車・船・道路)を失いやすい •前提 入力画像を 高解像度キャンバス( S = 672) に正規化 視覚情報を

    低解像度で潰さず保持 することを重視 •提案:マルチスケール視覚表現 低解像度ビュー :シーン全体の文脈( global context) 高解像度ビュー :スライディングウィンドウによる局所詳細         複数スケール・複数層の特徴を同時に抽出   高解像度で切り刻んで見た “局所パッチの特徴”を、元の空間配置を保ったまま、 1枚の高解像度特徴マップに “復元” その際重なり部分は HAN窓で滑らかにして戻す。 •効果 単一スケールでは消える小物体・局所構造を保持 “何があるか ”を正確に捉える視覚表現を回復 手法 (3/4): マルチスケール視覚表現による“見る力”の回復
 👉低解像度で全体を見つつ、高解像度を“切り刻んで”何度も見直し、 
   それらを同じ座標系に戻して統合する 

  9. •課題(Visual Forgetting) 既存RS-VLMでは、視覚トークンを一度だけLLMに入力 生成が進むにつれ、表現が言語側に引きずられ細かな視覚情報が失われる •基本アイデア 視覚情報を「一度渡して終わり」にしない 視覚特徴を言語生成の途中でも参照・更新 する •視覚特徴の融合( Fusion)

    マルチスケールで得られた局所特徴群から現在の文脈に必要な詳細のみを選択 Global 特徴と Local 特徴を結合し、LLM空間へ射影 •再注入( Injection) 融合された視覚特徴をLLMの複数中間層(例: 2 / 4 / 6 / 8層)に繰り返し注入 Router:どの視覚詳細を使うかを選択 Gate:どれだけ言語表現に反映するかを制御 •効果 言語生成の最後まで視覚的根拠を保持 小物体・数・位置関係に関するより正確な記述・ VQA応答が可能 手法 (4/4): 視覚特徴の融合と再注入による「忘れない」言語生成
 👉「LLMの推論が進んでいる途中で、“今この文脈に必要な視覚情報だけ”を選び直して、何度も思い出させる仕組み
 通常VLM → 最初に画像を見せたら、あとは言語だけで考える MF-RSVLM → 考えてる途中で、何度も 画像の細部を確認し直す 
 

  10. 実験(1/4): 実験設定 
 18 •評価タスク( 3系統) [1]. VQA(質問応答)[2]. Scene Classification(シーン分類)[3].

    Image Captioning(キャプション生成) •評価データセット & 指標 *VQA:RSVQA-LRBEN(Presence / Comparison)+ VRSBench VQA(9カテゴリ) 指標:Accuracy(RSVQAはPresence/Comparison/Avg、VRSBenchはサブタイプ平均) *Classification:AID / WHU-RS19 / NWPU-RESISC45 / SIRI-WHU / EuroSAT / METER-ML / fMoW 指標:Top-1 Accuracy(各データセット+マクロ平均) *Captioning:UCM-Captions / RSICD / RSITMD / NWPU-Captions / Sydney-Captions / VRSBench-Cap 指標:BLEU-4 / METEOR / CIDEr / ROUGE-L •学習条件(計算資源・スケジュール) *Pretraining:VersaD、8×A6000、1 epoch、bs=12/GPU、lr=2e-5(約42時間) *SFT:multi-scale sliding window + HDA有効化、CLIP encoder固定(入力336×336)、 更新対象=MLP/ルーティング&ゲート&融合/Vicuna-7B *293K instruction corpus、2 epoch、bs=6/GPU、lr=2e-5(約38時間、画像は主に≤800×800) •比較モデル(公平比較のため 3グループ) *Closed-source VLM:Claude-sonnet-4 / Gemini-2.0 / GPT-5 *Open-source VLM:MiniGPT-v2、InstructBLIP、LLaVA-1.5-7B、Qwen2.5-VL-7B、InternVL(2.5/3.5)、Phi-3.5-Vision、MiniCPM-V-2.6 など *Remote-sensing VLM:VHM / SkySenseGPT / EarthDial / GeoChat / GeoLLaVA-8K 👉狙い:VQA/分類/キャプションの3系統で、汎用VLM・商用VLM・RS特化VLMと同じ土俵で比較する。
  11. 実験(2/4): 実験結果 
 19 VQA(VRSBench / RSVQA) * 9種類の知覚タスク(Category /

    Existence / Position / Quantity / …)で評価 * 平均精度 65.76% で全モデル中トップ - 最強の Open-source VLM(GLM-4.1V-thinking)を +4.93% 上回る - 商用VLM(Claude-sonnet-4)を +3.67% 上回る * RS特化モデルとの差が顕著 - VHM 比 +14.25% - SkySenseGPT 比 +21.06% *特に Position / Existence / Category で大幅改善 → 細粒度の視覚情報を保持できていることを示唆 Image Captioning(5データセット) * UCM-Captions / RSICD / RSITMD / NWPU / Sydney で評価 * UCM-Captions と Sydney-Captions で新SOTA - BLEU / METEOR / CIDEr / ROUGE-L の全指標で大幅向上 * 他データセットでも METEOR・ROUGE-L は最上位クラス * multi-scale feature injection により色・数・方向などの 具体性が高い記述を生成 Scene Classification(7データセット) * 平均 Top-1 Accuracy = 74.51%(全体1位) - 最強RS特化モデル(LHRS-Bot)比 +2.68% -最強汎用VLM(InternVL 3.5)比 +11.73% * AID / SIRI-WHU などで特に改善 → グローバル文脈+局所構造の両立が有効 VQA / Captioning / Classification の全系統でトップ性能 汎用VLMにも RS特化VLMにも 一貫して勝つ 改善の源泉は 👉 multi-scale 特徴抽出 + LLMへの段階的注入
  12. 実験(3/4): 解析(アブレーションと例) 
 20 ① LLMへの視覚特徴注入は「深さ」が重要 視覚特徴を LLMの複数層(2/4/6/8)に段階的に注入すると性能が最大化 浅い層のみ注入より、全タスクで一貫して精度向上 例:METER-ML

    66.37% → 72.74%(+6.37%) →視覚情報の“忘却”を防ぎ、推論の安定性が向上 ② Multi-scale(窓サイズ×ViT層)の組み合わせが効く Dual-window(336 + 168)+ ViT層 8/16/24 が最良 Single-windowにすると 全データセットで性能低下 METER-ML:−8.85% AID:−4.57% HR-Comp:−8.00% 平均で +5.78% の改善 → 大域文脈と局所構造は補完関係 ③ Fine-tuningは「短すぎると効かない」 1 epoch のSFTでは、提案モジュールの効果が十分に出ない Full fine-tuning により大幅改善 Classification:AID +6.07%, SIRI +8.04% VQA(Image):+11.69% → multi-scale & injection は“十分な最適化”が前提 ④ 定性的にも「数・位置・存在」を正確に把握 Category / Existence / Counting で 他モデルは曖昧 or 誤答 本手法は正しいカテゴリラベル ,橋の存在数,車両の正確な台数を一貫して回答 → 細粒度視覚情報が推論まで保持されている 👉効いた理由は3つ LLMの深層まで視覚特徴を注入 multi-scale × multi-layer の設計 十分な fine-tuning ⇒ 「見る力」を最後まで失わないVLM
  13. まとめ
 23 •結論 * MF-RSVLM:Remote Sensing 向け Multi-scale Feature Fusion

    VLM * 課題設定:小構造の見落としと visual forgetting を同時に解決 * 手法: - Multi-scale 特徴抽出で 大域+局所 を保持 - Recurrent 注入で 視覚情報を最後まで維持 * 成果:VQA / Captioning / Classification で SOTA * 示唆:Multi-scale fusion は RS-VLM設計の有効原則 * 位置づけ:RS Vision–Language の 統一基盤モデル候補 •制約と今後の展望 * 制約:Localization 精度は相対的に低下 * 原因仮説:multi-scale 注入が座標対応を阻害 * 今後:task-aware なスケール選択と Localization 特化設計
  14. • Soni, S., et al. (2025). EarthDial: Turning Multi-sensory Earth

    Observations to Interactive Dialogues. 
 Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 
 arXiv:2412.15190. https://arxiv.org/abs/2412.15190 • Yunkai Dang et al. (2025) FUSE_RSVLM: Feature Fusion Vision-Language Model for Remote Sensing.
 arXiv:2512.24022. https://arxiv.org/pdf/2512.24022
 • Klemmer et al., 2023. SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery. 
 arXiv:2311.17179. https://arxiv.org/pdf/2311.17179
 • Radford, A., et al. (2021) Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the International Conference on Machine Learning (ICML) arXiv:2103.00020. https://arxiv.org/pdf/2103.00020 参考文献