FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing

Embed

Start on current slide

Slide 1

Slide 1 text

FUSE-RSVLM   画像を”読む”ための視覚言語モデル   Feature Fusion Vision-Language Model for Remote Sensing   フリーランサー  柴田たけお  1 Yunkai Dang, Donghao Wang et al.** Nanjing University https://arxiv.org/pdf/2512.24022 ※ 本資料中で個別に出典を明記していない図・概念図は， Dang et al. (2025), “FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing” (arXiv:2512.24022) を基に作成しています。

Slide 2

Slide 2 text

目次  3 ■ 自己紹介  ■ 研究の１ページサマリ ■ 研究の背景 ■ 関連研究 ■ 手法 ■ 実験  ■ 実装による推論再現結果 ■ まとめ ■ 参考文献        

Slide 3

Slide 3 text

4 自己紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

柴田たけおフリーランサー東北大学理学部、カリフォルニア大学バークレー大学院で地物専攻その後IT業界で30年近くSYSTEM ENGINNERとしてシステム開発にかかわる。現在はAIとGISやリモートセンシングを組み合わせたソリューションに興味あり最近開発活動（ POCも含む） ●衛星.GIS関連: 衛星画像LANDSATと統計データを利用した新潟県の収穫量予測, 物流の最適運搬システム ●一般AI関連: 開発実績: 音声特徴量での健康診断, 顔認証, 画像生成, 自動コード生成, END2ENDでのAI医療応用提案 ●その他: SNSのコメントと写真情報からの災害対応システム自己紹介 X Zenn 5

Slide 5

Slide 5 text

6 研究の1ページサマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

FUSE-RSVLMの１ページサマリ   7 ●目的衛星・UAV画像において、小物体や局所構造を見失わず、状況説明・質問応答・分類を高精度に行うリモートセンシング特化 Vision-Language Model（VLM）を構築 ●対応データ光学リモートセンシング画像（ RGB）高解像度衛星・UAV(Unmanned Aerial Vehicle)無人機撮影画像 ●主な機能分類、キャプション生成、質問応答（存在・数・位置）、カウント ●強み小物体・数・位置推定で既存 RS-VLM／汎用VLMを上回る高解像度情報を保持したまま言語生成が可能視覚情報の忘却（visual forgetting）を抑制 ●技術的特徴マルチスケール視覚特徴抽出（低解像度＋高解像度） LLMへの視覚特徴の再注入（ feature injection） ●学習データ・性能約29万のRS指示データで学習 VQA・分類・キャプションで複数 RSベンチマークSOTA

Slide 7

Slide 7 text

8 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

研究の背景   9 ●背景 Vision-Language Model（VLM）は分類・QA・推論で高性能だが、衛星・UAV画像（Remote Sensing）ではそのまま機能しない * 原因①：解像度問題多くのRS-VLMは高解像度画像を単一スケールで縮小し、車両・船・道路など小さく細い構造が消失 * 原因②：特徴表現の限界 Vision Encoderの最終層のみをLLMに入力するため、局所的・低レベルな視覚特徴が保持されない * 原因③：視覚情報の忘却視覚トークンを一度だけLLMに与える設計により、生成途中で言語側に引きずられ視覚的根拠が薄れる（visual forgetting） ●提案手法（ MF-RSVLM）マルチスケール視覚特徴（全体＋局所）を抽出・融合し、 LLMの複数層に視覚特徴を再注入するRS特化VLMを提案 ●学習と評価キャプション・VQA・分類など 6タスク・29万件のRS指示データで学習し、分類・キャプション・VQAで既存RS-VLM／汎用VLMを上回る性能を達成

Slide 9

Slide 9 text

10 関連研究 This image was generated by ChatGPT

Slide 10

Slide 10 text

関連研究  11 1. 汎用 Vision–Language Models（VLM） CLIP・ALIGN・SimVLM などにより、画像と言語の大規模対応付けが進展 BLIP / BLIP-2、LLaVA、InstructBLIP によりキャプション生成・ VQA・視覚推論が可能に Claude / Gemini / GPT-5、Qwen2.5-VL、InternVL などは高解像度入力や汎用マルチモーダル理解に強みただし衛星画像特有の高解像度・小物体・空間構造には不十分 2. リモートセンシング向け VLM（RS-VLM）統合型モデル：EarthGPT、RSUniVLM、FlexiMo→ 光学・SAR・マルチスペクトルを横断的に扱う高解像度・大規模文脈対応：GeoLLaVA-8K→ 超高解像度シーンへの対応信頼性・不確実性重視：VHM→ ハルシネーション抑制対話型 RS-VLM：RSGPT、GeoChat、SkyEyeGPT、EarthDial→ 大規模指示データによる自然言語対話とEO理解しかし多くは単一スケール入力や視覚情報の保持不足という課題を残す 3. マルチスケール特徴抽出・融合物体検出・分類・時系列解析でマルチスケール特徴融合は広く研究（Pyramid Transformer、FA-YOLO、MAFNet 等） Remote Sensing 向けにもMSFMamba などが提案されているただしこれらはVLMにおける言語生成中の視覚保持までは未対応 4. 本研究の位置づけ既存 RS-VLM（EarthDial 等）の対話・汎用性路線を踏まえつつマルチスケール視覚特徴 × LLMへの再注入により小物体・局所構造を言語生成の最後まで保持する点が新規  

Slide 11

Slide 11 text

12 手法 This image was generated by ChatGPT

Slide 12

Slide 12 text

●学習戦略（ Two-stage） Stage 1：Pretraining VersaD を用いた事前学習（Vision Encoder + MLP + LLM を end-to-end） Stage 2：Supervised Fine-Tuning Vision Encoder を固定し、RS指示データで最適化（VHM・EarthDial と同系統の設計） ●指示データセット概要総数：293,202 インスタンス統一フォーマット： ⟨image（＋bbox）, instruction, output⟩ 6タスクを網羅： Captioning / VQA / Visual Grounding / Classification / Instruction-style QA / Detection ●データ構成 UAV + Satellite 画像光学RGBリモートセンシング画像 VRSBench / RSVQA / DOTA / FAIR1M / DIOR / NWPU-RESISC45 / fMoW / UCMerced-LandUse / RSITMD など広く使われる RSベンチマークを統合 ●設計上の工夫地理分布・解像度を考慮したサンプリングマルチタスク指示により汎用RS状況理解と推論能力を同時に学習手法 (1/4): データセット  

Slide 13

Slide 13 text

●基本構成 Vision Encoder → MLP Projector → LLM からなる標準的VLMパイプライン ●使用モデル Vision Encoder：CLIP ViT-L/14@336 LLM：Vicuna-v1.5（7B） ●入力設計低解像度画像（336×336）で全体文脈を取得高解像度画像（672×672）からマルチスケール局所パッチを生成 ●特徴処理の流れ低・高解像度画像を共有の Vision Encoderで処理局所特徴を統合し高解像度の特徴キャンバスを構築 Global / Local 特徴を結合し、MLPでLLM空間へ射影 ●LLMとの統合融合された詳細特徴を、 LLMの選択された中間層へ注入 ●学習戦略（ Two-stage） Stage 1：Vision Encoder・MLP・LLMを end-to-end で事前学習 Stage 2：Vision Encoderを固定し、MLPとLLMのみを指示データで微調整手法 (2/4): アーキテクチャー  

Slide 14

Slide 14 text

●背景既存RS-VLMは高解像度画像を単一スケールで縮小し、小物体や細い構造（車・船・道路）を失いやすい ●前提入力画像を高解像度キャンバス（ S = 672）に正規化視覚情報を低解像度で潰さず保持することを重視 ●提案：マルチスケール視覚表現低解像度ビュー：シーン全体の文脈（ global context）高解像度ビュー：スライディングウィンドウによる局所詳細　　　　　　　　複数スケール・複数層の特徴を同時に抽出　　高解像度で切り刻んで見た “局所パッチの特徴”を、元の空間配置を保ったまま、 1枚の高解像度特徴マップに “復元” その際重なり部分は HAN窓で滑らかにして戻す。 ●効果単一スケールでは消える小物体・局所構造を保持 “何があるか ”を正確に捉える視覚表現を回復手法 (3/4): マルチスケール視覚表現による“見る力”の回復  👉低解像度で全体を見つつ、高解像度を“切り刻んで”何度も見直し、   　　それらを同じ座標系に戻して統合する  

Slide 15

Slide 15 text

●課題（Visual Forgetting）既存RS-VLMでは、視覚トークンを一度だけLLMに入力生成が進むにつれ、表現が言語側に引きずられ細かな視覚情報が失われる ●基本アイデア視覚情報を「一度渡して終わり」にしない視覚特徴を言語生成の途中でも参照・更新する ●視覚特徴の融合（ Fusion）マルチスケールで得られた局所特徴群から現在の文脈に必要な詳細のみを選択 Global 特徴と Local 特徴を結合し、LLM空間へ射影 ●再注入（ Injection）融合された視覚特徴をLLMの複数中間層（例： 2 / 4 / 6 / 8層）に繰り返し注入 Router：どの視覚詳細を使うかを選択 Gate：どれだけ言語表現に反映するかを制御 ●効果言語生成の最後まで視覚的根拠を保持小物体・数・位置関係に関するより正確な記述・ VQA応答が可能手法 (4/4): 視覚特徴の融合と再注入による「忘れない」言語生成  👉「LLMの推論が進んでいる途中で、“今この文脈に必要な視覚情報だけ”を選び直して、何度も思い出させる仕組み  通常VLM →　最初に画像を見せたら、あとは言語だけで考える MF-RSVLM →　考えてる途中で、何度も画像の細部を確認し直す    

Slide 16

Slide 16 text

17 実験 This image was generated by ChatGPT

Slide 17

Slide 17 text

実験(1/4): 実験設定   18 ●評価タスク（ 3系統） [1]. VQA（質問応答）[2]. Scene Classification（シーン分類）[3]. Image Captioning（キャプション生成） ●評価データセット & 指標 *VQA：RSVQA-LRBEN（Presence / Comparison）＋ VRSBench VQA（9カテゴリ）指標：Accuracy（RSVQAはPresence/Comparison/Avg、VRSBenchはサブタイプ平均） *Classification：AID / WHU-RS19 / NWPU-RESISC45 / SIRI-WHU / EuroSAT / METER-ML / fMoW 指標：Top-1 Accuracy（各データセット＋マクロ平均） *Captioning：UCM-Captions / RSICD / RSITMD / NWPU-Captions / Sydney-Captions / VRSBench-Cap 指標：BLEU-4 / METEOR / CIDEr / ROUGE-L ●学習条件（計算資源・スケジュール） *Pretraining：VersaD、8×A6000、1 epoch、bs=12/GPU、lr=2e-5（約42時間） *SFT：multi-scale sliding window + HDA有効化、CLIP encoder固定（入力336×336）、更新対象＝MLP/ルーティング&ゲート&融合/Vicuna-7B *293K instruction corpus、2 epoch、bs=6/GPU、lr=2e-5（約38時間、画像は主に≤800×800） ●比較モデル（公平比較のため 3グループ） *Closed-source VLM：Claude-sonnet-4 / Gemini-2.0 / GPT-5 *Open-source VLM：MiniGPT-v2、InstructBLIP、LLaVA-1.5-7B、Qwen2.5-VL-7B、InternVL(2.5/3.5)、Phi-3.5-Vision、MiniCPM-V-2.6 など *Remote-sensing VLM：VHM / SkySenseGPT / EarthDial / GeoChat / GeoLLaVA-8K 👉狙い：VQA/分類/キャプションの3系統で、汎用VLM・商用VLM・RS特化VLMと同じ土俵で比較する。

Slide 18

Slide 18 text

実験(2/4): 実験結果   19 VQA（VRSBench / RSVQA） * 9種類の知覚タスク（Category / Existence / Position / Quantity / …）で評価 * 平均精度 65.76% で全モデル中トップ - 最強の Open-source VLM（GLM-4.1V-thinking）を +4.93% 上回る - 商用VLM（Claude-sonnet-4）を +3.67% 上回る * RS特化モデルとの差が顕著 - VHM 比 +14.25% - SkySenseGPT 比 +21.06% *特に Position / Existence / Category で大幅改善 → 細粒度の視覚情報を保持できていることを示唆 Image Captioning（5データセット） * UCM-Captions / RSICD / RSITMD / NWPU / Sydney で評価 * UCM-Captions と Sydney-Captions で新SOTA - BLEU / METEOR / CIDEr / ROUGE-L の全指標で大幅向上 * 他データセットでも METEOR・ROUGE-L は最上位クラス * multi-scale feature injection により色・数・方向などの具体性が高い記述を生成 Scene Classification（7データセット） * 平均 Top-1 Accuracy = 74.51%（全体1位） - 最強RS特化モデル（LHRS-Bot）比 +2.68% -最強汎用VLM（InternVL 3.5）比 +11.73% * AID / SIRI-WHU などで特に改善 → グローバル文脈＋局所構造の両立が有効 VQA / Captioning / Classification の全系統でトップ性能汎用VLMにも RS特化VLMにも一貫して勝つ改善の源泉は 👉 multi-scale 特徴抽出 + LLMへの段階的注入

Slide 19

Slide 19 text

実験(3/4): 解析(アブレーションと例)   20 ① LLMへの視覚特徴注入は「深さ」が重要視覚特徴を LLMの複数層（2/4/6/8）に段階的に注入すると性能が最大化浅い層のみ注入より、全タスクで一貫して精度向上例：METER-ML 66.37% → 72.74%（+6.37%） →視覚情報の“忘却”を防ぎ、推論の安定性が向上 ② Multi-scale（窓サイズ×ViT層）の組み合わせが効く Dual-window（336 + 168）＋ ViT層 8/16/24 が最良 Single-windowにすると全データセットで性能低下 METER-ML：−8.85% AID：−4.57% HR-Comp：−8.00% 平均で +5.78% の改善　→ 大域文脈と局所構造は補完関係 ③ Fine-tuningは「短すぎると効かない」 1 epoch のSFTでは、提案モジュールの効果が十分に出ない Full fine-tuning により大幅改善 Classification：AID +6.07%, SIRI +8.04% VQA（Image）：+11.69% → multi-scale & injection は“十分な最適化”が前提 ④ 定性的にも「数・位置・存在」を正確に把握 Category / Existence / Counting で他モデルは曖昧 or 誤答本手法は正しいカテゴリラベル ,橋の存在数,車両の正確な台数を一貫して回答 → 細粒度視覚情報が推論まで保持されている 👉効いた理由は3つ LLMの深層まで視覚特徴を注入 multi-scale × multi-layer の設計十分な fine-tuning ⇒ 「見る力」を最後まで失わないVLM

Slide 20

Slide 20 text

実験(4/4): 定性的な結果と比較   21 画像の主要な自然地形は何？　　　　　橋は2本以上ある？　　　　　　　　車両は何台？　　　 

Slide 21

Slide 21 text

22 まとめ This image was generated by ChatGPT

Slide 22

Slide 22 text

まとめ  23 ●結論 * MF-RSVLM：Remote Sensing 向け Multi-scale Feature Fusion VLM * 課題設定：小構造の見落としと visual forgetting を同時に解決 * 手法： - Multi-scale 特徴抽出で大域＋局所を保持 - Recurrent 注入で視覚情報を最後まで維持 * 成果：VQA / Captioning / Classification で SOTA * 示唆：Multi-scale fusion は RS-VLM設計の有効原則 * 位置づけ：RS Vision–Language の統一基盤モデル候補 ●制約と今後の展望 * 制約：Localization 精度は相対的に低下 * 原因仮説：multi-scale 注入が座標対応を阻害 * 今後：task-aware なスケール選択と Localization 特化設計

Slide 23

Slide 23 text

24 参考文献 This image was generated by ChatGPT

Slide 24

Slide 24 text

● Soni, S., et al. (2025). EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues.   Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).   arXiv:2412.15190. https://arxiv.org/abs/2412.15190 ● Yunkai Dang et al. (2025) FUSE_RSVLM: Feature Fusion Vision-Language Model for Remote Sensing.  arXiv:2512.24022. https://arxiv.org/pdf/2512.24022  ● Klemmer et al., 2023. SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery.   arXiv:2311.17179. https://arxiv.org/pdf/2311.17179  ● Radford, A., et al. (2021) Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the International Conference on Machine Learning (ICML) arXiv:2103.00020. https://arxiv.org/pdf/2103.00020 参考文献