Slide 1

Slide 1 text

FUSE-RSVLM 
 画像を”読む”ための視覚言語モデル 
 Feature Fusion Vision-Language Model for Remote Sensing 
 フリーランサー
 柴田たけお
 1 Yunkai Dang, Donghao Wang et al.** Nanjing University https://arxiv.org/pdf/2512.24022 ※ 本資料中で個別に出典を明記していない図・概念図は, Dang et al. (2025), “FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing” (arXiv:2512.24022) を基に作成しています。

Slide 2

Slide 2 text

目次
 3 ■ 自己紹介
 ■ 研究の1ページサマリ ■ 研究の背景 ■ 関連研究 ■ 手法 ■ 実験
 ■ 実装による推論再現結果 ■ まとめ ■ 参考文献 
 
 
 


Slide 3

Slide 3 text

4 自己紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

柴田たけお フリーランサー 東北大学理学部、カリフォルニア大学バークレー大学院で地物専攻 その後IT業界で30年近くSYSTEM ENGINNERとしてシステム開発にかかわる。 現在はAIとGISやリモートセンシングを組み合わせたソリューションに興味あり 最近開発活動( POCも含む) ●衛星.GIS関連: 衛星画像LANDSATと統計データを利用した新潟県の収穫量予測, 物流の最適運搬システム ●一般AI関連: 開発実績: 音声特徴量での健康診断, 顔認証, 画像生成, 自動コード生成, END2ENDでのAI医療応用提案 ●その他: SNSのコメントと写真情報からの災害対応システム 自己紹介 X Zenn 5

Slide 5

Slide 5 text

6 研究の1ページサマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

FUSE-RSVLMの1ページサマリ 
 7 ●目的 衛星・UAV画像において、小物体や局所構造を見失わず 、状況説明・質問応答・分類を高精度に行う リモートセンシング特化 Vision-Language Model(VLM)を構築 ●対応データ 光学リモートセンシング画像( RGB) 高解像度衛星・UAV(Unmanned Aerial Vehicle)無人機撮影画像 ●主な機能 分類、キャプション生成、質問応答(存在・数・位置)、カウント ●強み 小物体・数・位置推定で既存 RS-VLM/汎用VLMを上回る 高解像度情報を保持したまま言語生成が可能 視覚情報の忘却(visual forgetting)を抑制 ●技術的特徴 マルチスケール視覚特徴抽出(低解像度+高解像度) LLMへの視覚特徴の再注入( feature injection) ●学習データ・性能 約29万のRS指示データで学習 VQA・分類・キャプションで複数 RSベンチマークSOTA

Slide 7

Slide 7 text

8 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

研究の背景 
 9 ●背景 Vision-Language Model(VLM)は分類・QA・推論で高性能だが、 衛星・UAV画像(Remote Sensing)ではそのまま機能しない * 原因①:解像度問題 多くのRS-VLMは高解像度画像を単一スケールで縮小し、 車両・船・道路など小さく細い構造が消失 * 原因②:特徴表現の限界 Vision Encoderの最終層のみをLLMに入力するため、 局所的・低レベルな視覚特徴が保持されない * 原因③:視覚情報の忘却 視覚トークンを一度だけLLMに与える設計により、 生成途中で言語側に引きずられ視覚的根拠が薄れる (visual forgetting) ●提案手法( MF-RSVLM) マルチスケール視覚特徴(全体+局所)を抽出・融合し、 LLMの複数層に視覚特徴を再注入 するRS特化VLMを提案 ●学習と評価 キャプション・VQA・分類など 6タスク・29万件のRS指示データ で学習し、 分類・キャプション・VQAで既存RS-VLM/汎用VLMを上回る性能 を達成

Slide 9

Slide 9 text

10 関連研究 This image was generated by ChatGPT

Slide 10

Slide 10 text

関連研究
 11 1. 汎用 Vision–Language Models(VLM) CLIP・ALIGN・SimVLM などにより、画像と言語の大規模対応付けが進展 BLIP / BLIP-2、LLaVA、InstructBLIP によりキャプション生成・ VQA・視覚推論 が可能に Claude / Gemini / GPT-5、Qwen2.5-VL、InternVL などは高解像度入力や汎用マルチモーダル理解 に強み ただし 衛星画像特有の高解像度・小物体・空間構造には不十分 2. リモートセンシング向け VLM(RS-VLM) 統合型モデル :EarthGPT、RSUniVLM、FlexiMo→ 光学・SAR・マルチスペクトルを横断的に扱う 高解像度・大規模文脈対応 :GeoLLaVA-8K→ 超高解像度シーンへの対応 信頼性・不確実性重視 :VHM→ ハルシネーション抑制 対話型 RS-VLM:RSGPT、GeoChat、SkyEyeGPT、EarthDial→ 大規模指示データによる自然言語対話とEO理解 しかし多くは 単一スケール入力 や視覚情報の保持不足 という課題を残す 3. マルチスケール特徴抽出・融合 物体検出・分類・時系列解析でマルチスケール特徴融合 は広く研究 (Pyramid Transformer、FA-YOLO、MAFNet 等) Remote Sensing 向けにもMSFMamba などが提案されている ただしこれらはVLMにおける言語生成中の視覚保持までは未対応 4. 本研究の位置づけ 既存 RS-VLM(EarthDial 等)の 対話・汎用性路線 を踏まえつつマルチスケール視覚特徴 × LLMへの再注入 により 小物体・局所構造を 言語生成の最後まで保持 する点が新規 


Slide 11

Slide 11 text

12 手法 This image was generated by ChatGPT

Slide 12

Slide 12 text

●学習戦略( Two-stage) Stage 1:Pretraining VersaD を用いた事前学習(Vision Encoder + MLP + LLM を end-to-end) Stage 2:Supervised Fine-Tuning Vision Encoder を固定し、RS指示データで最適化 (VHM・EarthDial と同系統の設計) ●指示データセット概要 総数:293,202 インスタンス 統一フォーマット : ⟨image(+bbox), instruction, output⟩ 6タスクを網羅 : Captioning / VQA / Visual Grounding / Classification / Instruction-style QA / Detection ●データ構成 UAV + Satellite 画像 光学RGBリモートセンシング画像 VRSBench / RSVQA / DOTA / FAIR1M / DIOR / NWPU-RESISC45 / fMoW / UCMerced-LandUse / RSITMD など 広く使われる RSベンチマークを統合 ●設計上の工夫 地理分布・解像度を考慮したサンプリング マルチタスク指示により 汎用RS状況理解と推論能力を同時に学習 手法 (1/4): データセット 


Slide 13

Slide 13 text

●基本構成 Vision Encoder → MLP Projector → LLM からなる標準的VLMパイプライン ●使用モデル Vision Encoder:CLIP ViT-L/14@336 LLM:Vicuna-v1.5(7B) ●入力設計 低解像度画像(336×336)で全体文脈を取得 高解像度画像(672×672)から マルチスケール局所パッチを生成 ●特徴処理の流れ 低・高解像度画像を共有の Vision Encoderで処理 局所特徴を統合し高解像度の特徴キャンバスを構築 Global / Local 特徴を結合し、MLPでLLM空間へ射影 ●LLMとの統合 融合された詳細特徴を、 LLMの選択された中間層へ注入 ●学習戦略( Two-stage) Stage 1:Vision Encoder・MLP・LLMを end-to-end で事前学習 Stage 2:Vision Encoderを固定し、MLPとLLMのみを指示データで微調整 手法 (2/4): アーキテクチャー 


Slide 14

Slide 14 text

●背景 既存RS-VLMは高解像度画像を単一スケールで縮小し、小物体や細い構造(車・船・道路)を失いやすい ●前提 入力画像を 高解像度キャンバス( S = 672) に正規化 視覚情報を 低解像度で潰さず保持 することを重視 ●提案:マルチスケール視覚表現 低解像度ビュー :シーン全体の文脈( global context) 高解像度ビュー :スライディングウィンドウによる局所詳細         複数スケール・複数層の特徴を同時に抽出   高解像度で切り刻んで見た “局所パッチの特徴”を、元の空間配置を保ったまま、 1枚の高解像度特徴マップに “復元” その際重なり部分は HAN窓で滑らかにして戻す。 ●効果 単一スケールでは消える小物体・局所構造を保持 “何があるか ”を正確に捉える視覚表現を回復 手法 (3/4): マルチスケール視覚表現による“見る力”の回復
 👉低解像度で全体を見つつ、高解像度を“切り刻んで”何度も見直し、 
   それらを同じ座標系に戻して統合する 


Slide 15

Slide 15 text

●課題(Visual Forgetting) 既存RS-VLMでは、視覚トークンを一度だけLLMに入力 生成が進むにつれ、表現が言語側に引きずられ細かな視覚情報が失われる ●基本アイデア 視覚情報を「一度渡して終わり」にしない 視覚特徴を言語生成の途中でも参照・更新 する ●視覚特徴の融合( Fusion) マルチスケールで得られた局所特徴群から現在の文脈に必要な詳細のみを選択 Global 特徴と Local 特徴を結合し、LLM空間へ射影 ●再注入( Injection) 融合された視覚特徴をLLMの複数中間層(例: 2 / 4 / 6 / 8層)に繰り返し注入 Router:どの視覚詳細を使うかを選択 Gate:どれだけ言語表現に反映するかを制御 ●効果 言語生成の最後まで視覚的根拠を保持 小物体・数・位置関係に関するより正確な記述・ VQA応答が可能 手法 (4/4): 視覚特徴の融合と再注入による「忘れない」言語生成
 👉「LLMの推論が進んでいる途中で、“今この文脈に必要な視覚情報だけ”を選び直して、何度も思い出させる仕組み
 通常VLM → 最初に画像を見せたら、あとは言語だけで考える MF-RSVLM → 考えてる途中で、何度も 画像の細部を確認し直す 
 


Slide 16

Slide 16 text

17 実験 This image was generated by ChatGPT

Slide 17

Slide 17 text

実験(1/4): 実験設定 
 18 ●評価タスク( 3系統) [1]. VQA(質問応答)[2]. Scene Classification(シーン分類)[3]. Image Captioning(キャプション生成) ●評価データセット & 指標 *VQA:RSVQA-LRBEN(Presence / Comparison)+ VRSBench VQA(9カテゴリ) 指標:Accuracy(RSVQAはPresence/Comparison/Avg、VRSBenchはサブタイプ平均) *Classification:AID / WHU-RS19 / NWPU-RESISC45 / SIRI-WHU / EuroSAT / METER-ML / fMoW 指標:Top-1 Accuracy(各データセット+マクロ平均) *Captioning:UCM-Captions / RSICD / RSITMD / NWPU-Captions / Sydney-Captions / VRSBench-Cap 指標:BLEU-4 / METEOR / CIDEr / ROUGE-L ●学習条件(計算資源・スケジュール) *Pretraining:VersaD、8×A6000、1 epoch、bs=12/GPU、lr=2e-5(約42時間) *SFT:multi-scale sliding window + HDA有効化、CLIP encoder固定(入力336×336)、 更新対象=MLP/ルーティング&ゲート&融合/Vicuna-7B *293K instruction corpus、2 epoch、bs=6/GPU、lr=2e-5(約38時間、画像は主に≤800×800) ●比較モデル(公平比較のため 3グループ) *Closed-source VLM:Claude-sonnet-4 / Gemini-2.0 / GPT-5 *Open-source VLM:MiniGPT-v2、InstructBLIP、LLaVA-1.5-7B、Qwen2.5-VL-7B、InternVL(2.5/3.5)、Phi-3.5-Vision、MiniCPM-V-2.6 など *Remote-sensing VLM:VHM / SkySenseGPT / EarthDial / GeoChat / GeoLLaVA-8K 👉狙い:VQA/分類/キャプションの3系統で、汎用VLM・商用VLM・RS特化VLMと同じ土俵で比較する。

Slide 18

Slide 18 text

実験(2/4): 実験結果 
 19 VQA(VRSBench / RSVQA) * 9種類の知覚タスク(Category / Existence / Position / Quantity / …)で評価 * 平均精度 65.76% で全モデル中トップ - 最強の Open-source VLM(GLM-4.1V-thinking)を +4.93% 上回る - 商用VLM(Claude-sonnet-4)を +3.67% 上回る * RS特化モデルとの差が顕著 - VHM 比 +14.25% - SkySenseGPT 比 +21.06% *特に Position / Existence / Category で大幅改善 → 細粒度の視覚情報を保持できていることを示唆 Image Captioning(5データセット) * UCM-Captions / RSICD / RSITMD / NWPU / Sydney で評価 * UCM-Captions と Sydney-Captions で新SOTA - BLEU / METEOR / CIDEr / ROUGE-L の全指標で大幅向上 * 他データセットでも METEOR・ROUGE-L は最上位クラス * multi-scale feature injection により色・数・方向などの 具体性が高い記述を生成 Scene Classification(7データセット) * 平均 Top-1 Accuracy = 74.51%(全体1位) - 最強RS特化モデル(LHRS-Bot)比 +2.68% -最強汎用VLM(InternVL 3.5)比 +11.73% * AID / SIRI-WHU などで特に改善 → グローバル文脈+局所構造の両立が有効 VQA / Captioning / Classification の全系統でトップ性能 汎用VLMにも RS特化VLMにも 一貫して勝つ 改善の源泉は 👉 multi-scale 特徴抽出 + LLMへの段階的注入

Slide 19

Slide 19 text

実験(3/4): 解析(アブレーションと例) 
 20 ① LLMへの視覚特徴注入は「深さ」が重要 視覚特徴を LLMの複数層(2/4/6/8)に段階的に注入すると性能が最大化 浅い層のみ注入より、全タスクで一貫して精度向上 例:METER-ML 66.37% → 72.74%(+6.37%) →視覚情報の“忘却”を防ぎ、推論の安定性が向上 ② Multi-scale(窓サイズ×ViT層)の組み合わせが効く Dual-window(336 + 168)+ ViT層 8/16/24 が最良 Single-windowにすると 全データセットで性能低下 METER-ML:−8.85% AID:−4.57% HR-Comp:−8.00% 平均で +5.78% の改善 → 大域文脈と局所構造は補完関係 ③ Fine-tuningは「短すぎると効かない」 1 epoch のSFTでは、提案モジュールの効果が十分に出ない Full fine-tuning により大幅改善 Classification:AID +6.07%, SIRI +8.04% VQA(Image):+11.69% → multi-scale & injection は“十分な最適化”が前提 ④ 定性的にも「数・位置・存在」を正確に把握 Category / Existence / Counting で 他モデルは曖昧 or 誤答 本手法は正しいカテゴリラベル ,橋の存在数,車両の正確な台数を一貫して回答 → 細粒度視覚情報が推論まで保持されている 👉効いた理由は3つ LLMの深層まで視覚特徴を注入 multi-scale × multi-layer の設計 十分な fine-tuning ⇒ 「見る力」を最後まで失わないVLM

Slide 20

Slide 20 text

実験(4/4): 定性的な結果と比較 
 21 画像の主要な自然地形は何?     橋は2本以上ある?        車両は何台?    


Slide 21

Slide 21 text

22 まとめ This image was generated by ChatGPT

Slide 22

Slide 22 text

まとめ
 23 ●結論 * MF-RSVLM:Remote Sensing 向け Multi-scale Feature Fusion VLM * 課題設定:小構造の見落としと visual forgetting を同時に解決 * 手法: - Multi-scale 特徴抽出で 大域+局所 を保持 - Recurrent 注入で 視覚情報を最後まで維持 * 成果:VQA / Captioning / Classification で SOTA * 示唆:Multi-scale fusion は RS-VLM設計の有効原則 * 位置づけ:RS Vision–Language の 統一基盤モデル候補 ●制約と今後の展望 * 制約:Localization 精度は相対的に低下 * 原因仮説:multi-scale 注入が座標対応を阻害 * 今後:task-aware なスケール選択と Localization 特化設計

Slide 23

Slide 23 text

24 参考文献 This image was generated by ChatGPT

Slide 24

Slide 24 text

● Soni, S., et al. (2025). EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues. 
 Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 
 arXiv:2412.15190. https://arxiv.org/abs/2412.15190 ● Yunkai Dang et al. (2025) FUSE_RSVLM: Feature Fusion Vision-Language Model for Remote Sensing.
 arXiv:2512.24022. https://arxiv.org/pdf/2512.24022
 ● Klemmer et al., 2023. SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery. 
 arXiv:2311.17179. https://arxiv.org/pdf/2311.17179
 ● Radford, A., et al. (2021) Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the International Conference on Machine Learning (ICML) arXiv:2103.00020. https://arxiv.org/pdf/2103.00020 参考文献