SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images

Slide 1

Slide 1 text

中村凌  1 第15回 SatAI.challenge勉強会  SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images ［ CVPR 2025 ］

Slide 2

Slide 2 text

中村凌株式会社天地人 / SatAI.challenge 主宰 / cvpaper.challenge HQ ● 株式会社天地人データサイエンティスト（2024/04 - 現在） ● SatAI.challenge 主宰（2024/09 - 現在） ● cvpaper.challenge HQ（2021/1 - 現在） ● MIRU メンターシッププログラム（ 2024/09 - 現在） ● 福岡大学大学院理学研究科応用数学専攻博士課程（2021/04 - 2024/03） ● 産業技術総合研究所コンピュータビジョンチーム RA（2021/05 - 2024/03） ● 福岡大学大学院理学研究科応用数学専攻修士課程（2019/04 - 2021/03）自己紹介 Twitter LinkedIn 2 これまでの個人的な活動 ● 研究効率化Tips （ViEW2021招待講演） ● 国際会議への論文採択実績（IROS / ICCV 2023, ICASSP / ECCV2024） ● CCCS,W2021/2022 GC PC（登録者800名超え） ● SSII2023オーディエンス賞受賞 ● SatAI.challenge運営（国際論文の日本語資料・動画のアーカイブ化）

Slide 11

Slide 11 text

● どの特徴マップをアップサンプリングするか？ → 最終出力に入力する高次元ベクトルを使用。   ○ FeatUpではCLIPの最終出力特徴をそのまま入力して、高解像度化するが、CLIPの最終出力はself-attentionモジュールをself-self attention構成に置き換えるなどして、通常の推論とは異なるattentionモジュールを使用   ○ そのため、訓練されたFeatUpをそのまま推論に追加うと性能劣化につながるため、SimFeatUpでは、最終出力レイヤーに入力する高次元ベクトルを使用   ○ ただ、高次元ベクトルをそのまま使用すると計算処理が重くなるので、全結合層を用いて低次元化している   ● アップサンプリングカーネルの拡大化 → 7×7を11×11に変更   ○ リモートセンシング画像は、道路や河川、建物などの地物が長く広く連続する構造を持ち、解像度が低いと形が歪んだり境界がぼやけてしまう  ○ 大きなカーネルを使用することで広範囲の情報を参照しながら特徴を復元でき、細線や境界をより連続・滑らかに再構成できる  ○ そのため論文ではカーネルサイズを11×11採用（FeatUpのカーネルサイズは7×7）   ● FeatUpのコンポーネントを簡素化 → JBU_StackをJBU_Oneに変更   ○ FeatUpでは、パラメータ化されたJBUモジュールを4回スタックして16回アップサンプリング   （各JBUモジュールのパラメータは独立）   ○ SimFeatUpでは、アップサンプリング時にはJBUを１つだけ使用。(JBU_StackをJBU_Oneに変更)   ○ 16回のアップサンプリングが必要な場合は4回実行に（パラメータ数削減が目的）   提案手法：FeatUpのリモートセンシング向けの工夫   11 Kaiyu Li et al. (2025), “SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images”, CVPR. より引用

Slide 13

Slide 13 text

実験設定：データセット   ● データセット（Semantic Segmentation）   ○ OpenEarthMap ：空間解像度0.25～0.5mの世界規模の衛星画像と航空画像   ■ 8つの前景クラスと1つの背景クラスが含まれている   ○ LoveDA：Google Earth プラットフォームから取得した 0.3m 画像を用いて構築   ■ 都市部と農村部の両方を含み、 6 つの前景クラスと 1 つの背景クラスが含まれている   ○ iSAID：主にGoogle Earthから収集。一部は衛星JL-1、その他は衛星GF-2によって撮影された画像   ■ 15個の前景クラスと1個の背景クラスが含まれている   ○ PotsdamとVaihingen ：空間解像度5cmと9cmの都市セマセグデータセット   ○ UAVi：斜めから撮影した4K HR画像を30本の動画シーケンスで構成   ■ そのため、5つの前景クラスと1つの背景クラスが含まれている   ○ UDD5：プロ仕様のUAV（DJI Phantom 4）によって高度60～100mで収集されたもの   ■ 4つの前景クラスと1つの背景クラスが含まれている   ○ ＶDD：DJI MAVIC AIR IIで収集された、4000×3000ピクセルのRGB画像400枚のデータセット   ■ すべての画像は高度50mから120mの範囲で撮影。   ■ 6つの前景クラスと1つの背景クラスが含まれている   ● Building extractionデータセット   ○ WHU^Aerial：0.075mの空間解像度と450の航空写真から抽出された22万以上の独立した建物で構成   ○ WHU^Sat.II：860平方キロメートルをカバーする6枚の衛星画像から構成   ○ Inria：0,3mの空間解像度と810km^2をカバーしているデータセット   ○ xBD：800kの建物アノテーションがついた空間解像度0.5mのデータセット   13 Kaiyu Li et al. (2025), “SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images”, CVPR. より引用

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text