HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery

Embed

Start on current slide

Slide 1

Slide 1 text

HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery [ICCV2025]  河内大輝  1 第19回 SatAI.challenge勉強会 

Slide 2

Slide 2 text

目次   2 ● 自己紹介スライド  ● 研究の1ページサマリ紹介   ● 研究の背景（Introduction）   ● 提案手法について（Method）   ● 実験結果（Experiment）   ● 結論（Conclusion） 

Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

河内大輝業務/研究歴など - 大学・大学院：衛星画像対象AIモデルと説明可能性の研究など - 業務 - Computer VisionなどAI技術を使った野球チーム強化 - GIS x AI Agentアプリの開発(PLATEAUハッカソンから事業化) 好きな分野：Computer Vision（特にdeep以外）とGeospatialな領域自己紹介 X: https://x.com/kwchrk_ LinkedIn: linkedin.com/in/hiroki-kawauchi 4

Slide 5

Slide 5 text

5 論文サマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery   6 ● 既存のベクトル化（ポリゴン化）手法は、衛星画像を224x224などの小さな画像パッチに分割して   処理するため、広域的なコンテキストの損失やパッチの境界ノイズが課題。   ● 大域的なコンテキストを踏まえて、地物を整合的にベクトル化するフレームワークを提案。   ● 10000x10000を超えるサイズの画像中における、建物、水域、道路といった多様なオブジェクトを含む大規模データセットで、既存のSOTA手法を大幅に上回り、精度の高いベクトル化を達成。   ● Code: https://github.com/vvangfaye/HoliTracer   大規模衛星画像から地理空間オブジェクトをまるごと（Holisticに）ベクトル化する   Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 7

Slide 7 text

7 Introduction: 背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

● 近年では、解像度数十cm級の衛星画像が扱われることも増え、1つの建物等が数千ピクセルに及ぶことも珍しくない。  ● 一方で、既存のベクトル化手法は、一般的なComputer Vision手法を援用したものが多く、計算量の制約もあり、224x224などのピクセル程度の小さな画像（パッチ）しか扱えない。   ● 解像度を落とさないためには、パッチ分割して処理を行うが、これには2つの課題がある。   ○ 広域コンテキストの損失   ■ パッチ化により、オブジェクトを正しく認識するために必要な周囲の情報が損失   （例：建物の屋上と駐車場を誤認識）   ○ 境界ノイズ  ■ パッチの境界でオブジェクトが分断され、不完全で断片的なベクトルデータに   背景: Large-size Challenge（大規模衛星画像処理の課題）   8 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 9

Slide 9 text

● 実際、これまでSatAI.challengeで扱われた、Pix2poly（224x224）やVectorLLM（128x128）もこの課題を克服できていない  背景: Large-size Challenge（大規模衛星画像処理の課題）   9 第15回 SatAI.challenge勉強会資料より引用

Slide 10

Slide 10 text

10 提案手法 This image was generated by ChatGPT

Slide 11

Slide 11 text

HoliTracerは、以下のシンプルな3ステップで大規模画像の直接的な推論に挑んだ   ● ①大域的セグメンテーション : 大域的なコンテクストを踏まえてセグメンテーションマスクを抽出。 ● ②ポリゴン再構成 : マスクの輪郭を整形し、後続処理に適したクリーンなポリゴンを生成。 ● ③ポリゴンリファインメントと頂点の特定 : ポリゴン形状を調整し、最終的な頂点を特定しベクトル化。   Holitracerの全体像   11 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 12

Slide 12 text

①Context Attention Net (CAN)   ● モチベ  ○ 大域的なコンテクストを踏まえて推論するための Attentionを導入  ● 仕組み  ○ Multi-Scale Image Pyramid   ■ 元の高解像度画像から複数の異なる解像度の画像を作成し、入力  ○ Context Attention:  ■ Encoderで各スケールの画像から特徴を抽出   ■ 高解像度・低解像度特徴をAttentionで融合。   ● ※あくまで、モデルの入出力は512*512   ○ 高解像度の入力をAttention用に入れることで、大域的なコンテキストを入力している   ①大域的セグメンテーション   12 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 13

Slide 13 text

②ポリゴン再構成   13 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用 ②Mask Contour Reformer (MCR)   ● モチベ  ○ CANのマスクは頂点の密集などノイズが多い   ○ 頂点密度等を整えたクリーンなポリゴンにして、   ③のリファインメントモデルの入力にする   ● 仕組み  ○ 単純化  ■ Douglas-Peuckerアルゴリズムで、   輪郭の冗長な頂点を削減   ○ 再構成（補間）   ■ 単純化されたポリゴンの辺に沿って、   一定間隔で点を再配置（補間）   ● GTのポリゴンにも補間を適用することで、形状の学習がしやすいようにする 

Slide 14

Slide 14 text

②ポリゴン再構成   14 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用 ②Mask Contour Reformer (MCR)   ● モチベ  ○ CANのマスクは頂点の密集などノイズが多い   ○ 頂点密度等を整えたクリーンなポリゴンにして、   ③のリファインメントモデルの入力にする   ● 仕組み  ○ 単純化  ■ Douglas-Peuckerアルゴリズムで、   輪郭の冗長な頂点を削減   ○ 再構成（補間）   ■ 単純化されたポリゴンの辺に沿って、   一定間隔で点を再配置（補間）   ● GTのポリゴンにも補間を適用することで、形状の学習がしやすいようにする 

Slide 15

Slide 15 text

③Polygon Sequence Tracer (PST)   ● モチベ  ○ ②MCRで推論されたポリゴンの洗練   ○ 最終的な頂点の特定   ● 仕組み（Transformerベースの系列処理）   ○ 各頂点に対して、以下の2つのタスクを同時に実行。  ○ オフセット回帰   ■ 頂点の位置をより正確な位置に微調整   ○ 頂点分類:   ■ その点がポリゴンの「角」（真の頂点）であるか、「辺の途中」か分類   ● 特徴: 頂点間の角度情報も特徴量・損失として利用することで、角の検出精度を向上     ③ポリゴンリファインメントと頂点の特定   15 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 16

Slide 16 text

16 実験結果 This image was generated by ChatGPT

Slide 17

Slide 17 text

● データセット: 3種類の大規模・高解像度データセットを使用。   ○ WHU-building: 建物抽出 (解像度0.075m)   ○ GLH-water: 水域抽出 (解像度0.3m)   ○ VHR-road: 道路抽出 (本研究で新規構築、解像度0.2m)   ■ 各サンプルは10,000 x 10,000ピクセル超。   ● 比較手法   ○ 既存のパッチベースのSOTA手法 (FFL, HiSup, DeepSnake, UniVecなど)   ● 評価指標   ○ Vector metrics (PoLiS, CIoU): ポリゴン形状の類似度。   ○ Instance metrics (AP): オブジェクト単位の検出・セグメンテーション精度。   ○ Semantic metrics (IoU, F1): ピクセル単位のセグメンテーション精度。     ● 手法はシンプルだが、実験を丁寧にAblation Studyを含めて行い、githubも公開している 👏  実験設定   17 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 18

Slide 18 text

● Holitoracer (Ours)は、地物を問わず大域的に整合的でGTに近い滑らかなポリゴン推論ができていそう   定性結果   18 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 19

Slide 19 text

● 精度：定量指標においても、画像全体を対象とした指標において、SOTAを大幅に更新   定量結果   19 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 20

Slide 20 text

● 計算コスト  ○ 学習：NVIDIA 24GB以上の GPUが必要とのこと（著者実験は4x40GB NVIDIA A100 GPUs）   ○ 推論：1枚（10000 x 10000程度？）・2GB・500s   ■ 40,000 × 50,000 ピクセルまでは、64GB CPU RAMで扱えることを確認   ■ GPUベースの並列化処理により高速化の実装も行っている（詳しくはgithub参照）   定量結果   20 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 21

Slide 21 text

● 論文の一番大事なところだが、①大域的セグメンテーションの影響はそこまで大きくない   ○ Contextが1=元の解像度のみに比べて1-2ポイント上昇はしている   ○ ただ、他の既存手法と差がついているのは、後段の②MCRや③PSTによるポリゴン整形部分   ● つまり、大域的な画像特徴を入れることではなく、大域的な単位でポリゴンを整えることが実質的な精度向上に寄与  Ablation Study   21 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 22

Slide 22 text

● ③PSTによるポリゴンリファインメントにより、ベクトル類似度指標が大きく改善   ○ その際の角度特徴・角度損失も必要で、135度を閾値として過度検出するのが最も精度高い   Ablation Study   22 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 23

Slide 23 text

23 結論 This image was generated by ChatGPT

Slide 24

Slide 24 text

HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery   24 ● 既存のベクトル化（ポリゴン化）手法は、衛星画像を224x224などの小さな画像パッチに分割して   処理するため、広域的なコンテキストの損失やパッチの境界ノイズが課題。   ● 大域的なコンテキストを踏まえて、地物を整合的にベクトル化するフレームワークを提案。   ● 10000x10000を超えるサイズの画像中における、建物、水域、道路といった多様なオブジェクトを含む大規模データセットで、既存のSOTA手法を大幅に上回り、精度の高いベクトル化を達成。   ● Code: https://github.com/vvangfaye/HoliTracer   大規模衛星画像から地理空間オブジェクトをまるごと（Holisticに）ベクトル化する   Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用