Slide 1

Slide 1 text

HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery [ICCV2025]
 河内 大輝
 1 第19回 SatAI.challenge勉強会


Slide 2

Slide 2 text

目次 
 2 ● 自己紹介スライド
 ● 研究の1ページサマリ紹介 
 ● 研究の背景(Introduction) 
 ● 提案手法について(Method) 
 ● 実験結果(Experiment) 
 ● 結論(Conclusion)


Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

河内 大輝 業務/研究歴など - 大学・大学院:衛星画像対象AIモデルと説明可能性の研究など - 業務 - Computer VisionなどAI技術を使った野球チーム強化 - GIS x AI Agentアプリの開発(PLATEAUハッカソンから事業化) 好きな分野 :Computer Vision(特にdeep以外)とGeospatialな領域 自己紹介 X: https://x.com/kwchrk_ LinkedIn: linkedin.com/in/hiroki-kawauchi 4

Slide 5

Slide 5 text

5 論文サマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery 
 6 ● 既存のベクトル化(ポリゴン化)手法は、衛星画像を224x224などの小さな画像パッチに分割して 
 処理するため、広域的なコンテキストの損失やパッチの境界ノイズが課題。 
 ● 大域的なコンテキストを踏まえて、地物を整合的にベクトル化するフレームワークを提案。 
 ● 10000x10000を超えるサイズの画像中における、建物、水域、道路といった多様なオブジェクトを含む大規模 データセットで、既存のSOTA手法を大幅に上回り、精度の高いベクトル化を達成。 
 ● Code: https://github.com/vvangfaye/HoliTracer 
 大規模衛星画像から地理空間オブジェクトをまるごと(Holisticに)ベクトル化する 
 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 7

Slide 7 text

7 Introduction: 背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

● 近年では、解像度数十cm級の衛星画像が扱われることも増え、1つの建物等が数千ピクセルに及ぶことも珍 しくない。
 ● 一方で、既存のベクトル化手法は、一般的なComputer Vision手法を援用したものが多く、計算量の制約もあ り、224x224などのピクセル程度の小さな画像(パッチ)しか扱えない。 
 ● 解像度を落とさないためには、パッチ分割して処理を行うが、これには2つの課題がある。 
 ○ 広域コンテキストの損失 
 ■ パッチ化により、オブジェクトを正しく認識するために必要な周囲の情報が損失 
 (例:建物の屋上と駐車場を誤認識) 
 ○ 境界ノイズ
 ■ パッチの境界でオブジェクトが分断され、不完全で断片的なベクトルデータに 
 背景: Large-size Challenge(大規模衛星画像処理の課題) 
 8 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 9

Slide 9 text

● 実際、これまでSatAI.challengeで扱われた、Pix2poly(224x224)やVectorLLM(128x128)もこの課題を克服できて いない
 背景: Large-size Challenge(大規模衛星画像処理の課題) 
 9 第15回 SatAI.challenge勉強会資料より 引用

Slide 10

Slide 10 text

10 提案手法 This image was generated by ChatGPT

Slide 11

Slide 11 text

HoliTracerは、以下のシンプルな3ステップで大規模画像の直接的な推論に挑んだ 
 ● ①大域的セグメンテーション : 大域的なコンテクストを踏まえてセグメンテーションマスクを抽出。 ● ②ポリゴン再構成 : マスクの輪郭を整形し、後続処理に適したクリーンなポリゴンを生成。 ● ③ポリゴンリファインメントと頂点の特定 : ポリゴン形状を調整し、最終的な頂点を特定しベクトル化。 
 Holitracerの全体像 
 11 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 12

Slide 12 text

①Context Attention Net (CAN) 
 ● モチベ
 ○ 大域的なコンテクストを踏まえて推論するための Attentionを導入
 ● 仕組み
 ○ Multi-Scale Image Pyramid 
 ■ 元の高解像度画像から複数の異なる解像度の 画像を作成し、入力
 ○ Context Attention:
 ■ Encoderで各スケールの画像から特徴を抽出 
 ■ 高解像度・低解像度特徴をAttentionで融合。 
 ● ※あくまで、モデルの入出力は512*512 
 ○ 高解像度の入力をAttention用に入れることで、大域的 なコンテキストを入力している 
 ①大域的セグメンテーション 
 12 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 13

Slide 13 text

②ポリゴン再構成 
 13 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用 ②Mask Contour Reformer (MCR) 
 ● モチベ
 ○ CANのマスクは頂点の密集などノイズが多い 
 ○ 頂点密度等を整えたクリーンなポリゴンにして、 
 ③のリファインメントモデルの入力にする 
 ● 仕組み
 ○ 単純化
 ■ Douglas-Peuckerアルゴリズムで、 
 輪郭の冗長な頂点を削減 
 ○ 再構成(補間) 
 ■ 単純化されたポリゴンの辺に沿って、 
 一定間隔で点を再配置(補間) 
 ● GTのポリゴンにも補間を適用 することで、形状の学習がしや すいようにする


Slide 14

Slide 14 text

②ポリゴン再構成 
 14 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用 ②Mask Contour Reformer (MCR) 
 ● モチベ
 ○ CANのマスクは頂点の密集などノイズが多い 
 ○ 頂点密度等を整えたクリーンなポリゴンにして、 
 ③のリファインメントモデルの入力にする 
 ● 仕組み
 ○ 単純化
 ■ Douglas-Peuckerアルゴリズムで、 
 輪郭の冗長な頂点を削減 
 ○ 再構成(補間) 
 ■ 単純化されたポリゴンの辺に沿って、 
 一定間隔で点を再配置(補間) 
 ● GTのポリゴンにも補間を適用 することで、形状の学習がしや すいようにする


Slide 15

Slide 15 text

③Polygon Sequence Tracer (PST) 
 ● モチベ
 ○ ②MCRで推論されたポリゴンの洗練 
 ○ 最終的な頂点の特定 
 ● 仕組み(Transformerベースの系列処理) 
 ○ 各頂点に対して、以下の2つのタスクを同時に 実行。
 ○ オフセット回帰 
 ■ 頂点の位置をより正確な位置に微調整 
 ○ 頂点分類: 
 ■ その点がポリゴンの「角」(真の頂点)で あるか、「辺の途中」か分類 
 ● 特徴: 頂点間の角度情報も特徴量・損失として利用 することで、角の検出精度を向上 
 
 ③ポリゴンリファインメントと頂点の特定 
 15 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 16

Slide 16 text

16 実験結果 This image was generated by ChatGPT

Slide 17

Slide 17 text

● データセット: 3種類の大規模・高解像度データセットを使用。 
 ○ WHU-building: 建物抽出 (解像度0.075m) 
 ○ GLH-water: 水域抽出 (解像度0.3m) 
 ○ VHR-road: 道路抽出 (本研究で新規構築、解像度0.2m) 
 ■ 各サンプルは10,000 x 10,000ピクセル超。 
 ● 比較手法 
 ○ 既存のパッチベースのSOTA手法 (FFL, HiSup, DeepSnake, UniVecなど) 
 ● 評価指標 
 ○ Vector metrics (PoLiS, CIoU): ポリゴン形状の類似度。 
 ○ Instance metrics (AP): オブジェクト単位の検出・セグメンテーション精度。 
 ○ Semantic metrics (IoU, F1): ピクセル単位のセグメンテーション精度。 
 
 ● 手法はシンプルだが、実験を丁寧にAblation Studyを含めて行い、githubも公開している 👏
 実験設定 
 17 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 18

Slide 18 text

● Holitoracer (Ours)は、地物を問わず大域的に整合的でGTに近い滑らかなポリゴン推論ができていそう 
 定性結果 
 18 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 19

Slide 19 text

● 精度:定量指標においても、画像全体を対象とした指標において、SOTAを大幅に更新 
 定量結果 
 19 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 20

Slide 20 text

● 計算コスト
 ○ 学習:NVIDIA 24GB以上の GPUが必要とのこと(著者実験は4x40GB NVIDIA A100 GPUs) 
 ○ 推論:1枚(10000 x 10000程度?)・2GB・500s 
 ■ 40,000 × 50,000 ピクセルまでは、64GB CPU RAMで扱えることを確認 
 ■ GPUベースの並列化処理により高速化の実装も行っている(詳しくはgithub参照) 
 定量結果 
 20 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 21

Slide 21 text

● 論文の一番大事なところだが、①大域的セグメンテーションの影響はそこまで大きくない 
 ○ Contextが1=元の解像度のみに比べて1-2ポイント上昇はしている 
 ○ ただ、他の既存手法と差がついているのは、後段の②MCRや③PSTによるポリゴン整形部分 
 ● つまり、大域的な画像特徴を入れることではなく、大域的な単位でポリゴンを整えることが実質的な精度向上 に寄与
 Ablation Study 
 21 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 22

Slide 22 text

● ③PSTによるポリゴンリファインメントにより、ベクトル類似度指標が大きく改善 
 ○ その際の角度特徴・角度損失も必要で、135度を閾値として過度検出するのが最も精度高い 
 Ablation Study 
 22 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用

Slide 23

Slide 23 text

23 結論 This image was generated by ChatGPT

Slide 24

Slide 24 text

HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery 
 24 ● 既存のベクトル化(ポリゴン化)手法は、衛星画像を224x224などの小さな画像パッチに分割して 
 処理するため、広域的なコンテキストの損失やパッチの境界ノイズが課題。 
 ● 大域的なコンテキストを踏まえて、地物を整合的にベクトル化するフレームワークを提案。 
 ● 10000x10000を超えるサイズの画像中における、建物、水域、道路といった多様なオブジェクトを含む大規模 データセットで、既存のSOTA手法を大幅に上回り、精度の高いベクトル化を達成。 
 ● Code: https://github.com/vvangfaye/HoliTracer 
 大規模衛星画像から地理空間オブジェクトをまるごと(Holisticに)ベクトル化する 
 Wang et al. (2025), “HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery”, ICCV. より引用