Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Pix2Poly: A Sequence Prediction Method for End-...

Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery」です。
本研究では、衛星画像からの建物抽出タスクにおいて建物のセグメンテーションマスクを作成せずに直接End-to-Endに建物のポリゴンをグラフとして推定する手法(Pix2Poly)を提案しています。Pix2Polyによって、少ないパラメータでもマスクベースのセグメンテーション手法よりも、建物の角や辺の形状の再現性が高い結果が得られます。

SatAI.challenge

March 22, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint

    Extraction from Remote Sensing Imagery 篠原崇之 1 第9回 SatAI.challenge勉強会 こ 資料に出てくる図 引用を明記しない場合 Yeshwanth et al. (2025), “Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery”, WACV 2025 より引用
  2. 目次 
 2 • 自己紹介スライド
 • 手法 概要(研究 1ページサマリ紹介) 


    • 研究 背景(Introduction) 
 • 手法( ethod)
 • 実験(Experimet)
 • まとめ(Conclusion) 

  3. 自己紹介 
 4 研究テーマ :3次元モデリング、サロゲートモデル 4 X(旧 Twitter) LinkedIn 産総研

    - デジタルツイン構築と利活用 - 土木インフラ 長寿命化 - 物理シミュレーション 近似を行うAI 篠原 崇之
  4. ix2 oly: A equence rediction ethod for End-to-end olygonal Building

    Footprint Extraction from emote ensing Imagery 
 6 • 従来 セグメンテーション手法で 、
 後処理でラスタ画像からポリゴン化するた め、角やエッジ 品質が低下する
 • 衛星画像から建物 ポリゴンを直接抽出 す る ix2 oly を提案
 • 建物 角(頂点) 離散系列を生成し、最適 マッチングにより頂点間 接続情報を学習
 • ラスタ形式より鋭い角、直線的なエッジ を持 つ高品質な建物ポリゴンを実現可能

  5. • 現状 建物 衛星画像から 抽出に 以下 フローを用いる 
 ①深層学習モデルによる建物 セグメンテーション

    
 ②ルールベースアルゴリズムによって建物 マスクからポリゴンを検出する 
 背景: 衛星画像を用いた建物自動抽出 処理フロー 
 8 都市理解、地図、3D再構築、ナビゲーションなどにおいて、正確な建物輪郭 不可欠 
 ①深層学習モデルによる建物画素 抽出 (ラスタ マスク形式) ②建物 マスクから頂点・線分を検出 (ポリゴン形式) マイクロソフトGitHub microsoft/USBuildingFootprints から引用
  6. • ラスタで建物抽出すると、角やエッジ 精度が低下する 
 • ラスタから ポリゴン化に 複雑な後処理アルゴリズムが必要( penC でもできるが......)

    
 背景: ラスタ形式 問題点 
 9 建物抽出を達成するためにラスタ形式を経由しない手法が必要な で ないか? 
 ラスタ形式 建物抽出で コーナー・エッジがぼやける 建物 マスクから頂点・線分を検出し ポリゴンへ変換するに 複雑な処理が必要 入力画像 予測結果 ぼやけた エッジ 左図 AWSブログ  “AWS Machine Learning Blog” から引用 右図 Kong et.al (2023) “Simplification and Regularization Algorithm for Right-Angled Polygon Building Outlines with Jagged Edges”, ISPRS Int. J. Geo-Inf.から引用
  7. • 建物コーナーをヒートマップで検出しそ 結果に微分不可能な を使用 
 • 頂点順序 再調整などで学習パイプラインが複雑 
 背景:

    グラフニューラルネットワークで直接ポリゴンを抽出する手法が登場 
 10 実用的なポリゴン抽出 ため シンプルかつ軽量なE2E深層学習モデルが必要 
 UniVecMapper: トポロジーに特化したノー ド検出器を用いて頂点を検出し、なおかつ 頂点順序 再調整 Zorzi+ (2022) “PolyWorld: Polygonal Building Extraction with Graph Neural Networks in Satellite Images”, Arxiv から引用 Yang+ (2024) “UniVecMapper: A universal model for thematic and multi-class vector graph extraction”, International Journal of Applied Earth Observation and Geoinformationから引用 PolyWorld: CNNでラスタ形式 頂点ヒート マップを予測し、そ 後NMSで頂点を抽出し てGNNでポリゴン接続を予測
  8. 補足: グラフ系 手法 
 11 工程①建物頂点をヒートマップで算出 頂点座標を抽出した結果 1
 6
 5


    4
 3
 2
 真値 ポリゴン 工程②学習で頂点 順番を決定する どうやって 対応を 学習?? 真値 ポリゴンと 差をどうやって計算すれ いい だろうか? 

  9. 補足: グラフ系 手法 
 12 1
 6
 5
 4
 3


    2
 頂点座標 1 2 3 4 5 6 1 0 1 0 0 0 1 2 1 0 1 0 0 0 3 0 1 0 1 0 0 4 0 0 1 0 1 0 5 0 0 0 1 0 1 6 1 0 0 0 1 0 隣接行列(6x6) 接続しているところが 1 接続無しが0 1
 6
 5
 4
 3
 2
 ポリゴン 隣接行列を使ってポリゴンを表現すると深層学習モデルでも扱えそう 
 同じ 意味
  10. 補足: グラフ系 手法 
 13 1 2 3 4 5

    6 1 0 1 0 0 0 1 2 1 0 1 0 0 0 3 0 1 0 1 0 0 4 0 0 1 0 1 0 5 0 0 0 1 0 1 6 1 0 0 0 1 0 推定した 隣接行列(6x6) 最小化 1 2 3 4 5 6 1 0 1 0 0 0 1 2 1 0 1 0 0 0 3 0 1 0 1 0 0 4 0 0 1 0 1 0 5 0 0 0 1 0 1 6 1 0 0 0 1 0 真値 隣接行列(6x6) 隣接行列 差を最小化するように学習すれ ポリゴン 形状も一致できる 

  11. 補足: グラフ系 手法 
 14 1 2 3 4 5

    6 1 0 1 0 0 0 0 2 0 0 1 0 0 0 3 0 0 0 1 0 0 4 0 0 0 0 1 0 5 0 0 0 0 0 1 6 1 0 0 0 0 0 推定した 置換行列(6x6) 時計回り 場合 建物ポリゴンを表現する場合に 置換行列が用いられる 
 建物ポリゴン 場合、一方向だけ考えて各行と各列に 1つ 1しかない状態(置換行列 )でも表現可能 1
 6
 5
 4
 3
 2
 ポリゴン
  12. 補足: グラフ系 手法 
 15 推定した 置換行列(6x6) 反時計回り 場合 建物ポリゴンを表現する場合に

    置換行列が用いられる 
 建物ポリゴン 場合、一方向だけ考えて各行と各列に 1つ 1しかない状態(置換行列 )でも表現可能 1
 6
 5
 4
 3
 2
 ポリゴン 1 2 3 4 5 6 1 0 0 0 0 0 1 2 1 0 0 0 0 0 3 0 1 0 0 0 0 4 0 0 1 0 0 0 5 0 0 0 1 0 0 6 0 0 0 0 1 0
  13. 補足: グラフ系 手法 
 16 時計回り 置換行列 右回りと左回り 置換行列 転置すると一致するという重要な性質がある

    
 建物ポリゴン 場合、各行と各列に 1つ 1しかない状態(置換行列)でも表現可能 1 2 3 4 5 6 1 0 0 0 0 0 1 2 1 0 0 0 0 0 3 0 1 0 0 0 0 4 0 0 1 0 0 0 5 0 0 0 1 0 0 6 0 0 0 0 1 0 1 2 3 4 5 6 1 0 1 0 0 0 0 2 0 0 1 0 0 0 3 0 0 0 1 0 0 4 0 0 0 0 1 0 5 0 0 0 0 0 1 6 1 0 0 0 0 0 反時計回り 置換行列
  14. • 解決したいこと 
 ◦ ラスタベース セグメンテーションで 、エッジや角が鈍った建物 が抽出される
 =>直接ポリゴンを抽出 する手法を用いる


    ◦ ポリゴンベース 既存手法 、複雑な後処理が必 要
 =>微分可能な処理で構成されたEnd-to-Endな手法 を用いる
 ◦ 従来 ポリゴンベース 手法 重いモデル 
 =>少ないパラメータ数 で、従来手法よりも高性能な手法を用いる
 研究 目的 
 17 研究 目的 
 衛星画像から高精細な建物 輪郭を直接かつEnd-to-Endで抽出する 

  15. • ix2 oly 、以下 2つ 主要ネットワークから構成 
 ◦ ertex equence

    Detector 
 ▪ エンコーダ
 ▪ デコーダ
 ◦ ptimal atching etwork 
 ▪ 接続スコア行列 作成 
 ▪ 最適マッチング
 手法: 全体フロー 
 19
  16. ertex equence Detector 頂点座標列を出力するモデル 
 • エンコーダ 
 ◦ ision

    ransformer ( i ) mall など エンコーダで画像 潜在特徴を作成 
 • デコーダ 
 ◦ 頂点座標 シーケンス生成 
 ▪ ransformer型 デコーダで建物 頂点座標を離散的なトークン列として生成 
 [ start, v1_x, v1_y, v2_x, v2_y, v3_x, v3_y, v4_x, v4_y, end ] 
 ▪ 画像 座標 あらかじめ 224 個 ビンに分割され、各頂点 x, y 座標 それぞれこれら ビン番 号(整数値)として離散化 
 ◦ 特殊トークン 利用: 
 ▪ 開始トークン(start): 
 シーケンス 開始 合図 
 ▪ 終了トークン(end):
 シーケンス 終端 
 ▪ パッドトークン:
 シーケンス長を揃えるダミー 
 ※シーケンス長 超パラ 
 
 手法: ertex equence Detector 
 20
  17. ptimal atching etwork 、頂点列とそ 特徴を用いて、各頂点間 接続関係を決定する 
 ①接続スコア行列 推定 


    • 点ごと 1DC 演算 
 各頂点 座標と特徴に対して、複数 ポイントワイズ畳み込みを適用し、 
 各頂点ペア間 接続スコア を計算
 ◦ 時計回りと反時計回り 2種類 スコア行列を作成(頂点数x頂点数 行列) 
 ▪ _clock: 各頂点ペアが時計回りに接続されるスコア 
 ▪ _count: 反時計回りに接続されるスコア 
 • 対称性 確保 
 ◦ 最終的な接続スコア行列 、 _clock , _count 
 転置を組み合わせた形で計算 
 = _clock + ( _count)^ 
 ◦ 時計回りと反時計回り 接続が互いに補完しあい、 
 パス 一貫性が保たれる 
 手法: ptimal atching etwork 
 21
  18. ②最適マッチング(置換行列 生成) 
 • 置換行列 作成 
 得られたスコア行列 に対して連続的なスコアから二値 置換行列

    を算出する 
 行方向に正規化、列方向に正規化を繰り返す処理によって0と1だけ 置換行列ができる(実質ポリゴン) 
 
 手法: ptimal atching etwork 
 22 1 2 3 4 5 6 1 0 0.5 0.1 0.1 0.2 0.1 2 0 0.1 0.8 0.1 0 0 3 0 0 0.1 0.9 0 0 4 0 0 0.1 0.2 0.5 0.2 5 0 0 0 0 0.1 0.9 6 0.7 0.2 0 0 0.1 0 スコア行列S 1 2 3 4 5 6 1 0 1 0 0 0 0 2 0 0 1 0 0 0 3 0 0 0 1 0 0 4 0 0 0 0 1 0 5 0 0 0 0 0 1 6 1 0 0 0 0 0 置換行列P 列・行を繰り返し 正規化処理
  19. • ertex Detection oss 
 クロスエントロピーを用い、 
 予測シーケンスと真値シーケンス間 誤差を最小化。 


    • ermutation oss 
 真値 置換行列と予測置換行列と 
 クロスエントロピー損失を採用。 
 ※各頂点 マルチクラス分類問題になる 
 • 全体 損失
 _total = λ_s · _detection + λ_p · _permutation 
 係数 実験で決定 
 手法: 損失関数 
 23 すべて ネットワークで勾配が連続的に伝播され、 個別 微分不可能な処理や頂点並べ替え処理が不必要 =>既存手法 弱点を克服
  20. • データセット 
 ◦ I IA Aerial Image abelling Dataset:

    タイル画像を 224×224 パッチに分割して評価 
 ◦ H Buildings Dataset:512×512 航空画像を 224×224 パッチに分割 
 ◦ assachusetts oads Dataset:1500×1500 画像を 224×224 パッチに分割 
 ◦ pace et 2 / AICrowd apping Challenge Dataset: 衛星画像を用いた建物および道路抽出 
 • データ拡張 
 ◦ 形状: ランダム回転, 切り出しやフリップ 
 ◦ 色: 明るさ・コントラスト 調整、カラージッター、 GBシフト、グレースケール変換、 
 ガウシアンノイズ 付加 
 • モデル パラメータ数 
 ◦ 既存手法より少ないパラメータ数を達成 
 ▪ ix2 oly:約31.9 パラメータ 
 ▪ 比較対象
 • 2段階: FF (76.6 ), Hi up (74.3 ) 
 • 1段階: oly orld (39.4 ), opDiG (41.04 ), ni ec apper (111.92 ) 
 実験: 実験 設定 
 25
  21. • olygonal Footprint uality etrics 計算方法 
 ◦ Io (Intersection

    over nion): 重なり面積 / (全体面積 - 重なり面積) 
 ◦ C-Io (Complexity-aware Io ): Io に形状 複雑さ(頂点数など)を補正 
 ◦ - atio: 予測頂点数 / 真値頂点数 
 ◦ A ( ean aximum angent Angle error): 各エッジ 予測と真値 角度差 最大値 平均 
 ◦ o i ( olygonal ine imilarity): 対応する頂点間 距離 平均 
 ◦ トポロジカル指標: 輪郭 画素だけでIo , F1score, Acc.を計算 
 実験: 評価方法 
 26 1
 6
 5
 4
 3
 2
 推論結果 ポリゴン 真値 ポリゴン 頂点数が合っているか? 角度が 同じか? 真値と 重なり具合 評価 頂点位置が同じか?
  22. 実験: 学習済みモデルによる分類結果 
 28 Io , Acc. 共に既存手法よりも高性能を示した 
 真値非公開

    I IA テストデータで システム上にてスコア計算
 (リーダーボードで結果を確認するタイプ) 

  23. 実験: 手法 応用先 
 31 道路ネットワーク抽出にも同じ枠組みを適用可能 
 頂点集合であれ 学習できる で、道路

    ポリゴンから学習できる
 ※交差点に 「頂点 インスタンスを、辺 数だけ割り当てる」特殊処理が必要

  24. • 予測とグラウンドトゥルース 不整合 
 予測されたポリゴンと真値と 間に、微妙なずれが発生する 
 ビン 座標で離散化された座標表現や、シーケンス予測過程で 誤差に起因

    
 • トポロジカルエラー 
 頂点 接続順序に誤りが生じ、ポリゴン トポロジー(閉じた輪郭)が正確に再現されない 
 こ 問題 、 ptimal atching etwork による頂点接続予測 精度で発生している 
 • 離散化によるオーバーラップエラー 
 画像 座標を一定数 ビンに分割して離散化するため、隣接ビン間で若干 重複が発生 
 
 手法 限界点 
 32 追加 正規化損失やより精密な座標離散化手法 導入を通じて改善できる 

  25. • ix2 oly 、End-to-Endで高品質な建物ポリゴン抽出を軽量なモデルで実現する新たな手法 
 • ertex equence Detector と

    ptimal atching etwork 組み合わせにより、 
 従来 複雑な後処理を不要化 
 • 定量・定性評価 両面で従来手法を上回る性能を示し、軽量かつ効率的なモデル 
 まとめ 
 34