Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery

Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint
Extraction from Remote Sensing Imagery 篠原崇之 1 第9回 SatAI.challenge勉強会こ資料に出てくる図引用を明記しない場合 Yeshwanth et al. (2025), “Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery”, WACV 2025 より引用

目次   2 • 自己紹介スライド  • 手法概要（研究 1ページサマリ紹介）  
• 研究背景（Introduction）   • 手法（ ethod）  • 実験（Experimet）  • まとめ（Conclusion）  

3 発表者紹介 This image was generated by ChatGPT

自己紹介   4 研究テーマ：３次元モデリング、サロゲートモデル 4 X(旧 Twitter) LinkedIn 産総研
- デジタルツイン構築と利活用 - 土木インフラ長寿命化 - 物理シミュレーション近似を行うAI 篠原崇之

5 手法概要 This image was generated by ChatGPT

ix2 oly: A equence rediction ethod for End-to-end olygonal Building
Footprint Extraction from emote ensing Imagery   6 • 従来セグメンテーション手法で、  後処理でラスタ画像からポリゴン化するため、角やエッジ品質が低下する  • 衛星画像から建物ポリゴンを直接抽出する ix2 oly を提案  • 建物角（頂点）離散系列を生成し、最適マッチングにより頂点間接続情報を学習  • ラスタ形式より鋭い角、直線的なエッジを持つ高品質な建物ポリゴンを実現可能 

7 研究背景 This image was generated by ChatGPT

• 現状建物衛星画像から抽出に以下フローを用いる   ①深層学習モデルによる建物セグメンテーション
  ②ルールベースアルゴリズムによって建物マスクからポリゴンを検出する   背景: 衛星画像を用いた建物自動抽出処理フロー   8 都市理解、地図、3D再構築、ナビゲーションなどにおいて、正確な建物輪郭不可欠   ①深層学習モデルによる建物画素抽出（ラスタマスク形式） ②建物マスクから頂点・線分を検出（ポリゴン形式）マイクロソフトGitHub microsoft/USBuildingFootprints から引用

• ラスタで建物抽出すると、角やエッジ精度が低下する   • ラスタからポリゴン化に複雑な後処理アルゴリズムが必要( penC でもできるが......)
  背景: ラスタ形式問題点   9 建物抽出を達成するためにラスタ形式を経由しない手法が必要なでないか？   ラスタ形式建物抽出でコーナー・エッジがぼやける建物マスクから頂点・線分を検出しポリゴンへ変換するに複雑な処理が必要入力画像予測結果ぼやけたエッジ左図 AWSブログ　 “AWS Machine Learning Blog” から引用右図 Kong et.al (2023) “Simplification and Regularization Algorithm for Right-Angled Polygon Building Outlines with Jagged Edges”, ISPRS Int. J. Geo-Inf.から引用

• 建物コーナーをヒートマップで検出しそ結果に微分不可能なを使用   • 頂点順序再調整などで学習パイプラインが複雑   背景:
グラフニューラルネットワークで直接ポリゴンを抽出する手法が登場   10 実用的なポリゴン抽出ためシンプルかつ軽量なE2E深層学習モデルが必要   UniVecMapper: トポロジーに特化したノード検出器を用いて頂点を検出し、なおかつ頂点順序再調整 Zorzi+ (2022) “PolyWorld: Polygonal Building Extraction with Graph Neural Networks in Satellite Images”, Arxiv から引用 Yang+ (2024) “UniVecMapper: A universal model for thematic and multi-class vector graph extraction”, International Journal of Applied Earth Observation and Geoinformationから引用 PolyWorld: CNNでラスタ形式頂点ヒートマップを予測し、そ後NMSで頂点を抽出してGNNでポリゴン接続を予測

補足: グラフ系手法   11 工程①建物頂点をヒートマップで算出頂点座標を抽出した結果 1  6  5 
4  3  2  真値ポリゴン工程②学習で頂点順番を決定するどうやって対応を学習？？真値ポリゴンと差をどうやって計算すれいいだろうか？  

補足: グラフ系手法   12 1  6  5  4  3 
2  頂点座標 1 2 3 4 5 6 1 0 1 0 0 0 1 2 1 0 1 0 0 0 3 0 1 0 1 0 0 4 0 0 1 0 1 0 5 0 0 0 1 0 1 6 1 0 0 0 1 0 隣接行列（6x6）接続しているところが 1 接続無しが0 1  6  5  4  3  2  ポリゴン隣接行列を使ってポリゴンを表現すると深層学習モデルでも扱えそう   同じ意味

補足: グラフ系手法   13 1 2 3 4 5
6 1 0 1 0 0 0 1 2 1 0 1 0 0 0 3 0 1 0 1 0 0 4 0 0 1 0 1 0 5 0 0 0 1 0 1 6 1 0 0 0 1 0 推定した隣接行列（6x6）最小化 1 2 3 4 5 6 1 0 1 0 0 0 1 2 1 0 1 0 0 0 3 0 1 0 1 0 0 4 0 0 1 0 1 0 5 0 0 0 1 0 1 6 1 0 0 0 1 0 真値隣接行列（6x6）隣接行列差を最小化するように学習すれポリゴン形状も一致できる  

補足: グラフ系手法   14 1 2 3 4 5
6 1 0 1 0 0 0 0 2 0 0 1 0 0 0 3 0 0 0 1 0 0 4 0 0 0 0 1 0 5 0 0 0 0 0 1 6 1 0 0 0 0 0 推定した置換行列（6x6）時計回り場合建物ポリゴンを表現する場合に置換行列が用いられる   建物ポリゴン場合、一方向だけ考えて各行と各列に 1つ 1しかない状態(置換行列 )でも表現可能 1  6  5  4  3  2  ポリゴン

補足: グラフ系手法   15 推定した置換行列（6x6）反時計回り場合建物ポリゴンを表現する場合に
置換行列が用いられる   建物ポリゴン場合、一方向だけ考えて各行と各列に 1つ 1しかない状態(置換行列 )でも表現可能 1  6  5  4  3  2  ポリゴン 1 2 3 4 5 6 1 0 0 0 0 0 1 2 1 0 0 0 0 0 3 0 1 0 0 0 0 4 0 0 1 0 0 0 5 0 0 0 1 0 0 6 0 0 0 0 1 0

補足: グラフ系手法   16 時計回り置換行列右回りと左回り置換行列転置すると一致するという重要な性質がある
  建物ポリゴン場合、各行と各列に 1つ 1しかない状態(置換行列)でも表現可能 1 2 3 4 5 6 1 0 0 0 0 0 1 2 1 0 0 0 0 0 3 0 1 0 0 0 0 4 0 0 1 0 0 0 5 0 0 0 1 0 0 6 0 0 0 0 1 0 1 2 3 4 5 6 1 0 1 0 0 0 0 2 0 0 1 0 0 0 3 0 0 0 1 0 0 4 0 0 0 0 1 0 5 0 0 0 0 0 1 6 1 0 0 0 0 0 反時計回り置換行列

• 解決したいこと   ◦ ラスタベースセグメンテーションで、エッジや角が鈍った建物が抽出される  ＝＞直接ポリゴンを抽出する手法を用いる 
◦ ポリゴンベース既存手法、複雑な後処理が必要  ＝＞微分可能な処理で構成されたEnd-to-Endな手法を用いる  ◦ 従来ポリゴンベース手法重いモデル   =>少ないパラメータ数で、従来手法よりも高性能な手法を用いる  研究目的   17 研究目的   衛星画像から高精細な建物輪郭を直接かつEnd-to-Endで抽出する  

18 手法 This image was generated by ChatGPT

• ix2 oly 、以下 2つ主要ネットワークから構成   ◦ ertex equence
Detector   ▪ エンコーダ  ▪ デコーダ  ◦ ptimal atching etwork   ▪ 接続スコア行列作成   ▪ 最適マッチング  手法: 全体フロー   19

ertex equence Detector 頂点座標列を出力するモデル   • エンコーダ   ◦ ision
ransformer ( i ) mall などエンコーダで画像潜在特徴を作成   • デコーダ   ◦ 頂点座標シーケンス生成   ▪ ransformer型デコーダで建物頂点座標を離散的なトークン列として生成   [ start, v1_x, v1_y, v2_x, v2_y, v3_x, v3_y, v4_x, v4_y, end ]   ▪ 画像座標あらかじめ 224 個ビンに分割され、各頂点 x, y 座標それぞれこれらビン番号（整数値）として離散化   ◦ 特殊トークン利用:   ▪ 開始トークン(start):   シーケンス開始合図   ▪ 終了トークン(end):  シーケンス終端   ▪ パッドトークン:  シーケンス長を揃えるダミー   ※シーケンス長超パラ     手法: ertex equence Detector   20

ptimal atching etwork 、頂点列とそ特徴を用いて、各頂点間接続関係を決定する   ①接続スコア行列推定  
• 点ごと 1DC 演算   各頂点座標と特徴に対して、複数ポイントワイズ畳み込みを適用し、   各頂点ペア間接続スコアを計算  ◦ 時計回りと反時計回り 2種類スコア行列を作成(頂点数x頂点数行列)   ▪ _clock: 各頂点ペアが時計回りに接続されるスコア   ▪ _count: 反時計回りに接続されるスコア   • 対称性確保   ◦ 最終的な接続スコア行列、 _clock , _count   転置を組み合わせた形で計算   = _clock + ( _count)^   ◦ 時計回りと反時計回り接続が互いに補完しあい、   パス一貫性が保たれる   手法: ptimal atching etwork   21

②最適マッチング（置換行列生成）   • 置換行列作成   得られたスコア行列に対して連続的なスコアから二値置換行列
を算出する   行方向に正規化、列方向に正規化を繰り返す処理によって0と1だけ置換行列ができる(実質ポリゴン)     手法: ptimal atching etwork   22 1 2 3 4 5 6 1 0 0.5 0.1 0.1 0.2 0.1 2 0 0.1 0.8 0.1 0 0 3 0 0 0.1 0.9 0 0 4 0 0 0.1 0.2 0.5 0.2 5 0 0 0 0 0.1 0.9 6 0.7 0.2 0 0 0.1 0 スコア行列S 1 2 3 4 5 6 1 0 1 0 0 0 0 2 0 0 1 0 0 0 3 0 0 0 1 0 0 4 0 0 0 0 1 0 5 0 0 0 0 0 1 6 1 0 0 0 0 0 置換行列P 列・行を繰り返し正規化処理

• ertex Detection oss   クロスエントロピーを用い、   予測シーケンスと真値シーケンス間誤差を最小化。  
• ermutation oss   真値置換行列と予測置換行列と   クロスエントロピー損失を採用。   ※各頂点マルチクラス分類問題になる   • 全体損失  _total = λ_s · _detection + λ_p · _permutation   係数実験で決定   手法: 損失関数   23 すべてネットワークで勾配が連続的に伝播され、個別微分不可能な処理や頂点並べ替え処理が不必要 =>既存手法弱点を克服

24 実験 This image was generated by ChatGPT

• データセット   ◦ I IA Aerial Image abelling Dataset:
タイル画像を 224×224 パッチに分割して評価   ◦ H Buildings Dataset:512×512 航空画像を 224×224 パッチに分割   ◦ assachusetts oads Dataset:1500×1500 画像を 224×224 パッチに分割   ◦ pace et 2 / AICrowd apping Challenge Dataset: 衛星画像を用いた建物および道路抽出   • データ拡張   ◦ 形状: ランダム回転, 切り出しやフリップ   ◦ 色: 明るさ・コントラスト調整、カラージッター、 GBシフト、グレースケール変換、   ガウシアンノイズ付加   • モデルパラメータ数   ◦ 既存手法より少ないパラメータ数を達成   ▪ ix2 oly：約31.9 パラメータ   ▪ 比較対象  • 2段階: FF (76.6 ), Hi up (74.3 )   • 1段階: oly orld (39.4 ), opDiG (41.04 ), ni ec apper (111.92 )   実験: 実験設定   25

• olygonal Footprint uality etrics 計算方法   ◦ Io (Intersection
over nion): 重なり面積 / (全体面積 - 重なり面積)   ◦ C-Io (Complexity-aware Io ): Io に形状複雑さ（頂点数など）を補正   ◦ - atio: 予測頂点数 / 真値頂点数   ◦ A ( ean aximum angent Angle error): 各エッジ予測と真値角度差最大値平均   ◦ o i ( olygonal ine imilarity): 対応する頂点間距離平均   ◦ トポロジカル指標: 輪郭画素だけでIo , F1score, Acc.を計算   実験: 評価方法   26 1  6  5  4  3  2  推論結果ポリゴン真値ポリゴン頂点数が合っているか？角度が同じか？真値と重なり具合評価頂点位置が同じか？

• 既往研究と定量評価   実験: 学習済みモデルによる抽出結果   27 ポリゴン形状に関する etricで提案手法が比較対象よりも高い分類性能を示す
  トポロジカル指標ポリゴン一致度

実験: 学習済みモデルによる分類結果   28 Io , Acc. 共に既存手法よりも高性能を示した   真値非公開
I IA テストデータでシステム上にてスコア計算  （リーダーボードで結果を確認するタイプ）  

実験: 定性評価   29 ix2 oly 密集した小さな建物や複雑な形状でも破綻しない   FFL HiSup
Pix2Poly

実験: 定性評価   30 ix2 olyによるポリゴン抽出結果が形状(角・エッジ) 再現性が最も高い   FFL
HiSup Pix2Poly

実験: 手法応用先   31 道路ネットワーク抽出にも同じ枠組みを適用可能   頂点集合であれ学習できるで、道路
ポリゴンから学習できる  ※交差点に「頂点インスタンスを、辺数だけ割り当てる」特殊処理が必要 

• 予測とグラウンドトゥルース不整合   予測されたポリゴンと真値と間に、微妙なずれが発生する   ビン座標で離散化された座標表現や、シーケンス予測過程で誤差に起因
  • トポロジカルエラー   頂点接続順序に誤りが生じ、ポリゴントポロジー（閉じた輪郭）が正確に再現されない   こ問題、 ptimal atching etwork による頂点接続予測精度で発生している   • 離散化によるオーバーラップエラー   画像座標を一定数ビンに分割して離散化するため、隣接ビン間で若干重複が発生     手法限界点   32 追加正規化損失やより精密な座標離散化手法導入を通じて改善できる  

33 結論 This image was generated by ChatGPT

• ix2 oly 、End-to-Endで高品質な建物ポリゴン抽出を軽量なモデルで実現する新たな手法   • ertex equence Detector と
ptimal atching etwork 組み合わせにより、   従来複雑な後処理を不要化   • 定量・定性評価両面で従来手法を上回る性能を示し、軽量かつ効率的なモデル   まとめ   34

Pix2Poly: A Sequence Prediction Method for End-...

Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript