Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion

Sat2City:3D City Generation from A Single Satellite Image with Cascaded
Latent Diffusion 篠原崇之 1 第18回 SatAI.challenge勉強会この資料に出てくる図は引用を明記しない場合は Hua et al. (2025), “Sat2City: 3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion”,ICCV 2025より引用

目次   2 • 自己紹介スライド  • 手法の概要（研究の1ページサマリ紹介）   • 研究の背景（Introduction）
  • 手法（Method）  • 実験（Experimet）  • まとめ（Conclusion）   • 感想   

3 発表者紹介 This image was generated by ChatGPT

自己紹介   4 研究テーマ：３次元モデリング、サロゲートモデル、動的システム、土木インフラ 4 X(旧 Twitter) LinkedIn 産総研
- サロゲートモデル: 制御x深層学習モデル - 土木インフラxAI: インフラ劣化予測篠原崇之

5 手法の概要 This image was generated by ChatGPT

Sat2City:   3D City Generation from A Single Satellite Image
with Cascaded Latent Diffusion   6 • 背景: 衛星画像からの都市生成は注目される一方、  既存の2Dレンダ（NeRF/GS等）依存手法は視点制約ゆえに大域スケールで3D構造が曖昧になりやすい。  • 目的: 単一の衛星DSM から、都市スケールで3D形状と外観テクスチャ生成できるSat2City を確立。  • 提案手法: 疎なボクセル表現に3段階の潜在拡散モデルで外観テクスチャ付きの3次元モデルを生成する。  • 実験結果: 幾何的な精度・テクスチャの目視評価で  既存の3次元形状推定手法を超えた生成結果。  Sat2Cityのタスク設定は DSMから3次元形状と外観テクスチャを生成 ※再構成ではない

7 研究の背景 This image was generated by ChatGPT

• 都市計画・デジタルツイン・ゲーム等でリアルな都市スケール3Dモデルの需要が急増している   • SfM/MVS結果を使ったモデリングはコストがかかり、都市域全体の3次元モデルを作りにくい     背景: 都市の3次元モデル作成  
8 都市スケールに対して低コストに3次元モデルを自動生成する手法が必要   SfM/MVS  再構成  広範囲を航空測量して都市モデルを SfM/MVSで作成 (テクスチャ付きの3次元形状) 左図 https://mundogeo.com/en/2021/03/11/new-leica-citymapper-2l-configurati on-enables-digital-twin-creation-of-cities-in-complex-areas/ 右図 3DDB Viewer https://gsvrg.ipri.aist.go.jp/3ddb_demo/tdv/index.html

• ボクセルを利用する手法   ◦ XCube: 階層的な疎ボクセルと潜在拡散モデルを組み合わせて、   　　　　テクスチャ付き3D形状を直接生成する基盤手法   ◦
SCube: 少数視点の画像から、疎ボクセル上の3Dガウシアン（VoxSplat）を推定して、   　　　　密なボクセル形状・外観テクスチャ・セマンティクスを高速に再構築する手法。   背景: 深層学習による低コストな 3次元モデル自動作成手法   9 既存法は3Dの曖昧性やスケーラビリティの壁を越えられていない   XCube  SCube  https://research.nvidia.com/labs/toronto-ai/scube/ https://research.nvidia.com/labs/toronto-ai/xcube/

• 都市域を対象にするスケーラビリティな手法   ◦ CityDreamer: セマンティックラベルと高さ情報をから、建物3次元モデルと都市の背景を生成   （非明示的な3次元推定）   ◦
Sat2Scene: 衛星画像から3D点群を直接生成して、各点の色を推定。その色からニューラルレンダリングして地上視点の画像を生成。（局所しかできない）   背景: 深層学習による低コストな 3次元モデル自動作成手法   10 明示的に3次元情報を扱いつつ都市域を対象にした手法が存在しない   CityDreamer  Sat2Scene  https://arxiv.org/pdf/2309.00610 https://arxiv.org/pdf/2401.10786

• 視点制約と3D破綻：ニューラルレンダ系は限られた視点・軌道での画像/動画生成に偏り、   明示的3D再構築では破綻・劣化が起きやすい。   • 2D起点ゆえの3D曖昧性：3Dのテクスチャ付き座標での直接評価して無いため、詳細3D構造の再現力が弱い（CityDreamer/GS系含む）。
  • スケール一貫性の壁：2D生成の事前（セマンティック/高さ）を使っても3Dの一貫性は依然不十分   3Dデータでの直接学習は試みがあるが都市全体スケールは困難。   • Sat2Sceneの実装上の制約：中間出力の高密点群に依存し幾何の改良ができず、計算コストがスケールしにくい。都市規模の高品質テクスチャ点群の不足で適用は街路スケールに限定。   ※つまり、既存手法でやっていない所を攻めている論文   背景: 既往研究の問題点   目的：単一の衛星DSMから、都市スケールでボクセルと外観を生成し、   既往の3D曖昧性とスケール制約を克服する都市3D生成手法を確立する。   なるべく陽的に   ボクセル形状を推定   外観ボクセルに色属性を   安定的な手法   多段階の学習  ReHashでコンテクスト   一貫性の確保   Inverse Sampling  計算スケーラビリティ   疎なボクセルで高速化   11

12 手法 This image was generated by ChatGPT

• タスク  ◦ DSMを入力したら、それに対応するテクスチャ付きのボクセルを生成   ▪ ボクセルとは規則正しいグリッドの3次元データ表現   手法: Sat2Cityの全体像:
入出力   13

• 入力はDSMから作った点群   • 潜在拡散モデルでテクスチャ付きボクセルを出力   ◦ 出力１つ目：雑だけど密なボクセル   ◦
出力 2つ目：ごみを減らした疎なボクセル   ◦ 出力 3つ目：外観のテクスチャ色情報付きのボクセル   手法: Sat2Cityの全体像: 入出力   14 拡散モデル ①　　　　拡散モデル ②　　　　　拡散モデル３   拡散モデル(図中▶◀)を3段階で積み重ねて安定した3次元モデル生成を行う   論文タイトルのCascaded Latent Diffusion のコアのアイデア

• Triplet Bottleneck VAE   ◦ 密なボクセルへ特徴抽出して、   そこから復元  ▪
おおまかな形状の気持ち   ◦ 疎なボクセルへ特徴抽出して、   そこから復元  ▪ 詳細な形状の気持ち   ◦ 複数解像度の疎なボクセルから   外観の色情報を推定する   • 潜在拡散モデル  ◦ 潜在ボクセルを生成   ▪ 密な特徴空間のボクセル   ▪ 疎な特徴空間のボクセル   ▪ 解像度を変えた潜在ボクセル   生成  手法: Sat2Cityの全体像: 層設計   15 VAEと拡散モデルを組み合わせたDSMからのテクスチャ付きボクセル生成   潜在ボクセルからの復元  潜在ボクセル生成 

手法: Sat2Cityの全体像: 学習の流れ   16 ① 事前学習  ② 潜在拡散モデル学習  密な 
ボクセル表現  の潜在空間  疎な  ボクセル表現の潜在空間  収束後  外観の色付き  ボクセル  入力する  ボクセル  幾何情報  エンコード  エンコード  デコード  デコード  ボクセル  のVAE 外観推定のデコーダー疎な  ボクセル表現の潜在空間  デコード  密な  ボクセル表現  の潜在空間  拡散  モデル  DSM  疎な  ボクセル表現  の潜在空間  拡散  モデル  密な  ボクセル表現  の潜在空間  推論時   潜在空間から元の解像度への出力は   学習済みのデコード機能に任せる推論時  推論時 

• 密なボクセル向けのVAE(D_d)   ◦ ボクセルグリッドGとグリッドの   頂点の法線ベクトルA_Nから密な潜在ボクセルグリッドを抽出   ◦
それから自分に戻す   • 疎なボクセル向けのVAE（D_s）   ◦ ボクセルグリッドGとグリッドの   頂点の法線ベクトルA_Nと頂点の色Ｐ_Cから疎な潜在ボクセルを抽出   ◦ そこから自分に戻す   • テクスチャ向けのVAE(D_c)   ◦ 疎なボクセル潜在特徴から、   ボクセルの各面の色を推定する   ◦ つまり、真値の点群と比較する   手法: Triplet Bottleneck VAEの全体像   17 VAEを3種類組み合わせて3次元形状とテクスチャの破綻を避ける  

• ボクセルもCNNとかと同様に複数の解像度でコンテクスト情報が欲しい   • そこで、LoD的にあえてボクセルの解像度を落とす処理（Re-Hash）を入れる   • 解像度を落としたものとオリジナルを組み合わせて、テクスチャを推定するデコーダーへ渡す   手法:
Triplet Bottleneck VAE内でのテクニック Re-Hash Neck   18

• lossを計算するとき、真値は点群だが、推定するのはボクセル   • ボクセルの各頂点の色を推定し、真値の点群と損失関数を計算する際には、   近傍の頂点からその場所の色を計算して真値の点群と比較する   • これによって、一番近い頂点と損失を計算すると不連続になる問題などを解決
  • なお、損失関数の計算は、Re-Hashで作った複数解像度の潜在ボクセルから推定した外観の色にて行う   手法: Triplet Bottleneck VAE内でのテクニック Inverse Sampling   19

手法: Conditional Cascaded 3D Latent Diffusion   • 潜在拡散モデルは3段重ね  
◦ DSMから作った点群の特徴ベクトルを含んだ初期値から、密な潜在ボクセルを作る   その後、VAEのデコーダーを使ってボクセル形状へ復元   ◦ 1段目の結果から、疎な潜在ボクセルを作り、VAEのデコーダーでボクセル形状へ復元   ◦ 1段目の結果からRe-Hashで複数解像度のボクセルを作り、   そこから外観の色推定を行うデコーダーへ入力する     20

手法: データセット作成を3Dレンダリングで作る工夫   • ブレンダーで都市のメッシュを作成し、CloudCompareでメッシュから点群をサンプリング   • オルソカメラで都市全域を一括でDSMをレンダリングする   ◦
この時、ノイズなどを付与して現実っぽいDSMを作ることを意識   • 3110個のインスタンス（一定範囲に区切られた状態）を作って、train/val/testへ分割   • この枠組みで、カラー点群とDSMとメッシュが紐づいたデータセットができる   生成結果を次の入力へ  21

22 実験 This image was generated by ChatGPT

• 評価  ◦ 幾何：COV（被覆率）/ MMD（最小対応距離）を CD/EMD で評価（生成メッシュ/参照点群から各1万点）。   ◦
外観：60名ユーザスタディでPQ/SC（外観テクスチャ付き=TPQ/TSC、幾何のみ=GPQ/GSC）   • ベースライン  ◦ 幾何品質：BlockFusion と NFD（いずれもシーン生成系）と比較。   ◦ 外観品質：CityDreamer（2Dレンダ生成）／Sat2Scene（3D点群色生成）と比較。   ◦ 公平化：Sat2Scene は本データセットで公式コード再学習、CityDreamerは24画像/sceneをレンダ →MASt3Rで再構築して3D比較   実験: 実験の設定   23

• 幾何（Table 2）：  ◦ COV（被覆率）/ MMD（最小対応距離）を CD と EMD で算出。
  ◦ Sat2Cityは幾何の被覆と近接性の両面で最良   • 外観（Table 3, 10点満点の目視評価）：   ◦ 10点満点スコアで TPQ/TSC（テクスチャ）と GPQ/GSC（幾何）を評価、参加者60名。   ◦ テクスチャ評価（TPQ/TSC）でも幾何のみ（GPQ/GSC）でもSat2Cityが最高。   実験: 定量比較   24 幾何（COV/MMD）も外観（TPQ/TSC/GPQ/GSC）も全面で既存法を上回る。  

• vs. CityDreamer：2Dレンダ起点のため幾何一貫性が崩れ、   提案手法のSat2Cityは条件（高さ）順守で空間整合が高い。   実験: 定性比較   25

• vs. Sat2Scene：密点群依存で都市スケールに不向き   ◦ Sat2Sceneは、テクスチャが崩れたり一貫しないなど、見た目の復元が不十分   ◦ Sat2Scene
は高密度点群に依存だが、   このデータセットは約14点/㎡と疎で、スケールが合わない。  ◦ Sat2City は疎ボクセル×潜在拡散を中核に、 Re-Hash/Inverse Samplingで外観学習を安定化させ、疎な条件でも破綻しにくい設計   ◦ 提案手法のSat2City は高さデータのみから一貫したボクセルと外観テクスチャを出せる   実験: 定性比較   26

• 設計目的：外観最適化の収束安定化と多スケールが効くのか   • 単一Dense／Dual-sparse：色損失がゼロ付近から進まない/不安定。  • Dual-dense：学習は進むが収束が遅く、外観のアーティファクトが増える。  •
Re-Hash：最も安定かつ速い収束、外観のテクスチャの   アーティファクトが減る。     実験: アブレーション(ReHASHの定量評価)   27 Re-Hashによる複数解像度が効く  

• 無し：最近傍分割ではテクスチャにギザつきが発生する   • Inverse Sampling：点群側で補間色を推定し頂点色へ逆伝播するので、   連続的で一貫した外観、レンダのアーティファクト減。    
実験: アブレーション(inverse sampling)   28 Inverse Samplingはテクスチャのなめらかさをアシストする  

• 設計目的：Dense/Sparse/Appearanceの3段が効くか   • w/o Dense（Sparseのみ）：非占有領域を捉えられず、カオスな生成に。   • w/o Sparse（Denseのみ）：外観段の構造ガイド不在で整合が崩れる。
  実験: アブレーション(潜在拡散モデル)   29 三段カスケードは全段が相補で、どれが欠けても破綻  

• 実データでの本格評価は未実施。   ◦ 理由は「衛星の標高（高さ）マップと高解像・色付き点群を厳密に同一座標で整合させたデータの収集がコスト高で、公開制約もある」ため   • 今後は実データの整備
  ◦ GEE＋Google Maps Platformで、同一境界箱の「高解像衛星画像」と「共登録された3D Tiles」を自動取得するパイプラインを作成。   ◦ API取得→点群化→高さ推定までの処理は1シーン約10分（市販PCで確認）で回せる＝大規模収集は実務的に可能。   ◦ 実データでの一般化の初期検証として Depth Anything を実データ（高さ＋衛星画像）に微調整し、 Chamfer Distanceを計測すると   ◦ 合成データ：0.2909、実データ：0.0977（7シーン平均）→ 実データの方が整合が良い。見た目でも、実データは高さ分布と色点群の一致が高い。   ⇒ 実データで悪化する懸念は小さく、むしろ品質向上の可能性。   限界点   30

31 結論 This image was generated by ChatGPT

• 単一の衛星画像から高品質かつ多様な3D都市を生成する新しいフレームワーク「Sat2City」を提案した。   • 複雑な問題を「レイアウト」「高さ」「テクスチャ」に分解し、それぞれを3段の潜在拡散モデルで解くアプローチを採用。  • 実験により、提案手法が既存研究を大幅に上回る性能を持つことを定量的・定性的に示した。   •
この手法はユーザーによるインタラクティブな編集（DSMを操作）も可能であり、   都市計画やエンターテインメント分野への実用的な応用が期待される。   • Sat2Cityは、自動3D都市モデル生成の分野における重要な一歩   まとめ   32

33 感想 This image was generated by ChatGPT

• DSMから3次元モデルを生成できるのは応用先が限定かも   ◦ アセット配置は既存ライブラリに制約され多様性に乏しいと著者は言っているけど、   ゲーム用途とかを想定しているので既存３Dアセット配置でもいいのではという気もする   ◦ 使いどころだと、入るたびにダンジョンの形が変わる系ゲームの都市版みたいなこと？
  • 実際の都市で拡散モデル生成って使ってよいのだろうか   ◦ 測量とか地図とかの文脈外での利用に限定されそう（繰り返しになるけどゲームとか？）   ◦ 都市計画の高速な仮説検証をやる場合？   • 512x512x512のボクセルが現状の計算リソース上の上限になるので、CityScaleと言えるか微妙なライン   ◦ アメリカとかの町で1ブロックくらい？   ◦ 具体的には論文中に学習データのクロップ方法を書いていないので、著者があえてぼかしてそう   • 篠原の思うリミテーション   ◦ City Scaleを目指すなら別ブロックの推論結果とのつなぎ目を考えていないのがまずい   ◦ 広い建物だと一回の推論で賄えなそう   ◦ 高い建物も同様に、ボクセルのサイズからはみ出てしまうので扱えない   ◦ 複雑な形状を持つ建物は入力するボクセルの解像度・グリッド数に依存するので、   現状の建物を扱うにはもう少しGPUの性能が上がるか、メモリ効率の良い手法が出るまで待つ   感想など   34

Sat2City:3D City Generation from A Single Satel...

Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion

SatAI.challenge

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript