[ECCV2024読み会] 衛星画像からの地上画像生成

衛星画像からの地上画像生成 Geospecific View Generation - Geometry-Context Aware High-Resolution Ground View
Inference from Satellite Views (Oral) @第62回コンピュータビジョン勉強会＠関東（ECCV2024読み会）株式会社Elith 飯田啄巳 1

自己紹介 2 飯田啄巳@京都 2020.4 – 2024.3 中国系AIベンチャーで自動運転 2024.4 – 2024.9
医療AIベンチャーでCV 2024.10 – 現在 ElithでCVやLLMで色々 twitter: ふりかけ（@frkake） Sponsored by Elith Inc.（会社のお金で来ています）

目次 3 • 紹介する論文 • 何をやる論文なのか • モチベーション • 関連研究
• 処理フロー • 実験データセット • Ablation Study

紹介する論文 4 衛星画像（30cm/pixel）地上のパノラマ画像（3cm/pixel） Project Page：https://gdaosu.github.io/geocontext/ 選定理由：めっちゃ野心的なタスクだなぁと思ったので
（タスク自体はこの論文が初ではないが、Oralだったので気になったのがきっかけ）コラム最近設立された SatAI.challenge でも紹介されてたみたいです QR横に並べてすみません公式ツイッターより拝借引用元の明記がなければ、本論文からの引用

モチベーション：なぜ衛星画像から地上画像を生成したいのか 5 論文に書いてあったこと • 3Dゲーム（仮想空間）の生成 • 都市スケールのシーン生成 Elith • 公道シーンの静的リスク評価
 この論文を読んだ動機の一つ使い所 Elithでの事例野島橋（Googleストリートビューのスクショ）クレスト視界が開けていない左右の視界が悪い信号がない GTA5のデータ（出典リンク）信号つけよう道路の線形を改良しようミラーつけよう

衛星画像からは意外と建物の側面も見えている 6 国土交通省国土地理院より引用と改変正射影変換空中写真オルソ画像オルソ補正

関連研究：衛星画像→地上のパノラマ画像 7 CVPR2018 PanoGAN [9] IEEE Transactions on Multimedia 2022
Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群ビデオ化 NeRF+拡散モデルテクスチャの活用拡散モデル GANで頑張る視点変換 NeRF

関連研究：衛星画像→地上のパノラマ画像 8 衛星画像を Conditionにした cGAN Real/Fake? cGANを使ってimage-to-image。セグメンテーション結果に沿うようなクリアな地上画像を生成。 X-Fork [10] CVPR2018
PanoGAN [9] IEEE Transactions on Multimedia 2022 Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群ビデオ化 NeRF+拡散モデルテクスチャの活用拡散モデル GANで頑張る視点変換 NeRF

関連研究：衛星画像→地上のパノラマ画像 9 CrossMLP [8]より引用カスケード化 CVPR2018 PanoGAN [9] IEEE Transactions
on Multimedia 2022 Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群ビデオ化 NeRF+拡散モデルテクスチャの活用拡散モデル GANで頑張る視点変換 NeRF

関連研究：衛星画像→地上のパノラマ画像 10 PanoGAN [9]より引用識別器の結果を生成器にフィードバックしてループ CVPR2018 PanoGAN [9] IEEE Transactions
on Multimedia 2022 Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群ビデオ化 NeRF+拡散モデルテクスチャの活用拡散モデル GANで頑張る視点変換 NeRF

関連研究：衛星画像→地上のパノラマ画像 11 Sat2Ground [11] より引用 1. 衛星画像地上画像で形状＆セマンティクスが一貫するように幾何変換 2. セグメンテーションマップ→地上RGB画像変換
Geo-transformation 𝑇 Semantic Height Mapを生成全体像逆変換もやってる CVPR2018 PanoGAN [9] IEEE Transactions on Multimedia 2022 Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群ビデオ化 NeRF+拡散モデルテクスチャの活用拡散モデル GANで頑張る視点変換 NeRF

関連研究：衛星画像→地上のパノラマ画像 12 Sat2Vid [12]より引用軌跡から見える点をサンプリングビデオ化することで空間的・時間的な整合が取れる CVPR2018 PanoGAN [9] IEEE
Transactions on Multimedia 2022 Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群ビデオ化 NeRF+拡散モデルテクスチャの活用拡散モデル GANで頑張る視点変換 NeRF

Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群ビデオ化 NeRF NeRF+拡散モデルテクスチャの活用拡散モデル Sat2Scene [14]より引用点群のデノイズ＆色付け 2D上で背景（空）を生成 GANで頑張る視点変換空と街並みの結合に違和感があるが、建物の空間的一貫性はありそう

Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群ビデオ化 NeRF+拡散モデルテクスチャの活用拡散モデル GANで頑張る視点変換 NeRF 本論文 [15]より引用

提案手法：処理フロー 15 ステレオマッチング RPC投影視点変換建物の領域をはっきりさせる ControlNet LoRA

ステレオマッチングによる3次元復元（詳細不明） 16 ココ Whickbroom Pushbroom 今回はこっち衛星画像はステレオで撮影されてるただし、撮影方式がピンホールカメラと異なる → エピポーラ幾何が直接使えない
→ タイル分割して、ピンホールカメラモデルに近似 RS1.3 - Remote sensing: how does it work?より引用ピンホールカメラの場合エピポーラ線＝直線衛星カメラの場合エピポーラ線＝曲線タイル分割して、ピンホールカメラモデルに近似各タイルでステレオマッチング（Semi Global Matching, SGM）文献[5] より引用

Texture-friendly geometry refinement 17 ココ Refinement 3D復元しただけだと、建物の表面がデコボコしてしまう → 建物かどうかをセグメンテーションして、建物以外を刈り取る今日の会場
OpenStreetMap Building Footprint data [7] 輪郭をポリゴンで補正 Rectify SegFormer?

RPC（Rational Polynomial Coefficients）投影 18 (𝑥, 𝑦) 緯度, 経度, 高度 =
(𝜑, 𝜆, ℎ) ※ ビル RPC投影がやること＝地図上の3D空間と画素のマッピング 𝑥, 𝑦 = ModelRPC 𝜑, 𝜆, ℎ 富士山の等高線富士山（北側から撮影） RPCで座標変換松岡真如, “第 19 回 Rational Polynomial Coefficients (RPC)の利用”, 日本リモートセンシング学会誌, vol. 34, pp. 347- 349, 2014.より引用 𝑥 = 𝑎1 + 𝑎2 𝜆𝑛 + 𝑎3 𝜑𝑛 + 𝑎4 ℎ4 + 𝑎5 𝜑𝑛 𝜆𝑛 + 𝑎6 𝜆𝑛 ℎ𝑛 + 𝑎7 ℎ𝑛 𝜑𝑛 + 𝑎8 𝜆𝑛 2 + 𝑎9 𝜑𝑛 2 + 𝑎10 ℎ𝑛 2 + 𝑎11 𝜑𝑛 𝜆𝑛 ℎ𝑛 + 𝑎12 𝜆𝑛 3 + 𝑎13 𝜑𝑛 2𝜆𝑛 + 𝑎14 ℎ𝑛 2𝜆𝑛 + 𝑎15 𝜆𝑛 2𝜑𝑛 + 𝑎16 𝜑𝑛 3 + 𝑎17 ℎ𝑛 2𝜑𝑛 + 𝑎18 𝜆𝑛 2ℎ𝑛 + 𝑎19 𝜑𝑛 2ℎ𝑛 + 𝑎20 ℎ𝑛 3 𝑏1 + 𝑏2 𝜆𝑛 + 𝑏3 𝜑𝑛 + 𝑏4 ℎ4 + 𝑏5 𝜑𝑛 𝜆𝑛 + 𝑏6 𝜆𝑛 ℎ𝑛 + 𝑏7 ℎ𝑛 𝜑𝑛 + 𝑏8 𝜆𝑛 2 + 𝑏9 𝜑𝑛 2 + 𝑏10 ℎ𝑛 2 + 𝑏11 𝜑𝑛 𝜆𝑛 ℎ𝑛 + 𝑏12 𝜆𝑛 3 + 𝑏13 𝜑𝑛 2𝜆𝑛 + 𝑏14 ℎ𝑛 2𝜆𝑛 + 𝑏15 𝜆𝑛 2𝜑𝑛 + 𝑏16 𝜑𝑛 3 + 𝑏17 ℎ𝑛 2𝜑𝑛 + 𝑏18 𝜆𝑛 2ℎ𝑛 + 𝑏19 𝜑𝑛 2ℎ𝑛 + 𝑏20 ℎ𝑛 3 𝑦 = 𝑐1 + 𝑐2 𝜆𝑛 + 𝑐3 𝜑𝑛 + 𝑐4 ℎ4 + 𝑐5 𝜑𝑛 𝜆𝑛 + 𝑐6 𝜆𝑛 ℎ𝑛 + 𝑐7 ℎ𝑛 𝜑𝑛 + 𝑐8 𝜆𝑛 2 + 𝑐9 𝜑𝑛 2 + 𝑐10 ℎ𝑛 2 + 𝑐11 𝜑𝑛 𝜆𝑛 ℎ𝑛 + 𝑐12 𝜆𝑛 3 + 𝑐13 𝜑𝑛 2𝜆𝑛 + 𝑐14 ℎ𝑛 2𝜆𝑛 + 𝑐15 𝜆𝑛 2𝜑𝑛 + 𝑐16 𝜑𝑛 3 + 𝑐17 ℎ𝑛 2𝜑𝑛 + 𝑐18 𝜆𝑛 2ℎ𝑛 + 𝑐19 𝜑𝑛 2ℎ𝑛 + 𝑐20 ℎ𝑛 3 𝑑1 + 𝑑2 𝜆𝑛 + 𝑑3 𝜑𝑛 + 𝑑4 ℎ4 + 𝑑5 𝜑𝑛 𝜆𝑛 + 𝑑6 𝜆𝑛 ℎ𝑛 + 𝑑7 ℎ𝑛 𝜑𝑛 + 𝑑8 𝜆𝑛 2 + 𝑑9 𝜑𝑛 2 + 𝑑10 ℎ𝑛 2 + 𝑑11 𝜑𝑛 𝜆𝑛 ℎ𝑛 + 𝑑12 𝜆𝑛 3 + 𝑑13 𝜑𝑛 2𝜆𝑛 + 𝑑14 ℎ𝑛 2𝜆𝑛 + 𝑑15 𝜆𝑛 2𝜑𝑛 + 𝑑16 𝜑𝑛 3 + 𝑑17 ℎ𝑛 2𝜑𝑛 + 𝑑18 𝜆𝑛 2ℎ𝑛 + 𝑑19 𝜑𝑛 2ℎ𝑛 + 𝑑20 ℎ𝑛 3 80係数（𝑎1 ~𝑎20 , 𝑏1 ~𝑏20 , 𝑐1 ~𝑐20 , 𝑑1 ~ 𝑑20 ）を求める求め方（詳細不明）：平行化したステレオ画像＋深度＋セマンティックラベルを使って、2D-3Dの対応関係を最適化めっちゃ頑張って入力した (^_^;) ココ ※ 78パラメータ（実際には分母分子どちらかのオフセット成分は無視できる）小学館ページより引用して編集

生成ステージ 19 ココ ControlNet LoRA Stable Diffusion v1.5をファインチューニングして地上パノラマ画像を生成テキスト条件（Geospecific Prior）
既存手法だとセマンティクス(a)しか使ってないが、テクスチャや高周波成分を利用できるようにしたほうがいいクロスアテンション部分エッジ抽出ネットワークがどうのこうのと書いてあるが、一切記述なし。見た目的にCannyエッジでは？と思ってる評価指標でも使ってるし

実験：データセット 20 WorldView-3 • Panchromatic：高解像度の白黒 • Multispectral ：可視光 • SWIR
：近赤外線 • CAVIS ：雲とかの影響補正 DFC2019データセットの衛星画像を元に作成地上画像のGTはGoogleStreetView-360から位置ズレの少ないものをフィルタリングして取得。 Top-view RGB Top-view Hight Maps Top-view Semantic Ground-view Depth Ground-view Semantic Prediction Ground-view Semantic GT Ground-view RGB GT Ground-view Semantic Prediction Ground-view Semantic GT misaligned mask いい例（位置があってる）悪い例 Sat2Ground [11]より引用 WorldView-3のデータシート [3]より引用 𝑶𝒗𝒆𝒓𝒍𝒂𝒑𝒔𝒌𝒚 > 𝟗𝟓%

結果：他手法との比較 21 Building Ground Sky CannyエッジとのIoU 類似度を測る基盤モデル [16] Sat2Ground
Sat2Density Sat2Ground Sat2Density 建物に強い

結果：Ablation Study 22 Satellite Texture プロンプト (High resolution street view…)
テクスチャが全然違う

結果：Ablation Study 23 既存手法のConditionに、Satellite Textureを利用した場合 → セグメンテーションよりもSatellite Textureの方が有効 CrossMLP [8]より引用
PanoGAN [9]より引用カスケード化

Limitations 24 視点が変わったときの一貫性が保証できないテクスチャが変化

まとめ 25 • 衛星画像から各都市の地上パノラマ画像を生成する手法を提案都市のプロンプトを入れてやることでそれっぽい画像が作れる • 忠実性という観点でいえば保証はできないが、Satellite Textureを使うことで、構造的な忠実性は高そう →解決できれば、どこかの都市っぽいところを自由に歩き回る仮想空間ができそう
GTA5のデータ（出典リンク）

参考文献 26 [1] 松岡真如, “第 19 回 Rational Polynomial Coefficients
(RPC)の利用”, 日本リモートセンシング学会誌, vol. 34, pp. 347-349, 2014. [2] Bosch, Marc, Kevin Foster, Gordon Christie, Sean Wang, Gregory D. Hager, and Myron Brown. “Semantic Stereo for Incidental Satellite Images.” arXiv, November 21, 2018. https://doi.org/10.48550/arXiv.1811.08739. [3] https://resources.maxar.com/data-sheets/worldview-3 [4] RS1.3 - Remote sensing: how does it work? [5] Franchis, C. de, E. Meinhardt-Llopis, J. Michel, J.-M. Morel, and G. Facciolo. “An Automatic and Modular Stereo Pipeline for Pushbroom Images.” ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences II–3 (August 7, 2014): 49–56. https://doi.org/10.5194/isprsannals-II-3-49-2014. [6] Qin, R. “RPC STEREO PROCESSOR (RSP) – A SOFTWARE PACKAGE FOR DIGITAL SURFACE MODEL AND ORTHOPHOTO GENERATION FROM SATELLITE STEREO IMAGERY.” ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences III–1 (June 1, 2016): 77–82. https://doi.org/10.5194/isprs-annals-III-1-77-2016. [7] OpenStreetMap contributors: Planet dump retrieved from https://planet.osm.org . https://www.openstreetmap.org (2017) [8] Ren, Bin. “Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation,” BMVC, 2021. [9] Wu, Songsong, Hao Tang, Xiao-Yuan Jing, Haifeng Zhao, Jianjun Qian, Nicu Sebe, and Yan Yan. “Cross-View Panorama Image Synthesis.” IEEE Transactions on Multimedia, 2022. [10] Regmi, Krishna, and Ali Borji. “Cross-View Image Synthesis Using Conditional GANs.” In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 3501–10. Salt Lake City, UT, USA: IEEE, 2018. https://doi.org/10.1109/CVPR.2018.00369. [11] Lu, Xiaohu, Zuoyue Li, Zhaopeng Cui, Martin R. Oswald, Marc Pollefeys, and Rongjun Qin. “Geometry-Aware Satellite-to-Ground Image Synthesis for Urban Areas,” 859–67, 2020. https://openaccess.thecvf.com/content_CVPR_2020/html/Lu_Geometry-Aware_Satellite-to-Ground_Image_Synthesis_for_Urban_Areas_CVPR_2020_paper.html. [12] Li, Zuoyue, Zhenqiang Li, Zhaopeng Cui, Rongjun Qin, Marc Pollefeys, and Martin R. Oswald. “Sat2Vid: Street-View Panoramic Video Synthesis from a Single Satellite Image.” In 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 12416–25. Montreal, QC, Canada: IEEE, 2021. https://doi.org/10.1109/ICCV48922.2021.01221. [13] Qian, Ming, Jincheng Xiong, Gui-Song Xia, and Nan Xue. “Sat2Density: Faithful Density Learning from Satellite-Ground Image Pairs.” In 2023 IEEE/CVF International Conference on Computer Vision (ICCV), 3660–69. Paris, France: IEEE, 2023. https://doi.org/10.1109/ICCV51070.2023.00341. [14] Li, Zuoyue, Zhenqiang Li, Zhaopeng Cui, Marc Pollefeys, and Martin R. Oswald. “Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion.” In 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. [15] Xu, Ningli, and Rongjun Qin. “Geospecific View Generation -- Geometry-Context Aware High-Resolution Ground View Inference from Satellite Views.” arXiv, September 12, 2024. https://doi.org/10.48550/arXiv.2407.08061. [16] Fu, Stephanie, Netanel Tamir, Shobhita Sundaram, Lucy Chai, Richard Zhang, Tali Dekel, and Phillip Isola. “DreamSim: Learning New Dimensions of Human Visual Similarity Using Synthetic Data.” arXiv, December 8, 2023. https://doi.org/10.48550/arXiv.2306.09344.

[ECCV2024読み会] 衛星画像からの地上画像生成

[ECCV2024読み会] 衛星画像からの地上画像生成

Elith

More Decks by Elith

Other Decks in Research

Featured

Transcript

衛星画像からの地上画像生成 Geospecific View Generation - Geometry-Context Aware High-Resolution Ground View

自己紹介 2 飯田啄巳@京都 2020.4 – 2024.3 中国系AIベンチャーで自動運転 2024.4 – 2024.9

目次 3 • 紹介する論文 • 何をやる論文なのか • モチベーション • 関連研究

紹介する論文 4 衛星画像（30cm/pixel）地上のパノラマ画像（3cm/pixel） Project Page：https://gdaosu.github.io/geocontext/ 選定理由：めっちゃ野心的なタスクだなぁと思ったので

モチベーション：なぜ衛星画像から地上画像を生成したいのか 5 論文に書いてあったこと • 3Dゲーム（仮想空間）の生成 • 都市スケールのシーン生成 Elith • 公道シーンの静的リスク評価

衛星画像からは意外と建物の側面も見えている 6 国土交通省国土地理院より引用と改変正射影変換空中写真オルソ画像オルソ補正

関連研究：衛星画像→地上のパノラマ画像 7 CVPR2018 PanoGAN [9] IEEE Transactions on Multimedia 2022

関連研究：衛星画像→地上のパノラマ画像 8 衛星画像を Conditionにした cGAN Real/Fake? cGANを使ってimage-to-image。セグメンテーション結果に沿うようなクリアな地上画像を生成。 X-Fork [10] CVPR2018

関連研究：衛星画像→地上のパノラマ画像 9 CrossMLP [8]より引用カスケード化 CVPR2018 PanoGAN [9] IEEE Transactions

関連研究：衛星画像→地上のパノラマ画像 10 PanoGAN [9]より引用識別器の結果を生成器にフィードバックしてループ CVPR2018 PanoGAN [9] IEEE Transactions

関連研究：衛星画像→地上のパノラマ画像 11 Sat2Ground [11] より引用 1. 衛星画像地上画像で形状＆セマンティクスが一貫するように幾何変換 2. セグメンテーションマップ→地上RGB画像変換

関連研究：衛星画像→地上のパノラマ画像 12 Sat2Vid [12]より引用軌跡から見える点をサンプリングビデオ化することで空間的・時間的な整合が取れる CVPR2018 PanoGAN [9] IEEE

関連研究：衛星画像→地上のパノラマ画像 13 CVPR2018 PanoGAN [9] IEEE Transactions on Multimedia 2022

関連研究：衛星画像→地上のパノラマ画像 14 CVPR2018 PanoGAN [9] IEEE Transactions on Multimedia 2022

提案手法：処理フロー 15 ステレオマッチング RPC投影視点変換建物の領域をはっきりさせる ControlNet LoRA

ステレオマッチングによる3次元復元（詳細不明） 16 ココ Whickbroom Pushbroom 今回はこっち衛星画像はステレオで撮影されてるただし、撮影方式がピンホールカメラと異なる → エピポーラ幾何が直接使えない

Texture-friendly geometry refinement 17 ココ Refinement 3D復元しただけだと、建物の表面がデコボコしてしまう → 建物かどうかをセグメンテーションして、建物以外を刈り取る今日の会場

RPC（Rational Polynomial Coefficients）投影 18 (𝑥, 𝑦) 緯度, 経度, 高度 =

生成ステージ 19 ココ ControlNet LoRA Stable Diffusion v1.5をファインチューニングして地上パノラマ画像を生成テキスト条件（Geospecific Prior）

実験：データセット 20 WorldView-3 • Panchromatic：高解像度の白黒 • Multispectral ：可視光 • SWIR

結果：他手法との比較 21 Building Ground Sky CannyエッジとのIoU 類似度を測る基盤モデル [16] Sat2Ground

結果：Ablation Study 22 Satellite Texture プロンプト (High resolution street view…)

結果：Ablation Study 23 既存手法のConditionに、Satellite Textureを利用した場合 → セグメンテーションよりもSatellite Textureの方が有効 CrossMLP [8]より引用

Limitations 24 視点が変わったときの一貫性が保証できないテクスチャが変化

参考文献 26 [1] 松岡真如, “第 19 回 Rational Polynomial Coefficients