Slide 1

Slide 1 text

SatAI.challenge 勉強会 Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views 篠原崇之 1 第1回 SatAI.challenge勉強会 この資料に出てくる図は引用を明記しない場合は Xu et al. (2024), “Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views”, ECCV 2024. より引用

Slide 2

Slide 2 text

目次 
 2 ● 自己紹介スライド
 ● 研究の1ページサマリ紹介 
 ● 研究の背景(Introduction) 
 ● 手法について(Method) 
 ● 実験(Experimet)
 ● まとめ(Conclusion) 
 ● 個人的な謎


Slide 3

Slide 3 text

3 発表者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

自己紹介 
 4 研究テーマ :データ基盤、点群深層学習、人間中心 AI、3次元モデリング、サロゲートモデル 4 X(旧 Twitter) LinkedIn 産総研 - デジタルツイン構築と利活用 - 物理シミュレーションの近似を行うAI - (産総研のサッカー部) 篠原 崇之

Slide 5

Slide 5 text

5 手法の概要 This image was generated by ChatGPT

Slide 6

Slide 6 text

Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views 
 6 ● 光学衛星画像から地上のパノラマ写真を作成する際に、現実の建物からなるべく見た目を乖離させない手 法を提案
 ● 衛星画像に映る建物の側面のテクスチャ情報 を有効活用することで、拡散モデルによる
 パノラマ写真作成の出力をある程度制御する
 


Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

● 地球を広域かつ定期的に観測できる衛星画像から地上パノラマ写真を推定できると、フォトリアルなゲームや都 市スケールの仮想空間作成が容易になる 
 ● 衛星画像から地上のパノラマを作成は、撮影角度の差と解像度の差により困難なタスクになる 
 ○ 撮影角度の差: 建物の上部から撮影した衛星画像からの変換が難しい 
 ○ 解像度の差: 商用衛星画像でも30 cmであるが、地上パノラマ写真は3 cm(10倍の差)であり、 
 さらに衛星画像は大気などによるノイズが大きい 
 背景: 光学衛星画像からの地上のパノラマ写真作成 
 8 衛星画像 地上のパノラマ写真 Li et al. (2024), “CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis”, arxiv 2024. より引用 地上目線の画像を作成

Slide 9

Slide 9 text

● 条件付き生成モデル 
 ○ ナイーブなブラックボックス手法 
 ■ 航空写真から地上写真と地上のセグメンテーションを同時に実行[Regmi and Borji, 2018] 
 ■ 衛星画像から推定したセマンティックな情報を組み合わせて、 
 地上のパノラマ写真を作成[Ren+,2021] 
 背景: 衛星画像を利用した地上パノラマ画像作成の関連研究 
 9 Ren et al. (2021), “Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation”, BMVC 2021. より引用 Krishna Regmi and Ali Borji (2018), “Cross-View Image Synthesis using Conditional GANs”, CVPR 2018. より引用

Slide 10

Slide 10 text

● ブラックボックスと幾何情報に忠実な手法の中間 
 ○ 衛星画像と高さ画像から点群を作る 
 ■ 衛星画像とDSM(高さ情報)を拡散モデルに入力し色付き点群を作成して、 
 別の拡散モデルで作成した背景と組み合わせて学習可能なレンダリングによって 
 地上画像を作成する[Li+, 2024] 
 背景: 衛星画像を利用した地上パノラマ画像作成の関連研究 
 10 Li et al. (2024), “Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion”, CVPR 2024. より引用

Slide 11

Slide 11 text

● 幾何情報に忠実な手法 
 ○ 衛星画像を正射投影 
 ■ 衛星画像から道路領域と高さを推定して3次元空間へ紐づけてからGANへ入力する 
 地上パノラマ写真と衛星画像を正射投影して損失関数を直接計算する[Lu+,2020] 
 背景: 衛星画像を利用した地上パノラマ画像作成の関連研究 
 11 Lu et al. (2020), “Geometry-Aware Satellite-to-Ground Image Synthesis for Urban Areas”, CVPR 2020. より引用

Slide 12

Slide 12 text

● 問題点
 ○ ナイーブなブラックボックス手法 
 ■ 画像としてはきれいな見た目だが、現実とかけ離れた画像が作成される 
 ○ 幾何情報に忠実な手法 
 ■ 正射投影では建物のファサード(道路に面した部分)情報が失われるので、 
 幾何情報に忠実ではあるが、建物のテクスチャが現実とかけ離れた画像になる 
 ● 衛星画像の特性
 ○ 建物の側面は衛星画像に写る場合が多い 
 背景: 先行研究の問題点と衛星画像の特性 
 12 衛星画像に映った建物のファサードを入れた地上のパノラマ画像を作成する必要がある 
 直下の画像 屋根のみ 角度がある場合の画像 ファサードも見える Challenges with SpaceNet 4 off-nadir satellite imagery: Look angle and target azimuth angle | by Nick Weir | The DownLinQ | Medium から図を引用

Slide 13

Slide 13 text

13 手法 This image was generated by ChatGPT

Slide 14

Slide 14 text

● 衛星画像から地上のパノラマ画像を作成するために、以下の4つの手法で構成 
 ○ Top-down View Stage: 衛星画像から3次元空間への射影 
 ○ Projection Stage: 建物形状を補正して3次元空間からへ地上へのテクスチャ貼り付け 
 ○ Ground View Stage: 衛星画像のテクスチャから高周波成分を抽出 
 ○ Texture-guided Generation Stage: 条件付き拡散モデルで地上パノラマ画像を作成 
 手法: 全体フロー 
 14

Slide 15

Slide 15 text

1. 衛星画像からステレオマッチング手法で高さ画像を作成 
 2. 高さ画像を利用して衛星画像のテクスチャを3次元空間へ張り付ける 
 a. 衛星画像に内在するノイズによって建物のファサード周辺に投影されたテクスチャが歪むので 
 建物形状の補正を行いテクスチャを張り付ける 
 3. テクスチャが張り付いた3次元空間を地上パノラマと同じ目線に投影する 
 手法: Top-down View StageとProjection Stage 
 15

Slide 16

Slide 16 text

1. 衛星画像からステレオマッチング手法で高さ画像を作成 
 2. 高さ画像を利用して衛星画像のテクスチャを3次元空間へ張り付ける 
 a. 衛星画像に内在するノイズによって建物のファサード周辺に投影されたテクスチャが歪むので 
 建物形状の補正を行いテクスチャを張り付ける 
 3. テクスチャが張り付いた3次元空間を地上パノラマと同じ目線に投影する 
 手法: Top-down View StageとProjection Stage 
 16

Slide 17

Slide 17 text

● 建物形状の補正
 ○ 衛星画像から作成した3次元の高さ情報にはノイズが含まれるので、道路や建物の壁面が 
 ガタガタになる
 ○ 建物の壁や道路を平坦にするために、建物輪郭の抽出を行い、建物形状の補正を行う 
 i. 衛星画像のセグメンテーションによる建物マスクを作成し、輪郭をポリゴンを獲得 
 ii. ポリゴン情報を使って、高さ情報を建物の壁面部分を垂直に、 
 非建物領域は道路とみなして水平にする 
 手法: Top-down View StageとProjection Stage 
 17

Slide 18

Slide 18 text

● 建物形状の補正
 ○ ガタガタしている3次元の高さ情報(DSM)に無理やりテクスチャを張り付けると、水平が崩れたりするが、 高さ情報の補正によってテクスチャの張り付け結果が改善する 
 手法: Top-down View StageとProjection Stage 
 18 補正前 補正後

Slide 19

Slide 19 text

● 地上パノラマ画像作成に必要な条件を作成 
 ○ 地上のテクスチャ画像: 衛星画像のテクスチャの張り付いた3次元空間から 
 地上から見た視線のテクスチャ画像に投影 
 ○ さらにパノラマ画像画像作成の質向上のため、セマンティック情報とエッジ情報を抽出する 
 ■ セマンティック情報: 建物領域の補正を行った際に抽出した建物・道路領域を地上に投影し、それ以 外を空の領域とする 
 ■ エッジ情報: 窓や建物の輪郭の高周波成分を抽出(エッジ用の別のU-Netで) 
 手法: Ground-view Stage 
 19 地上のテクスチャ画像 セマンティック情報 エッジ情報

Slide 20

Slide 20 text

● 拡散モデルベースの画像生成 
 ○ SD1.5をベースジェネレータとして、2次元ノイズから地上パノラマ画像を作成 
 ○ 工夫として、
 ■ テキストプロンプトとして国や地域情報をエンコードして拡散モデルへ入力 
 ■ テクスチャとエッジをエンコードして拡散モデルへ入力 
 手法: Texture-guided Generation Stage 
 20

Slide 21

Slide 21 text

● テキストプロンプトによる地理的な事前分布の利用 
 ○ 同じ建物のレイアウトたっだとしても、国・地域によって建物のデザインや植生が変わるはず 
 ■ これらは衛星画像の解像度では撮影できないので、プロンプトとして与える 
 High resolution street view in {国名, 地域名, 大陸名} 
 ■ 訓練済みの拡散モデルのクロスアテンションモジュール内部に埋め込む 
 (画像生成分野のLoRAと同じやりかたで低ランクの行列だけ学習させる) 
 手法: Texture-guided Generation Stage 
 21

Slide 22

Slide 22 text

● テクスチャとエッジの利用 
 ○ 衛星画像のテクスチャとエッジ画像をエンコードするためにVQ-GANで整数のトークンに量子化 
 ○ VQ-GANを使って、テクスチャ画像とエッジ情報の特徴ベクトルを抽出 
 ○ 特徴ベクトルをstable diffusion1.5にいれる 
 手法: Texture-guided Generation Stage 
 22

Slide 23

Slide 23 text

23 実験 This image was generated by ChatGPT

Slide 24

Slide 24 text

● 衛星画像データセット 
 ○ DataFusionContest(DFC) 2019という衛星画像のデータセットと、GoogleストリートビューからDFC2019に対 応する地上画像を収集 
 ■ DFC2019ではマルチビューの衛星画像とDSM(高さ)がある 
 ○ OpenStreetMapのBuilding Footprintデータでセマンティック情報の真値作成 
 ○ 7,000組以上のデータを作成 
 ● パノラマ画像と言語ペア 
 ○ ロンドン・香港・ジャクソンビル(米)・パリ・ドバイで各500枚づつ 
 実験: 実験の設定 
 24

Slide 25

Slide 25 text

● 低レベル
 ○ PSNR, SSIM
 ● エッジレベル
 ○ Canny検出器した結果の平均IoU 
 ● セマンティックレベル 
 ○ 学習済みセグメンテーションモデルによる評価(建物・地面・空の平均IoU) 
 ○ ADE20Kデータセットで学習されたOneFormer 
 ● 知覚レベル
 ○ FID,LPIPS, DreamSIM 
 実験: 地上パノラマ画像を作成結果の定量評価 
 25

Slide 26

Slide 26 text

● ベースラインではアーキファクトが多くなるが提案手法では質が高い 
 実験: 地上パノラマ画像を作成結果の定性評価 
 26

Slide 27

Slide 27 text

● ベースラインではアーキファクトが多くなるが提案手法では質が高い 
 実験: 地上パノラマ画像を作成結果の定性評価 
 27

Slide 28

Slide 28 text

● 国・地域・大陸のプロンプトによる事前情報の有無(表のw/o prior) 
 ○ どの指標でも効果あり 
 ● 衛星画像のテクスチャによる条件の有無(表のw/o RGB) 
 ○ どの指標でも効果あり 
 実験: 地上パノラマ画像を作成結果のAblation Study 
 28

Slide 29

Slide 29 text

● 衛星画像のテクスチャによる条件の有無(図のOurs w/o RGB) 
 ○ 建物のファサードの再現性が高くなる 
 ○ 建物の空間的な配置の再現性が高くなる 
 実験: 地上パノラマ画像を作成結果のAblation Study 
 29

Slide 30

Slide 30 text

● ベースラインの改善の可能性 
 ○ CrossMLPとPanoGANは画像生成モデルにセマンティック情報を入れているので、 
 提案手法で行った衛星画像のテクスチャ情報も容易に入れられる 
 ○ CrossMLPとPanoGANにテクスチャ情報も入力するように拡張すると、 
 どちらも性能向上した 
 実験: 地上パノラマ画像を作成結果のAblation Study 
 30

Slide 31

Slide 31 text

● 視点ごとの一貫性が無い 
 ○ 同じ建物でも、視点を動かして衛星画像から地上のパノラマ画像を作成すると、 
 違う色や階数の構成が変わってしまう 
 ○ 拡散モデルが孕んでいるランダム性の問題なので、将来的には一貫性を保てるような 
 手法が必要になる
 
 実験: 限界点 
 31

Slide 32

Slide 32 text

32 結論 This image was generated by ChatGPT

Slide 33

Slide 33 text

● 衛星画像から地上のパノラマ画像を作成タスクに対して、衛星画像のテクスチャ情報と撮影場所の情報をテキ ストプロンプトで与える手法を提案 
 ● 測量的なアプローチで3次元的な建物テクスチャの張り付いた地上画像の初期条件を作り、VQGANで建物情報 をベクトルにして拡散モデルへ入力、さらに撮影場所のテキストプロンプトをLoRAで拡散モデルの内部に取り入 れる
 ○ 最近のCVっぽい部分はLoRAとVQVAEとプロンプト 
 ○ 古典的な衛星画像のカメラ幾何・測量的なアルゴリズムとの組み合わせ 
 ● 提案手法を用いると、衛星画像のテクスチャで条件付けされているので、建物の再現性が高くなる 
 ● 視点が変わると建物のテクスチャや階数が変わってしまうので、将来的には視点間の一貫性を保つ手法が必要 になる
 まとめ 
 33

Slide 34

Slide 34 text

34 個人的な謎 This image was generated by ChatGPT

Slide 35

Slide 35 text

● 本文中では、提案手法セクションで建物抽出にUnetを使うと言っていたり、実験セクションでSegFormerを使うと 言っていたり、読んでいて分からない部分が多い 
 ● SD1.5のどこにテクスチャ画像とエッジ画像の特徴ベクトルを入れるのかなどの具体的な層設計の情報が無く て、再現ができない
 ● 都市域以外に適用できない気がする(イントロダクションで当たり判定を特に狭めてないが、需要があるのは都 市だからいいのかもしれない 
 
 
 謎 
 35

Slide 36

Slide 36 text

36 以下補足資料 This image was generated by ChatGPT

Slide 37

Slide 37 text

● 低レベル
 ○ PSNR, SSIM
 ● エッジレベル
 ○ Canny検出器した結果の平均IoU 
 
 実験: 地上パノラマ画像を作成結果の定量評価 
 37 見た目の質を重視する拡散モデルによる画像生成だと画素レベルの評価では不利 
 だがエッジレベルの評価では向上 


Slide 38

Slide 38 text

● セマンティックレベル 
 ○ 学習済みセグメンテーションモデルによる評価(建物(I_B)・地面(I_G)・空(I_S)の平均IoU) 
 ○ ADE20Kデータセットで学習されたOneFormer 
 実験: 地上パノラマ画像を作成結果の定量評価 
 38 建物・地面・空でベースラインよりも性能向上 


Slide 39

Slide 39 text

● 知覚レベル
 ○ FID,LPIPS, DreamSIM 
 実験: 地上パノラマ画像を作成結果の定量評価 
 39 建物・地面・空でベースラインよりも性能向上