EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry

by SatAI.challenge

Slide 1

Slide 1 text

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry [CVPR2025]  河内大輝  1 第12回 SatAI.challenge勉強会 

Slide 2

Slide 2 text

目次   2 ● 自己紹介スライド  ● 研究の1ページサマリ紹介   ● 研究の背景（Introduction）   ● 提案手法について（Method）   ● 実験結果（Experimet）   ● 結論（Conclusion） 

Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

河内大輝所属：株式会社DeNA 業務：Computer VisionなどAI技術を使った野球チーム強化 - 衛星画像対象AIモデルと説明可能性の研究など - https://www.mdpi.com/2072-4292/14/9/1970 - GIS x AI Agentアプリの開発(PLATEAUハッカソンから事業化) 好きな分野：Computer Vision（特にdeep以外）とGeospatialな領域自己紹介 X: https://x.com/kwchrk_ LinkedIn: linkedin.com/in/hiroki-kawauchi 4

Slide 5

Slide 5 text

5 論文サマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry   6 ● 非同時撮影の複数衛星画像を用いたDSM（地表面高さのモデル）作成では、新規視点合成（NVS）   手法のNeRFなどが用いられてきたが計算量の多さがネックであった（GPUで~1日程度）   ● NVSの新手法である3D Gaussian Splatting（3DGS）は大幅な計算量削減が可能。   ● 3DGSによってDSMを作成するため、Gaussianの位置を元に地表面位置を推定する枠組みを構築し、①効率的な座標変換②シャドウマッピング③正則化によって、NeRF並に高精度で速度300倍を実現。   衛星画像によるDSM（地表面）作成に、初めて3D Gaussian Splattingを適用   Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 7

Slide 7 text

7 Introduction: 背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

● 実サービスだとAW3Dなど   ○ SGMなどのMulti-View Stereoによる古典的手法が用いられることが多い   ● 多衛星時代には撮像時期が異なる複数画像を用いたDSM作成の可能性   ○ NVS（新規視点合成）手法を用いたDSM作成が模索され、NeRFによるもの研究されてきた   ○ 一方でNeRFは計算量が大きい（GPUで学習~1日程度）   衛星画像を用いたDSM   8 DTC DATA, “NTTデータの「AW3D」が果たすSDGs推進の役割（https://dtcdata.net/article/332/）” より引用

Slide 9

Slide 9 text

● 新規視点合成：3Dシーン合成により、撮影していない新しい視点からの画像を合成するタスク   ● 見た目だけで、必ずしも3次元形状の推定は伴わず   新規視点合成（Novel View Synthesis）   9 Yeshwanth et al. (2023), “ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes”, ICCV. より引用

Slide 10

Slide 10 text

● NeRF（Neural Radiance Fields）   ○ NNを用いた新規視点合成手法   ○ 新規視点合成での品質の高さと手法のシンプルさでブレークスルー   ● NeRFの課題  ○ 計算量大（V100で学習に1-2日、推論1枚30秒など*）   最近の新規視点合成手法：NeRF[Mildenhall+2020]   10 Mildenhall et al. (2020), “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, ECCV. より引用

Slide 11

Slide 11 text

● 3DGS（3D Gaussian Splatting）   ○ NNを用いない新規視点合成手法   ○ NeRFレベルの品質の高さと計算量の少なさの両立でブレークスルー   ● ざっくりいえば、3次元シーンを色のついた3次元のガウス分布（ガウシアンプリミティブ）の集合として表現する手法  最近の新規視点合成手法：3DGS[Kerbl+2023]   11 Niantic Scaniverse., “Gaussian splat training timelapse（https://www.youtube.com/watch?v=KxWqrp6jbjM）より引用

Slide 12

Slide 12 text

● 3DGS（3D Gaussian Splatting）   ○ 各ガウシアンは、中心位置μ・向きとスケール∑・不透明度α・球面調和関数係数f   を学習可能なパラメータとして持つ   ○ 不透明度の減衰を、中心位置からのガウス関数で表現   ○ 各ガウシアンの色は、球面調和関数を用いて視線方向での変化を表現   ● ガウシアンの色同士は、以下のアルファブレンディングによって合成してレンダリング   ○ I_A: カメラAから見たときの画像I   ○ u: ピクセル  ○ ω: 重み  ○ g_k: k番目のガウシアンカーネル   3DGS：手法概要   12 Ebert., “Introduction to 3D Gaussian Splatting（https://huggingface.co/blog/gaussian-splatting）より引用

Slide 13

Slide 13 text

● 3DGSの学習フロー  1. SfMで推定した点群を初期値に   2. 3Dガウシアンをカメラ座標系に投影   3. レンダリングした画像とGTで損失計算   4. 損失を元に誤差逆伝搬   ● 3DGSの推論  ○ 入力：任意のカメラ視点位置   ○ 出力：その視点からみた見た目（画像）   3DGS：手法概要   13 Chen et al. (2024), “A survey on 3d gaussian splatting (https://arxiv.org/pdf/2401.03890)”, CoRR. より引用 Kern; et al. (2023), “3D Gaussian Splatting for Real-Time Radiance Field Rendering（https://arxiv.org/abs/2308.04079）”, SIGGRAPH. より引用

Slide 14

Slide 14 text

14 提案手法 This image was generated by ChatGPT

Slide 15

Slide 15 text

● まず、提案手法において最終的にDSMをどのように推論するかを確認する                 ● 各ガウシアンの中心位置μ=(x,y,z)を元に(x,y)におけるz=を推定   ● 3DGSと同様に、各ガウシアンの重みωをかけて足し合わせる（アルファブレンディング）   ● つまり、描画時に重みが大きいガウシアンの中心=物体表面がある可能性が高い、とみなす     ● この後、学習における工夫を見ていく   ○ あくまで学習時は標高のGTは使えないので、色に関する損失関数から位置と重みを学習する   ■ GTの衛星画像と、そのカメラ角度でレンダリングされた画像Iから損失計算   Method: DSMの推論   15 3DGSでの画像Iのレンダリング   EOGSでの標高Eのレンダリング   Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 16

Slide 16 text

● 3DGSの世界座標を、2D NDC座標（正規化画像座標）に愚直に変換するのは計算コスト高   ○ 3DGS座標→UTM→経度緯度高度→RPC（衛星メタデータより）→2DNDC座標   ○ 毎回レンダリングする時の計算コスト高   ● 直接変換を、事前にアフィン変換（回転・拡大縮小・平行移動）で近似する   ○ アフィン変換の対応関係は、各衛星画像ごとに事前に推定（ソースコードより）   ○ 誤差は平均で約0.012ピクセルと非常に小さく、実用上問題ない   Method: 学習上の工夫①座標変換の効率化   16 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 17

Slide 17 text

● 衛星メタデータから太陽の位置は既知であるため、影を明示的に扱う   ● CG分野におけるシャドウマッピング、という手法を利用   EOGSにおけるシャドウマッピング   ● Step1: 2つの視点（カメラ）を用意   ○ 太陽カメラSと衛星カメラA   ● Step2: それぞれの視点から標高をレンダリング             ○ 衛星視点の標高　　　　  ■ 右図のピクセルuではビルの壁面xの高さ     ○ 太陽視点の標高  ■ 右図のピクセルu~で、xの方向を見たとき   手前にあるビルの屋上yの高さ       17 Method: 学習上の工夫②影情報の利用   Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 18

Slide 18 text

EOGSにおけるシャドウマッピング   ● Step3: 視点ごとの高さを比較   ○ 推定した標高を元に衛星視点のピクセルuに   対応する太陽視点のピクセルu~を対応付け、   高さを比較      ● Step4: 影判定  ○ Δh>0のとき、xはyの影の中に存在する   ● Step5: 色へ反映  ○ 高さの差 Δh を使って、影の濃さを表す   減光係数 s を以下の式で計算し、   レンダリングされる色に適用         ○ これは密度ρの媒介物質で物理的に正しい   ○ 環境光も踏まえて完全な黒にならないように調整   （ここでは詳細省略）     18 Method: 学習上の工夫②影情報の利用   Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 19

Slide 19 text

● 3種類の正則化項を追加   ● [1]スパース性の促進   ○ 目的：今回は機微な色味よりジオメトリに関心。透明に近いガウシアンを削減し、学習を高速化   ○ 手法：↓に加えて、閾値よりαが小さい場合は破棄         ● [2]ビュー間の一貫性の促進   ○ 目的：視点数が少なくても、頑健で自己矛盾のない3Dモデルを構築   ○ 手法：実際の視点Aと、少しずらした仮想視点B間で色及び高度は不変、という制約   ■ Lccが色の一貫性、Lacが高度の一貫性   Method: 学習上の工夫③正則化   19 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 20

Slide 20 text

● 3種類の正則化項を追加   ● [3]不透明性の促進  ○ 目的：建物などが、不自然な半透明な影を落とすことを防ぐ   ■ 実際には暗い色がついているところを、影によって表現してしまうのを防ぎたい   ■ 影の濃さsが0か1の中間的な値をなるのを防ぎたい   ○ 手法：sについてエントロピーに基づいたペナルティを課す   ■ H(x)はバイナリクロスエントロピー関数         Method: 学習上の工夫③正則化   20 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 21

Slide 21 text

21 実験結果 This image was generated by ChatGPT

Slide 22

Slide 22 text

● データセット  ○ IEEE GRSS Data Fusion Contest (DFC2019)   ○ 2016 IARPA Multi-View Stereo 3D Mapping Challenge (IARPA2016)   ○ 合計7つの対象地域（AOI）   ○ 各画像は約256x256平方メートルの地形をピクセルあたり30〜50cmの解像度でカバー   ○ 各AOIは10〜20枚のクロップ画像によって撮像   ○ クロップされたオルソ補正されていない複数日付のWorldView-3観測データと、3D衛星姿勢   （RPC係数でエンコード）や局所的な太陽方向などのメタデータを含む   ● 計算環境  ○ 書かれていないがPeak Memory Usage=10GBらしい（suppl.に記載）   ● DSMの精度評価（MAE）   ○ 推論：真上視点から推定した高度   ○ GT：lidar scan  実験設定   22 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 23

Slide 23 text

● アルベドマップ（影や色補正をしていないマップ）   ○ EOGSでは、ノイズも見られるが、エッジ自体はくっきり出ている   ○ EO-NeRFでは、ノイズ少ないが不要な凹凸が出ていそう   定性結果   23 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 24

Slide 24 text

● 精度的には既存のEO-NeRFに少し劣るが、学習時間が300x   ● 葉のない領域に絞ると、EO-NeRFと同等   定量結果   24 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 25

Slide 25 text

● シャドウマッピングが最も重要   ○ 次に、ビューの一貫性、影の不透明性、スパース性正則化の順   ● スパース性の正則化も学習時間の圧縮に寄与（4.27→2.85）     ● 右図より、EOGSは少数の画像でしか観測されていない領域で苦戦   Ablation Study   25 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用

Slide 26

Slide 26 text

26 結論 This image was generated by ChatGPT

Slide 27

Slide 27 text

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry   27 ● 非同時期撮影の複数衛星画像を用いたDSM（地表面高さのモデル）作成では、新規視点合成（NVS）手法の NeRFなどが用いられてきたが計算量の多さがネックであった（GPUで学習~1日程度）   ● NVSの新手法である3D Gaussian Splatting（3DGS）は大幅な計算量削減が可能。   ● 3DGSによってDSMを作成するため、Gaussianの位置を元に地表面位置を推定する枠組みを構築し、①効率的な座標変換②影情報の利用③正則化によって、NeRF並に高精度で速度300倍を実現。   衛星画像によるDSM（地表面）作成に、初めて3D Gaussian Splattingを適用   Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry（https://arxiv.org/html/2412.13047v1）”, CVPR. より引用