Slide 1

Slide 1 text

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry [CVPR2025]
 河内 大輝
 1 第12回 SatAI.challenge勉強会


Slide 2

Slide 2 text

目次 
 2 ● 自己紹介スライド
 ● 研究の1ページサマリ紹介 
 ● 研究の背景(Introduction) 
 ● 提案手法について(Method) 
 ● 実験結果(Experimet) 
 ● 結論(Conclusion)


Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

河内 大輝 所属:株式会社DeNA 業務:Computer VisionなどAI技術を使った野球チーム強化 - 衛星画像対象AIモデルと説明可能性の研究など - https://www.mdpi.com/2072-4292/14/9/1970 - GIS x AI Agentアプリの開発(PLATEAUハッカソンから事業化) 好きな分野 :Computer Vision(特にdeep以外)とGeospatialな領域 自己紹介 X: https://x.com/kwchrk_ LinkedIn: linkedin.com/in/hiroki-kawauchi 4

Slide 5

Slide 5 text

5 論文サマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry 
 6 ● 非同時撮影の複数衛星画像を用いたDSM(地表面高さのモデル)作成では、新規視点合成(NVS) 
 手法のNeRFなどが用いられてきたが計算量の多さがネックであった(GPUで~1日程度) 
 ● NVSの新手法である3D Gaussian Splatting(3DGS)は大幅な計算量削減が可能。 
 ● 3DGSによってDSMを作成するため、Gaussianの位置を元に地表面位置を推定する枠組みを構築し、①効率 的な座標変換②シャドウマッピング③正則化によって、NeRF並に高精度で速度300倍を実現。 
 衛星画像によるDSM(地表面)作成に、初めて3D Gaussian Splattingを適用 
 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 7

Slide 7 text

7 Introduction: 背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

● 実サービスだとAW3Dなど 
 ○ SGMなどのMulti-View Stereoによる古典的手法が用いられることが多い 
 ● 多衛星時代には撮像時期が異なる複数画像を用いたDSM作成の可能性 
 ○ NVS(新規視点合成)手法を用いたDSM作成が模索され、NeRFによるもの研究されてきた 
 ○ 一方でNeRFは計算量が大きい(GPUで学習~1日程度) 
 衛星画像を用いたDSM 
 8 DTC DATA, “NTTデータの「AW3D」が果たすSDGs推進の役割 (https://dtcdata.net/article/332/)” より引用

Slide 9

Slide 9 text

● 新規視点合成:3Dシーン合成により、撮影していない新しい視点からの画像を合成するタスク 
 ● 見た目だけで、必ずしも3次元形状の推定は伴わず 
 新規視点合成(Novel View Synthesis) 
 9 Yeshwanth et al. (2023), “ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes”, ICCV. より引用

Slide 10

Slide 10 text

● NeRF(Neural Radiance Fields) 
 ○ NNを用いた新規視点合成手法 
 ○ 新規視点合成での品質の高さと手法のシンプルさでブレークスルー 
 ● NeRFの課題
 ○ 計算量大(V100で学習に1-2日、推論1枚30秒など*) 
 最近の新規視点合成手法:NeRF[Mildenhall+2020] 
 10 Mildenhall et al. (2020), “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, ECCV. より引用

Slide 11

Slide 11 text

● 3DGS(3D Gaussian Splatting) 
 ○ NNを用いない新規視点合成手法 
 ○ NeRFレベルの品質の高さと計算量の少なさの両立でブレークスルー 
 ● ざっくりいえば、3次元シーンを色のついた3次元のガウス分布(ガウシアンプリミティブ)の集合として表現する手 法
 最近の新規視点合成手法:3DGS[Kerbl+2023] 
 11 Niantic Scaniverse., “Gaussian splat training timelapse(https://www.youtube.com/watch?v=KxWqrp6jbjM) より引用

Slide 12

Slide 12 text

● 3DGS(3D Gaussian Splatting) 
 ○ 各ガウシアンは、中心位置μ・向きとスケール∑・不透明度α・球面調和関数係数f 
 を学習可能なパラメータとして持つ 
 ○ 不透明度の減衰を、中心位置からのガウス関数で表現 
 ○ 各ガウシアンの色は、球面調和関数を用いて視線方向での変化を表現 
 ● ガウシアンの色同士は、以下のアルファブレンディングによって合成してレンダリング 
 ○ I_A: カメラAから見たときの画像I 
 ○ u: ピクセル
 ○ ω: 重み
 ○ g_k: k番目のガウシアンカーネル 
 3DGS:手法概要 
 12 Ebert., “Introduction to 3D Gaussian Splatting(https://huggingface.co/blog/gaussian-splatting) より引用

Slide 13

Slide 13 text

● 3DGSの学習フロー
 1. SfMで推定した点群を初期値に 
 2. 3Dガウシアンをカメラ座標系に投影 
 3. レンダリングした画像とGTで損失計算 
 4. 損失を元に誤差逆伝搬 
 ● 3DGSの推論
 ○ 入力:任意のカメラ視点位置 
 ○ 出力:その視点からみた見た目(画像) 
 3DGS:手法概要 
 13 Chen et al. (2024), “A survey on 3d gaussian splatting (https://arxiv.org/pdf/2401.03890)”, CoRR. より引用 Kern; et al. (2023), “3D Gaussian Splatting for Real-Time Radiance Field Rendering(https://arxiv.org/abs/2308.04079)”, SIGGRAPH. より引用

Slide 14

Slide 14 text

14 提案手法 This image was generated by ChatGPT

Slide 15

Slide 15 text

● まず、提案手法において最終的にDSMをどのように推論するかを確認する 
 
 
 
 
 
 
 
 ● 各ガウシアンの中心位置μ=(x,y,z)を元に(x,y)におけるz=を推定 
 ● 3DGSと同様に、各ガウシアンの重みωをかけて足し合わせる(アルファブレンディング) 
 ● つまり、描画時に重みが大きいガウシアンの中心=物体表面がある可能性が高い、とみなす 
 
 ● この後、学習における工夫を見ていく 
 ○ あくまで学習時は標高のGTは使えないので、色に関する損失関数から位置と重みを学習する 
 ■ GTの衛星画像と、そのカメラ角度でレンダリングされた画像Iから損失計算 
 Method: DSMの推論 
 15 3DGSでの画像Iのレンダリング 
 EOGSでの標高Eのレンダリング 
 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 16

Slide 16 text

● 3DGSの世界座標を、2D NDC座標(正規化画像座標)に愚直に変換するのは計算コスト高 
 ○ 3DGS座標→UTM→経度緯度高度→RPC(衛星メタデータより)→2DNDC座標 
 ○ 毎回レンダリングする時の計算コスト高 
 ● 直接変換を、事前にアフィン変換(回転・拡大縮小・平行移動)で近似する 
 ○ アフィン変換の対応関係は、各衛星画像ごとに事前に推定(ソースコードより) 
 ○ 誤差は平均で約0.012ピクセルと非常に小さく、実用上問題ない 
 Method: 学習上の工夫①座標変換の効率化 
 16 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 17

Slide 17 text

● 衛星メタデータから太陽の位置は既知であるため、影を明示的に扱う 
 ● CG分野におけるシャドウマッピング、という手法を利用 
 EOGSにおけるシャドウマッピング 
 ● Step1: 2つの視点(カメラ)を用意 
 ○ 太陽カメラSと衛星カメラA 
 ● Step2: それぞれの視点から標高をレンダリング 
 
 
 
 
 
 ○ 衛星視点の標高    
 ■ 右図のピクセルuではビルの壁面xの高さ 
 
 ○ 太陽視点の標高
 ■ 右図のピクセルu~で、xの方向を見たとき 
 手前にあるビルの屋上yの高さ 
 
 
 17 Method: 学習上の工夫②影情報の利用 
 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 18

Slide 18 text

EOGSにおけるシャドウマッピング 
 ● Step3: 視点ごとの高さを比較 
 ○ 推定した標高を元に衛星視点のピクセルuに 
 対応する太陽視点のピクセルu~を対応付け、 
 高さを比較
 
 
 ● Step4: 影判定
 ○ Δh>0のとき、xはyの影の中に存在する 
 ● Step5: 色へ反映
 ○ 高さの差 Δh を使って、影の濃さを表す 
 減光係数 s を以下の式で計算し、 
 レンダリングされる色に適用 
 
 
 
 ○ これは密度ρの媒介物質で物理的に正しい 
 ○ 環境光も踏まえて完全な黒にならないように調整 
 (ここでは詳細省略) 
 
 18 Method: 学習上の工夫②影情報の利用 
 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 19

Slide 19 text

● 3種類の正則化項を追加 
 ● [1]スパース性の促進 
 ○ 目的:今回は機微な色味よりジオメトリに関心。透明に近いガウシアンを削減し、学習を高速化 
 ○ 手法:↓に加えて、閾値よりαが小さい場合は破棄 
 
 
 
 ● [2]ビュー間の一貫性の促進 
 ○ 目的:視点数が少なくても、頑健で自己矛盾のない3Dモデルを構築 
 ○ 手法:実際の視点Aと、少しずらした仮想視点B間で色及び高度は不変、という制約 
 ■ Lccが色の一貫性、Lacが高度の一貫性 
 Method: 学習上の工夫③正則化 
 19 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 20

Slide 20 text

● 3種類の正則化項を追加 
 ● [3]不透明性の促進
 ○ 目的:建物などが、不自然な半透明な影を落とすことを防ぐ 
 ■ 実際には暗い色がついているところを、影によって表現してしまうのを防ぎたい 
 ■ 影の濃さsが0か1の中間的な値をなるのを防ぎたい 
 ○ 手法:sについてエントロピーに基づいたペナルティを課す 
 ■ H(x)はバイナリクロスエントロピー関数 
 
 
 
 Method: 学習上の工夫③正則化 
 20 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 21

Slide 21 text

21 実験結果 This image was generated by ChatGPT

Slide 22

Slide 22 text

● データセット
 ○ IEEE GRSS Data Fusion Contest (DFC2019) 
 ○ 2016 IARPA Multi-View Stereo 3D Mapping Challenge (IARPA2016) 
 ○ 合計7つの対象地域(AOI) 
 ○ 各画像は約256x256平方メートルの地形をピクセルあたり30〜50cmの解像度でカバー 
 ○ 各AOIは10〜20枚のクロップ画像によって撮像 
 ○ クロップされたオルソ補正されていない複数日付のWorldView-3観測データと、3D衛星姿勢 
 (RPC係数でエンコード)や局所的な太陽方向などのメタデータを含む 
 ● 計算環境
 ○ 書かれていないがPeak Memory Usage=10GBらしい(suppl.に記載) 
 ● DSMの精度評価(MAE) 
 ○ 推論:真上視点から推定した高度 
 ○ GT:lidar scan
 実験設定 
 22 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 23

Slide 23 text

● アルベドマップ(影や色補正をしていないマップ) 
 ○ EOGSでは、ノイズも見られるが、エッジ自体はくっきり出ている 
 ○ EO-NeRFでは、ノイズ少ないが不要な凹凸が出ていそう 
 定性結果 
 23 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 24

Slide 24 text

● 精度的には既存のEO-NeRFに少し劣るが、学習時間が300x 
 ● 葉のない領域に絞ると、EO-NeRFと同等 
 定量結果 
 24 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 25

Slide 25 text

● シャドウマッピングが最も重要 
 ○ 次に、ビューの一貫性、影の不透明性、スパース性正則化の順 
 ● スパース性の正則化も学習時間の圧縮に寄与(4.27→2.85) 
 
 ● 右図より、EOGSは少数の画像でしか観測されていない領域で苦戦 
 Ablation Study 
 25 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用

Slide 26

Slide 26 text

26 結論 This image was generated by ChatGPT

Slide 27

Slide 27 text

EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry 
 27 ● 非同時期撮影の複数衛星画像を用いたDSM(地表面高さのモデル)作成では、新規視点合成(NVS)手法の NeRFなどが用いられてきたが計算量の多さがネックであった(GPUで学習~1日程度) 
 ● NVSの新手法である3D Gaussian Splatting(3DGS)は大幅な計算量削減が可能。 
 ● 3DGSによってDSMを作成するため、Gaussianの位置を元に地表面位置を推定する枠組みを構築し、①効率 的な座標変換②影情報の利用③正則化によって、NeRF並に高精度で速度300倍を実現。 
 衛星画像によるDSM(地表面)作成に、初めて3D Gaussian Splattingを適用 
 Aira et al. (2024), “Gaussian Splatting for Efficient Satellite Image Photogrammetry(https://arxiv.org/html/2412.13047v1)”, CVPR. より引用