Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CVPR2023 EarthVision Workshopより衛星画像関連論文紹介 / Satellite Imaging Processing Papers in CVPR2023 EarthVision Workshop

CVPR2023 EarthVision Workshopより衛星画像関連論文紹介 / Satellite Imaging Processing Papers in CVPR2023 EarthVision Workshop

2023年上期のメディアAI PJの内部勉強会で発表した資料です。CVPR2023で発表された衛星画像処理に関連する論文を調査してまとめました。

NTT Communications

December 14, 2023
Tweet

More Decks by NTT Communications

Other Decks in Research

Transcript

  1. © NTT Communications Corporation All Rights Reserved. CVPR2023 EarthVision Workshopより


    衛星画像関連論文紹介
 メディアAI PJ 勉強会 
 2023年9月13日
 小林和輝

  2. © NTT Communications Corporation All Rights Reserved. 2 Agenda
 ❏

    EarthVision2023について 
 ❏ 論文紹介

  3. © NTT Communications Corporation All Rights Reserved. 3 EarthVision 2023


    • 地球観測とリモートセンシングは、ComputerVision、機械学習、信号/画像処理が融合する成長中の分野 • 航空機および宇宙搭載センサーによって収集されたデータを活用して、地表で発生するプロセスに関する大規模か つ一貫した情報を提供することが目的 扱うトピックの例 • スペクトルおよび空間領域での超解像 • ハイパースペクトルおよびマルチスペクトル画像処理 • 光学およびLiDAR 3D点群の再構成とセグメンテーション • 時空間データからの特徴抽出と学習 • UAV / 航空写真および衛星画像とビデオの分析 • 大規模地球観測に適したディープラーニング • ドメイン適応、概念ドリフト、および分布外データの検出 • ラベルなしデータを使用したモデルの評価 • マルチ解像度、マルチタイム、マルチセンサー、マルチモーダル処理 • 機械学習と物理モデルの融合 • 地球観測アプリケーションにおける説明可能かつ解釈可能な機械学習 • 気候変動、持続可能な開発目標、地球科学への応用 • 公開ベンチマーク データセット: トレーニング データ、テスト、評価メトリクス、オープンソースの研究
 https://www.grss-ieee.org/events/earthvision-2023/
  4. © NTT Communications Corporation All Rights Reserved. 4 EarthVision 2023


    • CVPRのWorkshopの一つで開催
 • Program
 ◦ 16件の発表 ◦ Keynote ◦ African Biomass Challengeの発表 ▪ GEDI, Sentinel-2などから取得したデータから日陰領域のバイオマスを予測するコンテスト ◦ 
 

  5. © NTT Communications Corporation All Rights Reserved. 5 Agenda
 ❏

    EarthVision2023について 
 ❏ 論文紹介
 ❏ UnCRtainTS: Uncertainty Quantification for Cloud Removal in Optical Satellite Time Series ❏ Masked Vision Transformer for Hyperspectral Image Classification 
 

  6. © NTT Communications Corporation All Rights Reserved. 6 UnCRtainTS: Uncertainty

    Quantification for Cloud Removal in Optical Satellite Time Series 
 ❏ 多時点の雲除去手法 “UnCRtrainTS” を提案
 ❏ 一連の時系列データから雲除去した画像を再構成 ❏ 不確実性の推定 
 
 ❏ 既存の雲除去画像の再構成では、MSEやSSIMなどで評価
 ❏ 再構成した品質の尺度を提供 ❏ 結果がどの程度信頼できるか分からない → 不確実性推定を導入
 
 ❏ 不確実性推定
 ❏ 不確実性をモデル化して学習する ❏ 再構成が不十分な画像にフラグを立てられる 
 
 ❏ SoTAを達成

  7. © NTT Communications Corporation All Rights Reserved. 7 データ
 ❏

    雲除去ベンチマークのSEN12MS-CR-TS 
 ❏ 入力:多時点の雲画像  
 ❏ H, W = 256, 256 ❏ 時点数 T = 3 ❏ Sentinel-1 2チャンネル ❏ Sentinel-2 13チャンネル ❏ ターゲット:雲除去画像  
 ❏ 13バンドのマルチスペクトル画像 ❏ 不確実性マップ 
 
 
 Patrick Ebel, et al. UnCRtainTS: Uncertainty Quantification for Cloud Removal in Optical Satellite Time Series, CVPR2023
  8. © NTT Communications Corporation All Rights Reserved. 8 Network Architecture


    
 
 
 
 
 
 
 
 
 
 
 
 
 
 Patrick Ebel, et al. UnCRtainTS: Uncertainty Quantification for Cloud Removal in Optical Satellite Time Series, CVPR2023
  9. © NTT Communications Corporation All Rights Reserved. 9 Network Architecture


    
 
 
 
 
 
 
 
 
 
 
 
 
 ❏ 通常の畳み込み
 ❏ 最初の1x1 Convでチャンネル方向に畳み込む C_in -> d_m 
 ❏ MB Conv + Squeeze Excitation 
 
 Patrick Ebel, et al. UnCRtainTS: Uncertainty Quantification for Cloud Removal in Optical Satellite Time Series, CVPR2023
  10. © NTT Communications Corporation All Rights Reserved. 10 Network Architecture


    
 
 
 
 
 
 
 
 
 
 
 
 
 ❏ L-TAE (Light Temporal Attention Encoder) で処理 
 ❏ Headに分割 → 線形変換で Key にする ❏ Queryはパラメータ ❏ Attentionマスクを取得 
 ❏ Encoderの特徴マップに適用 
 [1] Patrick Ebel, et al. UnCRtainTS: Uncertainty Quantification for Cloud Removal in Optical Satellite Time Series, CVPR2023 Vivien Sainte Fare Garnot, et al. Lightweight Temporal Self-Attention for Classifying Satellite Image Time Series, arXiv preprint arXiv:2007.00586
  11. © NTT Communications Corporation All Rights Reserved. 11 Network Architecture


    
 
 
 
 
 
 
 
 
 
 
 
 ❏ DecoderのCNN通して雲除去した画像を再構成 
 
 
 Patrick Ebel, et al. UnCRtainTS: Uncertainty Quantification for Cloud Removal in Optical Satellite Time Series, CVPR2023
  12. © NTT Communications Corporation All Rights Reserved. 12 不確実性の予測
 ❏

    データに含まれるn個のピクセルに対して 
 ❏ 通常の L2 loss
 
 
 
 
 ❏ Multivariate negative log-likelihood loss 
 ❏ パラメトリックなノイズ分布に基づく尤度関数を仮定する ❏ 負の対数尤度関数を用いて尤度を最適化する ❏ K変量正規分布 
 
 
 
 
 
 
 ❏ 負の対数尤度関数
 y_j : Ground Truthの画素値
 y^_j: 予測した画素値

  13. © NTT Communications Corporation All Rights Reserved. 13 ❏ 共分散行列の完全な計算は困難

    
 ❏ 対角共分散行列
 ❏ 共分散行列Σを対角に          の要素を持つ対角行列とする 
 ❏ 逆行列の計算が簡略化される 
 ❏ 分散を予測するために、出力チャネルを2×K=26に設定 
 ❏ Σの対角エントリは、対応する出力チャネルの不確実性予測として機能する 
 
 
 不確実性の予測

  14. © NTT Communications Corporation All Rights Reserved. 14 ❏ 評価指標


    ❏ RMSE ❏ PSNR ❏ SSIM ❏ … ❏ UCE (Uncertainty Calibration Error) e(Bp):RMSE
 
 実験

  15. © NTT Communications Corporation All Rights Reserved. 15 ❏ PSNR、SSIM、SAMでSoTA


    
 ❏ アーキテクチャが優れる
 ❏ 不確実性予測で精度向上
 
 ❏ UCE
 ❏ RMSEと相関する不確実性を 予測する ❏ 不確実性の高いものを排除すると と誤差がほぼ半分になった
 
 
 
 結果
 Patrick Ebel, et al. UnCRtainTS: Uncertainty Quantification for Cloud Removal in Optical Satellite Time Series, CVPR2023
  16. © NTT Communications Corporation All Rights Reserved. 16 Agenda
 ❏

    EarthVision2023について 
 ❏ 論文紹介
 ❏ UnCRtainTS: Uncertainty Quantification for Cloud Removal in Optical Satellite Time Series ❏ Masked Vision Transformer for Hyperspectral Image Classification 
 

  17. © NTT Communications Corporation All Rights Reserved. 17 Masked Vision

    Transformer for Hyperspectral Image Classification
 ❏ ハイパースペクトル画像に対するVision Transformerの学習を検討
 
 ❏ データセットの構築 ❏ EnMAP衛星からハイパースペクトルデータ収集 ❏ EnMAPのデータと土地被覆ラベルをマッチング 
 ❏ ハイパースペクトル画像に対するVision Transformerのアーキテクチャを検討
 ❏ positional-spectral encodingを検証 ❏ self-attentionの計算量を減らすために空間スペクトル因数分解を利用 ❏ 自己教師付きMasked Image Modelingで事前学習 ❏ 衛星画像のラベル取得コストは高いため
  18. © NTT Communications Corporation All Rights Reserved. 18 Spatial-Spectral Patch

    Embedding
 ❏ パッチ分割
 ❏ 通常のViTと異なりスペクトル方向にも分割 
 
 
 ❏ 計算コストが増えるため、パッチサイズは大きくないと無理
 
 ❏ blockwise spectral embedding
 ❏ 通常のViTはパッチ間で共有のWで線形変換 ❏ スペクトルブロックごとに個別のWで線形変換 
 ❏ Spectral Positional Embedding
 ❏ 空間,スペクトルそれぞれをsin波, cos波で埋め込み 
 
 
 
 Linus Scheibenreif, et al. Masked Vision Transformers for Hyperspectral Image Classification, CVPR2023
  19. © NTT Communications Corporation All Rights Reserved. 19 self-attentionの計算量削減
 ❏

    空間でのAttentionとスペクトル間のAttentionを分割して計算 
 Linus Scheibenreif, et al. Masked Vision Transformers for Hyperspectral Image Classification, CVPR2023
  20. © NTT Communications Corporation All Rights Reserved. 20 Masked Image

    Modeling
 ❏ SimMiM[4]に従う
 ❏ 線形層を追加 → 画素値推論 ❏ Embedding Vectorの一部がマスクされる ❏ マスクされたトークンのモデル化に集中させる 
 Linus Scheibenreif, et al. Masked Vision Transformers for Hyperspectral Image Classification, CVPR2023 Zhenda Xie, et al. SimMIM: a Simple Framework for Masked Image Modeling, CVPR2022
  21. © NTT Communications Corporation All Rights Reserved. 21 実験
 ❏

    データ
 ❏ EnMAP-DFC
 ❏ EnMAP衛星からのマルチスペクトル画像を DFC2020土地被覆データとマッチング ❏ 森林、低木林、草地、湿地、耕作地、市街地、不毛地、水のクラスをピクセル単位でラベル付け 
 ❏ Houston2018 ❏ ラベル付きのハイパースペクトルデータセット ❏ 評価指標
 ❏ Acc ❏ MacroAcc ❏ クラスごとの精度の平均 Linus Scheibenreif, et al. Masked Vision Transformers for Hyperspectral Image Classification, CVPR2023
  22. © NTT Communications Corporation All Rights Reserved. 22 実験結果:EnMAP-DFC
 


    ベースライン
 スペクトル方向
 空間-スペクトル方向
 空間-スペクトル方向
 +
 事前学習

  23. © NTT Communications Corporation All Rights Reserved. 24 実験結果:Masked Pre

    Training
 ❏ ラベルなしEnMAPデータセットに対して、Masked Image Modelingで事前学習する 
 ❏ Houston2018データセットの比率を変えながら学習する 
 
 ❏ 0.1%の訓練データ(約504ピクセル) 
 ❏ ランダム初期化SSTモデル:27±3.2% ❏ ベースライン3D-CNN[25]の精度は28±1.8% ❏ 事前学習されたSSTモデルは35±2.0% ❏ これは自己教師付き事前学習による+8%の精度の向上 
 
 
 
 ❏ Vision Transformer学習に良さそうなもの
 ❏ 空間方向+スペクトル方向にEmbedding ❏ Masked Image Modelingで事前学習
  24. © NTT Communications Corporation All Rights Reserved. 25 参考文献
 ❏

    EarthVision 2023, GRSS-IEEE, https://www.grss-ieee.org/events/earthvision-2023/ 
 ❏ Patrick Ebel, et al. UnCRtainTS: Uncertainty Quantification for Cloud Removal in Optical Satellite Time Series, CVPR2023
 ❏ Vivien Sainte Fare Garnot, et al. Lightweight Temporal Self-Attention for Classifying Satellite Image Time Series, arXiv preprint arXiv:2007.00586 
 ❏ Linus Scheibenreif, et al. Masked Vision Transformers for Hyperspectral Image Classification, CVPR2023 
 ❏ Zhenda Xie, et al. SimMIM: a Simple Framework for Masked Image Modeling, CVPR2022