Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Segment Any Change

Segment Any Change

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge

紹介する論文では、Segment Anything Model(SAM)を活用したzero-shotの変化検出モデルしています。
具体的には、2時点(過去と現在)の衛星画像を入力し、2時点のSAMの提案マスクとEncoderが出力する中間特徴量(埋め込みベクトル)を取得するSAM fowardという操作を行います。その後、①過去の衛星画像のマスクに対応する過去と現在の中間特徴量を比較し非類似度を計算する操作、逆に②現在から得られたマスクに対応する過去と現在の中間特徴量比較し非類似度を計算する操作を双方向に行うBitemporal Latent Matchingと呼ぶ計算を行います。その後、このモデルでは、計算された非類似度をソーティングし、ユーザーが指定したハイパーパラメータに基づいが数の変化検出マスクを出力することでzero-shotの変化検出を実現しています。

SatAI.challenge

December 08, 2024
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. 目次 
 2 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景(Introduction)

    
 • 手法について(Method) 
 • 実験(Experiment)
 • 結論(Conclusion)

  2. 過去研究テーマ :Formula-driven Superised Learning, Weakly supervised object localization,Output Augmentation 中村

    凌 自己紹介 Twitter LinkedIn 4 株式会社天地人 / SatAI・cvpaper.challenge HQ (福岡大学出身) 天地人での仕事 - 宇宙水道局(AIを活用した漏水管のリスク診断) - 降水量予測と電波減衰量予測 過去の業績 - 研究効率化Tips (ViEW2021招待講演) - CCCS,W2021/2022 GC PC(登録者800名超え) - IROS / ICCV 2023, ICASSP / ECCV / ICPR2024採択 - SSII2023オーディエンス賞受賞
  3. Segment Any Change 
 5 • Segment Anything Model(SAM)の2時点の画像エンコーダーが出力する意味ベクトルと提案マスクを活用するこ とで、変化検出を実現

    
 • アルゴリズムの基本的な考え方としては、マスクに対応する意味ベクトルがどのように変化したかを見るため に、現在のマスクを用いて対応する意味ベクトルがどのように似ているかを計算(過去から現在) 
 • 上記とは逆方向の未来のマスクを用いて、対応する未来と現在の意味ベクトルがどの程度似ているかを計算 (現在から過去)
 • この双方向の情報を使って変化検出を実施(Bitemporal Latent Matching) 
 SAMを活用したzero-shot変化検出モデルの提案 
 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用
  4. • 衛星画像を用いた変化検出 
 ◦ ある地域の衛星画像を異なる時点で取得し、それらを比較した箇所を特定・分析するタスク 
 • 衛星画像を用いた変化検出のモチベーション 
 ◦

    地球の表面は、自然のプロセスや人間の活動により常に変化 
 ◦ これらの変化を促すプロセス(自然災害、森林伐採、都市化)の一部は、気候や環境、人間の生活に大き な影響を与えている 
 ◦ リモートセンシングと機械学習によってこれらの地球規模の変化を捉えることは、多くの持続可能性分野 において重要
 Introduction:変化検出 
 6 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用 災害被害評価 自然資源モニタリング
  5. • 近年の変化検出 
 ◦ 変化検出は、深層学習に基づいた技術が多く研究されている 
 ◦ 深層学習の変化検出モデルは「 大規模な事前学習 」や「モデルの改善

    」により発展している 
 • 課題点
 ◦ 上記の変化検出モデルの能力は 学習データに依存 しており、特定のアプリケーションシナリオに限定さ れている 
 ◦ 限定されたモデルは学習中に見たもの以外の新しい変更タイプやデータ分布に一般化することはできな い(深層学習の性質上、学習して内パターンは検出困難という話) 
 Introduction:変化検出 
 7 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用 ChangeMask Zhuo Zheng et al. (2021), “ChangeMask: Deep multi-task encoder-transformer-decoder architecture for semantic change detection”, ISPRS Journal of Photogrammetry and Remote Sensin より引用 Seasonal Contrast 大規模な事前学習
 Oscar Mañas et al. (2021), “Seasonal Contrast: Unsupervised Pre-Training from Uncurated Remote Sensing Data”,Arxiv より引用 モデルの改善
 Utkarsh Mall et al. (2023), “Change-Aware Sampling and Contrastive Learning for Satellite Images”,CVPR より引用 CACo
  6. • 未知の変化パターンを検出するためにはZero-shot予測が可能な変化検出モデルが必要 
 ◦ しかし、リモセンではzero-shot変化検出はこれまであまり研究されてない 
 • 著者らは現在を「FM:Foundation model」の時代と捉えておりプロンプトエンジニアリングによる強力なzero-shot 予測と汎化能力を備えた大規模言語モデル(LLM)や視覚基盤モデル(VFM以下のような)が現れ、プロンプトエ

    ンジニアリングによる強力なzero-shot予測と汎化能力を備えている 
 • zero-shot変化検出は依然として未解決の問題 
 Introduction:課題を解決するために 
 8 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用 Segment Anything Alexander Kirillov et al. (2023), “Segment Anything”, ICCV 2023. より引用 Alec Radford et al. (2021), “Learning transferable visual models from natural language supervision”, ICML 2021. より引用 CLIP
  7. • 概要:SAM forwardで取得したマスクと埋め込みベクトルを用いて変化検出を行う 
 • SAM forward
 ◦ 時間の違う2つの同領域画像を入力し、埋め込みベクトルzとi個の物体マスクmを取得 


    • Bitemporal Latent Matching(BLM) 
 ◦ 埋め込みベクトル空間でマスク対応するところの、類似度をtからt+1、t+1からtの双方向計算し、似てない ところが変化したとみなす。 
 • Point Query
 ◦ ユーザーが入力したポイントに対応するマスクを使ってBLMを計算 
 Segment Any Changeを提案:手法の全体感 
 9 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用 SAM
 forward
 Bitemporal Latent
 Matching
 Point
 Query

  8. 
 
 • SAM forwardでは、2つの時間が異なる衛星画像から「 画像埋め込みベクトル 」と「複数のマスク 」を獲得
 • 埋め込みベクトルは、衛星画像を入力した際のSAMのEncoderの出力ベクトルとして出力される

    
 • 複数のマスクは、(以下の図のように)複数個の点と埋込みベクトルを入力することにより出力される 
 *正確にはポイントと埋め込みベクトルから出力される 
 Method:SAM forward 
 10 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用 埋め込みベクトル
 マスク

  9. • SAM Forwardで得られた埋め込みベクトルとマスクを使って以下のプロセスを通して変化検出を行う 
 • ① tのマスク を用いた(マスキングされた)埋め込みベクトルtとt+1間の非類似度を計算 
 *非類似度は負のコサイン類似度を使用。xベクトルの長さはtもt+1もd_mなためルートがとれている。

    
 • ② t+1のマスク を用いた(マスキングされた)埋め込みベクトルtとt+1間の非類似度を計算 
 • ③ 双方向に非類似度を照合し、ソーティング・閾値処理を行うことで変化検知予測を行う。 
 Method:Bitemporal Latent Matching(BLM) 
 11 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用 ← ①
 ← ②
 ↓ ③

  10. • Q1:そもそも同じ衛星画像上に意味の類似性なんで存在するの? 
 ◦ 著者の答え:経験的に存在する 
 • これを調査する方法として「衛星画像を主成分分析の最初成分をを可視化する方法」と「潜在空間を調査する方 法」の2つがありその結果を以下の図に示す 


    Method:なんでBitemporal Latent Matchingがうまくいくのか Q1 
 13 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用 ←PCAの結果:低次元部分空間において類似した 外観を持つことがわかった 
 このことから、SAMによる衛星画像の埋め込みが地 理空間物体の特徴量の関係を符号化できているこ とが示唆される
 ←潜在空間の結果:それぞれのテキストをクエリとし てマスキングを行うと、意味に応じて類似した物体 提案を得ることができた。 
 この結果、Object Proposalの殆どがクエリカテゴリ に属することがわかった。 
 低次元特徴量とObject Proposalの意味の類似性はある程度一致することが示唆された

  11. • Q2:異なる時期に収集された同じ場所の衛星画像の意味的な類似性は存在するのか? 
 ◦ 著者の答え:経験的に存在する 
 • 異なる時期のt1とt2の画像を使い、建物クエリのObject Proposalを比較 


    • allと3つの結果を使って評価すると(F1 68.1%±0.67%、recall 96.2%±0.66%)が得られた。 
 
 Method:なんでBitemporal Latent Matchingがうまくいくのか Q2 
 14 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用 撮影条件が異なる衛星画像であっても意味的類似性が存在することを示唆

  12. • Datasets
 ◦ 4つの代表的な変化検出データセットを使用( 最初の3つは建物中心、残りが都市変化検出データセット)
 ◦ LEVIR- CD (Chen &

    Shi, 2020) 
 ◦ S2Looking (Shen et al., 2021← Remote sensing × CV メタサーベイに1 ページサマリあり 
 ◦ xView2 (Gupta et al., 2019) 
 ◦ SECOND (Yang et al., 2021) 
 ◦ zero-shotの評価のためにマルチクラスへの変化ラベルはバイナリに変換する 
 • Metrics
 ◦ ピクセル単位で以下のメトリックを使用 
 ▪ F1
 ▪ Precision
 ▪ Recall
 ◦ その他に
 ▪ mask AR@1000:複数の閾値最大1000 個の出力の再現率 
 
 Experiment:実験設定 
 15 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用
  13. • zero-shot change detectionがないためDINOv2やSAMを使って検証 
 • OracleはLoRAを使って提案手法で求めた非類似度を教師に基づいてFine-tuning 
 Experiment :

    Zero-shot Object Change Proposalsの性能評価 
 16 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用
  14. • Point Queryの効果を定量的に評価 
 ◦ AnyChangeの方は打たれる点が多いためRecallは高いが、Precitionが低い 
 ◦ Point queryは点が少ないためRecallは下がるが、Precisionが高い

    
 ◦ f1 scoreでみると3 point querisの方が最も精度が高い 
 Experiment:Zero-shot Object Change Proposalsの定量評価 
 18 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用
  15. • S2Lookingのテスト精度における最先端変化検出手法との精度比較 
 • Fine-tuning on AnyChangeはAnyChangeで作成した変化マスクをラベルとしてFine-tuning 
 • 結果:100%GT

    R-18はF1score66.3%、AnyChangeはの疑似ラベル40.2%だった。 
 • 全ページのベンチマークではAnyChangeは61.0%なのでzero-shotで高い精度を得ている 
 Experiment:Supervised Object Change Detectionの性能評価 
 19 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用
  16. • ゼロショット変化検出のための新しい変化検出モデルであるSegment Any Changeモデルを提案 
 • Segmenta Any Changeモデルは学習不要の適応方法である、Bitemporal Laten

    MachingとSegment Anything Model(SAM)を用いて、変化検出を行うモデル 
 ◦ 具体的には、SAMの提案マスクに対応する中間特徴量(意味ベクトル)を双方向に比較し、ハイパーパラ メータの数だけ、変化検出の提案をマスクとして出力するモデルである 
 おわりに 
 21 Zhuo Zheng et al. (2024), “Segment Any Change”, NeurIPS 2024. より引用 2時点の意味ベクトル内のマスク領域を比較・似て ない所を見つけることで変化検出を行う。 
 ポイント:VFMで得られた意味空間の領域の比較 で追加学習無しで変化を認識 
 意味ベクトル