Slide 1

Slide 1 text

A Segment Anything Model based weakly supervised learning method for
 crop mapping using Sentinel-2 time series images
 山口大学
 中田和真
 1 第6回 SatAI.challenge勉強会
 この資料に出てくる図は引用を明記しない場合は J. Sun et al. (2024), “A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images”, International Journal of Applied Earth Observation and Geoinformation 133 (2024) 104085. より引用

Slide 2

Slide 2 text

目次 
 2 ● 自己紹介スライド
 ● 研究の1ページサマリ紹介 
 ● 研究の背景(Introduction) 
 ● 手法について(Method) 
 ● 実験(Experimet)
 ● 結論(Conclusion)


Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

自己紹介 
 4 中田 和真 所属:山口大学 情報認識工学研究室 D3 研究テーマ:機械学習による超音波画像を用いた肝硬変の検出 その他活動: ● 2024年度 山口大学 SPRINGスカラシップ研究学生 ● 第23回 IEEE広島支部学生シンポジウム 運営 ● cvpaper.challenge コラボ AI論文解説

Slide 5

Slide 5 text

5 1ページサマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

A Segment Anything Model based weakly supervised learning method for 
 crop mapping using Sentinel-2 time series images 
 6 ● 問題設定は弱教師あり学習による農地区画のセグメンテーション 
 ○ 教師(ラベル)を少なく学習したい 
 ● 自然画像で学習済みのSAM(Segment Anything Model)を Sentinel-2 でファインチューニング 
 ○ SAM を使用することで、ポイント / バウンディングボックス / 画像単位 といった(画素単位でない)あいま いなラベルを学習に取り入れる 
 ○ 生成した疑似ラベルを教師としてセグメンテーションモデルを学習する 


Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

背景:農地区画のセグメンテーションについて 
 8 ● 農地区画のセグメンテーションは、収穫量予測や育成度合のモニタリング等に活用される 
 ● 特にCNNを用いたセグメンテーションは複雑な特徴量を自動で学習できる一方で、大量の学習データが必要と なる
 ● そこで、比較的収集しやすい弱教師(ポイント / バウンディングボックス / 画像単位)を用いた学習法を提案す る
 ● 課題1:弱教師あり学習だと、農地区画の細かな境界線を学習することが困難 
 ● 課題2:都市や建物が対象のタスクよりも、農地区画のタスクは周辺とのスペクトルの差が小さく分類が困難 
 → 農地区画に適した弱教師あり学習によるセグメンテーションを検討 


Slide 9

Slide 9 text

背景:SAM(Segment Anything Moldel) 
 9 ● 10億枚の自然画像で学習された基盤モデル 
 ● プロンプト(ポイント / バウンディングボックス / 自然言語 等)と画像を入力として受け取り、画像内のインスタン スをセグメンテーションする 
 ● プロンプトエンコーダー、画像エンコーダー、マスクデコーダーから構成される 
 ● 自然画像で学習されているので、Sentinel-2画像への汎用性は限られる 
 ● 特に、空間分解能が30cmを超えるとSAMの精度が悪くなる[Osco et al. (2023)] 
 Alexander Kirillov et al. (2023), “Segment Anything”, ICCV 2023. より引用

Slide 10

Slide 10 text

10 手法について This image was generated by ChatGPT

Slide 11

Slide 11 text

● 提案手法は3つのステージから構成される 
 ● ステージ1:SAM をSentinel-2画像でファインチューニング(教師あり学習) 
 ● ステージ2:疑似ラベル生成 
 ● ステージ3:疑似ラベルを用いたセグメンテーションモデルの学習(弱教師あり学習) 
 手法:概要 
 11

Slide 12

Slide 12 text

● SAMの事前学習データ、10億枚と比較して 
 Sentinel-2の画像枚数が少ないこと、 
 [Osco et al. (2023)]の先行研究より、 
 モデルの一部のみ重みを学習 
 ● 実際は事前学習済みの重みを固定し、 
 adapter-tuning と呼ばれる手法を画像エンコーダー 
 に取り入れる
 ● プロンプトエンコーダーは重みを更新せず、 
 マスクデコーダーは全ての重みを更新する 
 
 
 ● 本研究ではプロンプトごとにモデルを分けて学習 
 ● 各プロンプトで予測と正解の誤差をインスタンス単位で 
 最小化
 手法:SAMのファインチューニング(ステージ1) 
 12

Slide 13

Slide 13 text

boundary-aware joint loss を提案
 
 
 ①:ピクセル単位のbinary cross entropy loss 
 
 
 ②:DICE loss
 セグメンテーションタスクで頻繁に用いられる 
 
 
 ③:SSIM (Structural Similarity) loss 
 小領域ごとの平均と分散を計算 
 輝度・コントラスト・構造を考慮し、SSIM(画像間の類似性)が 
 最大化するよう学習 
 手法:SAMのファインチューニング(ステージ1) 
 13 参照 :https://knowwell-livewell.hatenablog.com/entry/202 2/01/31/150552 参照 :https://zenn.dev/taikiinoue45/articles/bf7d2314ab4d 10

Slide 14

Slide 14 text

● ポイント / バウンディングボックスを用いた疑似ラベル生成 
 ○ プロンプトの定義
 ■ ポイント:農地区画の中心座標 
 ■ バウンディングボックス:農地区画を囲む長方形 
 ○ 疑似ラベル生成手順 
 ■ 各プロンプトについてファインチューニングしたSAM-P/SAM-Bで予測を行う 
 ■ 各予測結果を重ね合わせて疑似ラベルとする 
 手法:疑似ラベル生成(ステージ2) 
 14

Slide 15

Slide 15 text

● 画像単位のラベルを用いた疑似ラベル生成 
 ○ プロンプトの定義
 ■ 画像単位のラベル:農地区画が含まれる or 含まれない 
 ○ 前頁と違い、画像内に存在する複数の農地区画を1つのプロンプトでセグメンテーションする 
 ○ 疑似ラベル生成手順 
 ■ step1:画像単位の出力で2値分類器を学習 
 ● プロンプトに位置的な情報がないため、入力画像を複数時間とすることで、背景領域との差を 学習しやすくする
 ● 特徴マップが入力画像と同じサイズになるように、U-netをベースとする 
 ● CAMを用いることで、予測に重要な特徴マップを可視化可能とする 
 ● CBAM [Sanghyun Woo et al. (2018)] を用いてチャネル・空間方向の 
 アテンションを計算
 ● ロス関数には cross entropy loss を使用 
 手法:疑似ラベル生成(ステージ2) 
 15

Slide 16

Slide 16 text

● 画像単位のラベルを用いた疑似ラベル生成 
 ○ 疑似ラベル生成手順 
 ■ step2:CAMの値(ヒートマップ)と superpixels sementation を使用 
 ● 入力画像に対して SAM の general segmentation mode? で superpixels segmentation を行う 
 ● 各小領域で CAM のヒートマップ値の平均値をとり、農地区画と背景クラスの値が高い方を疑 似ラベルとして付与する 
 手法:疑似ラベル生成(ステージ2) 
 16

Slide 17

Slide 17 text

● ステージ2で作成した疑似ラベルを用い、セグメンテーションモデルを学習する 
 ● モデルは、state-of-the-art の U-TAE を使用する 
 ○ 農地区画のセグメンテーションモデルとして提案された [Garnot and Landrieu, (2021)] 
 ○ U-Net 構造で L-TAE (Lightweight-temporal Attention Encoder) により、マルチスケールの時空間的特徴 量を獲得可能
 ○ cross entropy loss を学習に使用 
 手法:疑似ラベルを用いたセグメンテーションモデルの学習(ステージ3) 
 17 Vivien Sainte Fare Garnot et al. (2021), “Panoptic Segmentation of Satellite Image Time Series with Convolutional Temporal Attention Networks”, ICCV 2021. より引用

Slide 18

Slide 18 text

18 実験 This image was generated by ChatGPT

Slide 19

Slide 19 text

● データセット①:PASTIS 
 ○ 2433枚のパッチ画像 
 ○ 128×128画素
 ○ 各農地区画に中心座標が付与されている 
 ○ インスタンスラベルからバウンディングボックスを今回作成 
 ● データセット②:Munich 
 ○ 14262枚のパッチ画像 
 ○ 48×48画素
 ○ 画像単位のプロンプトとして のみ使用
 
 ● パッチ画像の50%以上を農地区画が覆っているか、まったく存在しない場合のみ 
 画像単位のラベルを付与 
 ○ PASTISは974枚に「農業用牧草地」のラベルを付与 
 ○ Munichは3396枚に「トウモロコシ」のラベルを付与 
 実験:データセット 
 19

Slide 20

Slide 20 text

● OA (Overall Accuracy) は、モデル出力が背景領域に偏ると高くなる傾向にあり、 
 モデル間の差が出にくい 
 ● F1-score では、ファインチューニングありのほうが精度が高く、ファインチューニングの効果が分かる 
 実験:ファインチューニングあり・なしの比較 
 20

Slide 21

Slide 21 text

FTで差が出なかった例(対象と周辺で区画間の特徴が異なる) 
 
 
 
 
 
 
 
 FTで差が出た例(対象と周辺で区画間の特徴が似ている) 
 実験:ファインチューニングあり・なしの比較 
 21

Slide 22

Slide 22 text

● 提案手法(Ours)が最も教師あり学習に近い精度 
 実験:他のモデルとの比較(プロンプト:ポイント) 
 22

Slide 23

Slide 23 text

● 提案手法(Ours)が最も教師あり学習に近く、背景との境界線をはっきりと捉えている 
 実験:他のモデルとの比較(プロンプト:ポイント) 
 23

Slide 24

Slide 24 text

● 提案手法(Ours)が最も教師あり学習に近い精度 
 実験:他のモデルとの比較(プロンプト:バウンディングボックス) 
 24

Slide 25

Slide 25 text

● 提案手法(Ours)が最も教師あり学習に近く、背景との境界線をはっきりと捉えている 
 実験:他のモデルとの比較(プロンプト:バウンディングボックス) 
 25

Slide 26

Slide 26 text

● PASTISでは、提案手法(Ours)がU-CAMに少し劣る 
 実験:他のモデルとの比較(プロンプト:画像単位のラベル) 
 26

Slide 27

Slide 27 text

● 提案手法(Ours)が最も教師あり学習に近く、他の半教師あり学習では詳細を捉えられていない 
 実験:他のモデルとの比較(プロンプト:画像単位のラベル) 
 27

Slide 28

Slide 28 text

28 結論 This image was generated by ChatGPT

Slide 29

Slide 29 text

● 農地区画セグメンテーションモデルを弱教師ありで学習する手法を提案 
 ● SAM(Segment Anythin Model)を使用することで、複数種類のプロンプトを使用可能にした 
 ● boundary-aware joint loss による境界線付近の効率的な学習を提案 
 結論
 29