Slide 1

Slide 1 text

Self-supervised audiovisual representation learning for remote sensing data
 1 SatAI.challenge勉強会
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用 中村凌


Slide 2

Slide 2 text

2 著者紹介 This image was generated by ChatGPT

Slide 3

Slide 3 text

中村 凌 自己紹介 3 株式会社天地人 / SatAI・cvpaper.challenge HQ 天地人での仕事 - 宇宙水道局(AIを活用した漏水管のリスク診断) - 降水量予測と電波減衰量予測 過去の業績 - 研究効率化Tips (ViEW2021招待講演) - CCCS,W2021/2022 GC PC(登録者800名超え) - IROS / ICCV 2023, ICASSP / ECCV / ICPR2024採択 - SSII2023オーディエンス賞受賞 過去研究テーマ :Formula-driven Superised Learning, Weakly supervised object localization,Output Augmentation Twitter LinkedIn

Slide 4

Slide 4 text

航空写真の認識性能を向上するために音声情報を学習するためデータセットを提案 
 Self-supervised audiovisual representation learning for remote sensing data 
 4 ● ジオタグ付きの音声データを取得し、対応する航空写真をGoogle Earthから取得しデータセットを作成 
 ○ このデータセットは従来のデータセットより大規模 
 ● 音声と航空写真のCLIP学習の性能を高める為に、Batch Triplet lossと呼ばれる学習方法を提案 
 ● 航空写真の認識において、視覚情報だけでなく、音声情報を活用することで高精度な認識が行えることを示した 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 5

Slide 5 text

● 「視覚+音声」(マルチモダリティ )vs 「 視覚」 or 「音声」(シングルモダリティ) 
 ○ 「視覚情報+音声」: 周囲には木々の緑が見え、足元には茶色の泥道があって 、風に揺れる葉の音や視 覚での鳴き声がある  → (木々、泥道、風が吹いている、動物鳴き声)
 ○ 視覚:周囲には木々の緑が見え、足元には茶色の泥道 
 ○ 音声:風に揺れる葉の音や視覚での鳴き声がある 
 ● この例だけ上げても、シングルモダリティだと扱えない情報があって、認識が難しいケースがある 
 Introduction:人の認識は複数の情報が作用し合って判断している 
 5 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用 森だ。。!
 絶対
 森だ!
 情報を加えることで不確実性の低下 


Slide 6

Slide 6 text

● 近年では、複数情報を扱うための深層学習の研究が行われている。 
 ● 代表的な研究は、CLIP (Contrastive Language-Image Pre-Training) 
 ● それぞれのモダリティを扱うモデルが出力した特徴量ベクトルの類似度が向上するように学習 
 (画像単体で学習するより詳細な情報を与えることができる) 
 ● 余談として、類似度を計算することで推論時に分類と検索タスクを扱うことができる 
 Introduction:複数情報を扱うために予備知識 
 6 This is a Shiba Inu, a kind of dog.
 Text
 Encoder
 Image
 Encoder
 ↓テキスト特徴量
 ↑画像特徴量
 学習
 推論(2クラス分類)
 Dog
 Text
 Encoder
 Image
 Encoder
 犬の類似度が高い
 だから犬!
 ↓
 
 ↑画像特徴量
 Cat
 ↓猫のテキスト特徴量
 上記の枠組みを用いて音声とリモートセンシングデータを 
 学習したいがデータセットが提案されていない 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 7

Slide 7 text

SoundingEarthデータセットとその学習方法について提案 
 7 ● 5万を超えるフィールド録音データと画像のペアで構成されるSaunding Earthデータセットを構築 
 ● フィールド録音データと航空写真を学習するフレームワークを提案 
 ○ このフレームワークはセンサーに依存しないため衛星画像にも適用できるとのこと 
 ● データセット構築には「ジオタグ付きオーディオデータの取得とカタログ化」と「対応する上空画像の抽出」を行う。 以降で説明。
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 8

Slide 8 text

ジオタグ付きオーディオデータの取得とカタログ化 
 8 ● ambience(雰囲気)を扱う学問では、ジオタグ付きの音声サンプルを集めることが行われている 
 ● Noll等によって開始されたプロジェクトでクラウドソーシングによる取り組みで、ジオタグ付きの多数のフィールド 録音から世界中の136か国を含むグローバルなサウンドマップを収集している 
 ● ダウンロード時点では、 約 435 GB の高品質データ が含まれており、各サンプルの メタデータには地理座標、 正しい帰属に必要な作成者名、多くの場合オーディオの短いテキスト説明 が含まれていた
 ● 使用する録音データの時間の合計長さは3500時間超え 
 ● 録音データの分布は画像の通りで、平均3分で1%が最長の10分超え 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 9

Slide 9 text

航空写真の収集 
 9 ● 音声サンプルの地理座標(緯度経度)を使用して、Google Earth から画像タイルを自動的に抽出し、音声サンプ ルを対応する画像と照合 
 ● 音声が録音された経度と緯度に基づいて、Google Earth から利用可能な最高解像度で 1024 × 1024 ピクセル のタイルが抽出(これは、 1 ピクセルあたり約 0.2 m の空間解像度を意味する) 
 ● 使用されている航空写真は昼間撮影されているものを使用 
 ● 音声によっては夜間のデータが13%あるが、これは全て昼間撮影されたこととしてデータセットを構築 
 ○ 著者曰く音声の分散を確保している模様 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 10

Slide 10 text

オーディオビジュアルモデルの事前学習 
 10 ● 音声と画像の学習は、前のスライドで説明したように、ペ アの特徴量が互いに近くなり、異なるペアは離れるように 学習
 ● 学習を理解するためにはいくつかの要素があります 
 ○ 音声データはどうやって学習する? 
 ○ 画像データはどうやって学習する? 
 ○ どうやって損失関数計算している? 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 11

Slide 11 text

オーディオビジュアルモデルの事前学習:音声データの学習 
 11 ● 音声データは以下の処理を適用することで128×時間のグレースケール画像に変換 
 ○ 音声はSTFTを適用し、「時間 × 周波数」2次元表現に変換 (画像に変換) 
 ○ パワースペクトルを抽出するために複素数の絶対値の2条を計算(音の強さを強調) 
 ○ Mel-scaleへ変換(128個のMelフィルターバンクを使って人間の聴覚に近い形に変換)、 
 ○ 対数を取ることでLog-Melスペクトログラムに変換(人間の音の感じ方(音圧レベルの変化)により近い形 にする。)
 ● 学習するときは、128×128のグレースケール画像として任意の時間軸のデータを入力する 
 ● モデルはResNet-18,50 
 ● 論文情報だとランダムな音量調整や周波数シフトなどの音声拡張をさらに行っても、学習結果は改善されな かった
 ○ これはCNN の変換不変性とバッチ正規化レイヤーによって導入されたスケール不変性のためと考えられ ため
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 12

Slide 12 text

オーディオビジュアルモデルの事前学習:画像データの学習 
 12 ● 画像の学習するときは 
 ○ 方針としては画像の中央半分を切り取り、音声データのフィールドからから大きく外れないように 調整
 ○ そこから192~384ランダムなピクセルサイズをランダムに切り出し、192ピクセルにリサイズし、回 転、ぼかし色相、彩度変換などのデータ拡張を行なってモデルに入力 
 ○ こうすることで、約90%が音声の緯度経度を含むデータ拡張が可能に 
 ● 入力時の画像のピクセルサイズは3 × 192 × 192 
 ● モデルはResNet-18,50を使用 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 13

Slide 13 text

オーディオビジュアルモデルの事前学習:損失関数の計算 
 13 ● ここでは「Batch triplet loss」というものを使って学習をします 
 ● 画像埋め込みベクトルv_iと対応する音声埋め込みベクトルa_iを用いてペアワイズの距離行列を計算。 →D(a,v)式
 ● この対角要素を最小化し、他の全ての値を一定のマージン以上に保つのが、今回の学習ももくてきな ので、それを定式化すると右下の式になる。 
 ○ 例1:D_iiが2.0でD_ijが2.5の時は2.0-2.5+1 = 0.5で損失が出る 
 ■ D_iiは小さいほど損失が小さくなり、D_ijは大きくなるほど損失が小さくなる 
 ○ 例2:D_iiが2.0でD_ijが3.5の時は2.0 - 3.5+1 = -0.5で損失0 
 ● 項が2つあるのは対称性を考慮しているため 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 14

Slide 14 text

実験:NWPU-RESISC45 
 14 ● Northwestern Polytechnical University 
 ○ 45 カテゴリ、31,500 枚の画像で構成 
 ○ 画像は Google Earthから取得 
 ○ サイズも 256 × 256 
 ○ 画像はさまざまな解像度 ( ピクセルあたり 0.2 ~ 30 m) で、世界中の場所から取得 される
 ● 実験の結果
 ● ImageNet と SimCLR の両方の重みは、この データセットで精度が高い手法であるが、提案 手法はそれらより高い性能を発揮している 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 15

Slide 15 text

実験:Aerial image segmentation 
 15 ● 事前学習効果をsegmentationタスクで評価 
 ● DeepGlobe Land Cover Classification Challengeとい うベンチマークを用いて評価 
 ● DeepLabv3をバックボーンとして使用 
 ● Fine-tuningは5 epoch 
 ● 実験結果
 ○ ResNet-18
 ■ Oursが最も性能高い 
 ○ ResNet-50
 ■ Overall AccuracyではOursが高い 
 ■ mIoUだとContrastiveが高い 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 16

Slide 16 text

実験:Aerial image segmentation 
 16 ● Aerial image segmentationの定性評価 
 ○ 家屋などの小さな構造物は航空画像を一度も見たことがない手法(Random、ImageNet)ではうまく捉えら れない
 ○ 一方、航空画像で学習された自己教師あり手法では、構造物を問題なく捉えることができる 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 17

Slide 17 text

実験:Audiovisual scene classification 
 17 ● ADVANCEデータセットを用いて、画像と音声の ablation studyを実施(音声と航空写真のシーン理 解)
 ● 実験の結果
 ○ Oursは Huらの教師ありベースラインを大幅に 上回る
 ○ 小規模の教師あり学習よりも、大規模事故教 師あり学習の方が性能が高い 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 18

Slide 18 text

実験:Cross-modal retrieval 
 18 ● クロスモーダル検索タスクの評価(画像 → 音声) ● タスクの概要 ○ 画像を入力として、対応する音声サンプルを検索 ○ 画像と音声を共通の埋め込み空間にマッピング ○ 正しい音声が近くにあるかどうかで、空間の意味的類似性を評価 ● タスクの難しさ ○ 街の付随画像から、車・人などの環境音を含む数百の音声から正解を見つける必要あり ○ 定量的には精度低め 定量評価は厳しめだが、人間の感覚ではかなり自然なマッチに感じられる 
 埋め込み空間が意味的に妥当な類似性を学習している可能性が高い 
 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 19

Slide 19 text

実験:Ablation study 
 19 ● 提案する Batch triplet lossの有効性を検証 
 ● 比較には
 ○ Batch triplet loss 
 ○ Naive triplet loss
 ○ Contrastive loss (SimCLR) 
 ● 全ベンチマークデータセットでBatch triplet loss が性能が高い
 ● 検索タスクではContrastive lossが高い 
 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 20

Slide 20 text

● 研究成果の概要
 ○ 自己教師あり学習の最新手法をリモートセンシング分野に応用・データセットも提案 
 ○ 音声と画像の関連性を活用し、注釈なしで意味的表現を獲得 
 ○ 学習された表現は複数のタスクで高精度を達成 
 ■ 航空画像分類
 ■ 音声画像・シーン分類 
 ■ 航空画像セグメンテーション 
 ■ クロスモーダル検索 
 ● コードと事前学習済みモデルを公開されているので、気になる人はチェック 
 ○ https://github.com/khdlr/SoundingEarth 
 Conclusion : おわりに 
 20 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用

Slide 21

Slide 21 text

実験:UCマーセドの土地利用 
 21 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, ICLR 2025. より引用 ● 最初のデータセット(ヤンとニューサム、 2010)には、21の土地利用クラスからの 2100枚の俯瞰画像が含まれています。こ のデータセットの画像は、256×256ピクセ ルのサイズで、空間解像度は 
 ● 0.3 m。USGS 国立地図都市部画像コレク ションから抽出されたもので、米国のさま ざまな地域をカバーしています。このデー タセットの結果を表 2に示します。ここで は、事前トレーニング方法が他の評価方 法と比較して明らかに優れた結果を示して います。ただし、このデータセットは、非常 に小さく、解決が簡単すぎると批判される ことがあります ( Cheng et al., 2017、Xia et al., 2017 )。そのため、これら 2 つの問題 に対処することを目的とした他の 2 つの データセットでさらに評価を実施します。 


Slide 22

Slide 22 text

データセットの概要と考察8 
 22 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, ICLR 2025. より引用 ● ダウンロードの時点で、ラジオアポリー:::マップは、図2に示すように、世界中の136か国から50,000を超えるジオ タグ付きフィールドレコーディングを収集していました。その結果、構築されたSoundingEarthデータセットは、 50,545の画像とオーディオのペアで構成されています。オーディオの合計長さは3500時間を超える環境音に相 当し、データセットは航空画像に焦点を当てた既存のオーディオビジュアルデータセットよりもはるかに大きくなり ます( 表1を参照)。
 ● このデータセットの注目すべき特性の 1 つは、オーディオ継続時間の極端な偏りです。平均継続時間は約 3 分 ですが、オーディオ サンプルの最長 1% は 30 分を超えています。継続時間 (分単位) の一般的な分布を図 3に 示します。
 ● 航空写真はすべて昼間に撮影された。一方、音声録音の一部( 
 ● 13% も夜間に収集されたため、2 つのモダリティ間の分布のシフトにつながる可能性があります。ただし、自己教 師あり学習では、これは問題にならないようです。逆に、夜間の録音は、他の自己教師あり学習フレームワーク でデータ拡張が機能するのと同じように、特定の場所の別の種類の聴覚ビューとして機能する可能性があると 考えています。録音時間はメタデータで利用できるため、必要に応じて夜間の録音を除外するのは簡単です。 
 ● 多くのクラウドソーシングされたデータセットと同様に、サンプルの地理的分布は、ユーザーが多い地域に偏って います ( 図 2 を参照)。データセットには世界中の多くの場所からのサンプルが含まれていますが、一部の地域 に強い偏りがあります。たとえば、すべてのサンプルの 86% はヨーロッパまたはアジアで記録されていますが、 アフリカからのサンプルは 2% 未満です。 
 ● 


Slide 23

Slide 23 text

実験:AID 
 23 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, ICLR 2025. より引用 ● NWPU-RESISC45 データセットと同様に、Xia ら (2017)による航空画像データセット (AID)は、大 規模かつ多様な航空シーン分類データセットを 提供することを目指しています。これは 、 Google Earth からピクセルあたり 0.5 ~ 8 m の さまざまな解像度レベルで取得された 30 のカ テゴリの 10,000 枚の画像で構成されており、 データ モダリティとサイズの点で NWPU-RESISC45 に匹敵します。ここでの主な 違いは、AID の画像のサイズが 600 × 600 ピ クセルであるため、シーンの空間コンテキスト ウィンドウが大きくなっていることです。 
 ● 


Slide 24

Slide 24 text

データのクリーニング 
 24 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, ICLR 2025. より引用 ● すでに述べたように、データセット内のオーディオ録音は、オーディオの忠実度と録音内容の両方において並外 れた品質レベルを誇ります。そのため、手動での修正はほとんど必要ありませんでした。何千時間ものオーディ オ コンテンツを聴くのは不可能なため、データ クリーニング ルーチンは、録音のファイル名とテキストの説明の 全文検索に限定され、「testsound.mp3」のような説明のないオーディオ サンプルを除外しました。この半自動ク リーニング プロセス中に、621 個のサンプルがデータセットから除外されました。