Self-supervised audiovisual representation learning for remote sensing data

Slide 1

Slide 1 text

Self-supervised audiovisual representation learning for remote sensing data  1 SatAI.challenge勉強会  Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用中村凌 

Slide 22

Slide 22 text

データセットの概要と考察8   22 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, ICLR 2025. より引用 ● ダウンロードの時点で、ラジオアポリー:::マップは、図2に示すように、世界中の136か国から50,000を超えるジオタグ付きフィールドレコーディングを収集していました。その結果、構築されたSoundingEarthデータセットは、 50,545の画像とオーディオのペアで構成されています。オーディオの合計長さは3500時間を超える環境音に相当し、データセットは航空画像に焦点を当てた既存のオーディオビジュアルデータセットよりもはるかに大きくなります（表1を参照）。  ● このデータセットの注目すべき特性の 1 つは、オーディオ継続時間の極端な偏りです。平均継続時間は約 3 分ですが、オーディオサンプルの最長 1% は 30 分を超えています。継続時間 (分単位) の一般的な分布を図 3に示します。  ● 航空写真はすべて昼間に撮影された。一方、音声録音の一部（   ● 13% も夜間に収集されたため、2 つのモダリティ間の分布のシフトにつながる可能性があります。ただし、自己教師あり学習では、これは問題にならないようです。逆に、夜間の録音は、他の自己教師あり学習フレームワークでデータ拡張が機能するのと同じように、特定の場所の別の種類の聴覚ビューとして機能する可能性があると考えています。録音時間はメタデータで利用できるため、必要に応じて夜間の録音を除外するのは簡単です。   ● 多くのクラウドソーシングされたデータセットと同様に、サンプルの地理的分布は、ユーザーが多い地域に偏っています ( 図 2 を参照)。データセットには世界中の多くの場所からのサンプルが含まれていますが、一部の地域に強い偏りがあります。たとえば、すべてのサンプルの 86% はヨーロッパまたはアジアで記録されていますが、アフリカからのサンプルは 2% 未満です。   ●  

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text