Slide 14
Slide 14 text
アーキテクチャ・基本情報
● エンコーダは ViT-Base アーキテクチャに基づいており、4 層のデコーダを適用
● バッチサイズ 1024 、基準学習率 1×10⁻⁴ として、事前学習コーパスに対して 220 エポックの学習
● マルチスケール畳み込みバンクはカーネルサイズ {16, 32, 64} で初期化
事前学習時
● 学習中はパッチサイズ {16, 24, 32, 48, 64} を順に切り替えて用いる
*このため、再構成用に 5 つの独立したデコーダが使用
● 提案する適応的カーネル選択機構は、現在サンプリングされているパッチサイズに対して 受容野が常に整合
するよう 、各畳み込みカーネルのサイズを動的に調整
● 画像マスキング率は 75% に設定する。
● InfoNCE 損失の温度パラメータを 0.5
● InfoNCE 損失と MSE 損失にそれぞれ 0.8 と 0.2
● データ拡張:ランダムな水平反転およびランダムクロッピング
*クロップ後の画像は各データセットの元のサイズにリサイズされる。そのため、事前学習時の入力画像サイズ
は固定されておらず、各データセットのネイティブな解像度に応じて変化
実験設定:事前学習の詳細
14
Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用