Slide 1

Slide 1 text

VAGeo: View-specific Attention for Cross-View Object Geo-Localization 青木 亮祐 / ぴっかりん(@ra0kley) 1 第8回 SatAI.challenge勉強会

Slide 2

Slide 2 text

目次 2 ● 自己紹介スライド ● 研究の1ページサマリ紹介 ● 研究の背景(Introduction) ● 手法について(Method) ● 実験(Experimet) ● 結論(Conclusion)

Slide 3

Slide 3 text

3 発表者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

青木 亮祐(ぴっかりん) 株式会社パスコ 研究開発センター 自己紹介 4 X(旧Twitter) GitHub 業務: - 航空写真/衛星画像からの深層学習を用いた地物の分類や検出 - 深層学習を用いた二時期の衛星画像からの変化検出 Project PLATEAU ADVOCATE 2024 「地理空間情報課ラボ」スペシャルサポーター

Slide 5

Slide 5 text

この論文を選んだ理由 5 最近、Cross-View Geo-Localization関連の論文を調査できていなかったため

Slide 6

Slide 6 text

6 1ページサマリ This image was generated by ChatGPT

Slide 7

Slide 7 text

VAGeo: View-specific Attention for Cross-View Object Geo-Localization 7 衛星画像を用いた地上もしくはドローン視点画像の位置推定 ● 撮影位置が分からない地上もしくはドローン視点画像の位置を衛星画像を用いて推定 ● 既存手法では、視点とスケールの不一致により、位置推定の精度が下がっていた ● 本手法では、空間相関を考慮した位置エンコーディング(VSPE)とチャンネルおよび空間方向の アテンション(CSHA)を提案し、既存手法に比べ精度が向上 提案手法の概要 Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用

Slide 8

Slide 8 text

8 研究の背景 This image was generated by ChatGPT

Slide 9

Slide 9 text

背景: Cross-View Geo-Localizationとは? 9 ● 地上やドローンにて撮影された位置情報が付いていない画像(推定対象画像)を 衛星画像や航空写真など視点が違う位置情報付きの画像(参照画像)をもとに 撮影位置を推定するタスク ● 推定対象画像と複数の参照画像を比較して、一番推定対象画像に特徴量が類似している 参照画像を見つけ出し、大まかな位置を推定 https://sorabatake.jp/29541/ より引用

Slide 10

Slide 10 text

背景: Cross-View Geo-Localizationとは? 10 ● 詳しくは以下の宙畑さんの記事をご覧ください(宣伝) https://sorabatake.jp/29541/ より引用

Slide 11

Slide 11 text

背景: Cross-View Geo-Localizationとは? 11 ● 想定されている利用用途 災害時にSNS等に投稿された被害箇所の 画像から被災箇所の位置推定 自動運転における自己位置の推定 https://jpn.nec.com/press/202202/20220210_03.html より引用 Yujiao Shi, and Hongdong Li., “Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization Using Satellite Image., ” CVPR2022, 2022. より引用

Slide 12

Slide 12 text

背景: Cross-View Object Geo-Localizationとは? 12 ● Cross-View Geo-Localizationは、おおまかな位置しか推定できないという課題がある ● オブジェクト単位のより細かい位置推定を行うのが、Cross-View Object Geo-Localization → クリックポイント(赤丸)の位置を衛星画像上で推定(赤い矩形)することで、 より細かい位置推定を行う Cross-View Object Geo-Localizationの例 赤丸の位置を衛星画像のどこか推定(赤枠) https://openreview.net/pdf/0534cdb98221b22e534c164833bb4eb8ac257657.pdf より引用

Slide 13

Slide 13 text

13 手法について This image was generated by ChatGPT

Slide 14

Slide 14 text

手法: 概要 14 ● 提案手法は、以下の2つのモジュールから構成 モジュール1: 地上視点、ドローン視点それぞれ固有の位置エンコーディングモジュール(VSPE) モジュール2: バックボーンによって抽出された特徴を、チャンネル、空間方向にそれぞれの アテンションを組み合わせて使用し、識別に焦点を当てるモジュール(CSHA) ⚫ 撮影位置を知りたいクエリ画像(地上もしくはドローン視点の画像)にVSPEおよびCSHAを適用し、 衛星画像内の目標オブジェクトを正確に特定 VSPE CSHA Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用

Slide 15

Slide 15 text

手法: モジュール1 VSPE(位置エンコーディング) 15 地上視点 ● 地上視点のクエリ画像はパノラマ画像であり、それ以外に含まれている空や影などのコンテンツは 妨害する要素となる ● これらの要素は、対象物体の特徴抽出に悪影響を及ぼす可能性がある → 画像全体から特徴を抽出しながら、モデルの注意を対象物体の特徴に向けるように設計 → 以下の数式のように、ラプラス分布に従い重みづけを行う 𝐏𝑘 : 位置エンコーディングされた結果 𝑝𝑘 : 地上視点画像での物体の位置(ポイント) 𝑃𝑖𝑥𝑒𝑙𝑘 (𝑖, 𝑗): 画像内のピクセル位置、𝑖行、𝑗列 ∙ 2 : ユークリッド距離 𝜎: 重みの減衰分布を制御するためのパラメータ 地上視点画像における 位置エンコーディング処理の例 たぶん、負号が入る Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用

Slide 16

Slide 16 text

手法: モジュール1 VSPE(位置エンコーディング) 16 ドローン視点 ● 衛星画像、ドローン画像どちらも対象物体の上面と側面の一部、および周囲の情報を捉えている ● 物体を中心とした4つの正方形の領域に適応的に分割し、近いものから遠いものに向かって 重みが小さくなるように割り当てる ドローン視点画像における 位置エンコーディング処理の例 Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用

Slide 17

Slide 17 text

手法: モジュール1 VSPE(位置エンコーディング) 17 ドローン視点 ● 衛星画像、ドローン画像どちらも対象物体の上面と側面の一部、および周囲の情報を捉えている ● 物体を中心とした4つの正方形の領域に適応的に分割し、近いものから遠いものに向かって 重みが小さくなるように割り当てる 0.6 0.15 0.1 ドローン視点画像における 位置エンコーディング処理の重みづけの例 Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用

Slide 18

Slide 18 text

手法: モジュール2 CSHA(ハイブリッド・アテンション) 18 概要 ● CSHA(Channel-Spatial Hybrid Attention) ● バックボーンによって抽出されたクエリ画像の特徴に対して、チャンネル方向と空間方向の アテンションを適用して、重要な情報を強調する Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用 ハイブリッド・アテンションの処理の流れ

Slide 19

Slide 19 text

手法: モジュール2 CSHA(ハイブリッド・アテンション) 19 チャンネル方向のアテンション ● バックボーンから出力されたクエリ画像の特徴マップのうち、 どのチャンネルの情報が重要かを重み付け 𝐅𝐪: バックボーンから出力されたクエリ画像の特徴マップ ∅: global average pooling 𝐖𝟏 , 𝐖𝟐 : 全結合層のパラメータ 𝑆𝑖𝑔: シグモイド関数 𝐗𝐜𝐡𝐚𝐧𝐧𝐞𝐥 : チャンネル方向のアテンションの重み Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用 Squeeze-and-Excitation Networks(SENet)で提案されたチャンネル方向の アテンションを採用している

Slide 20

Slide 20 text

手法: モジュール2 CSHA(ハイブリッド・アテンション) 20 空間方向のアテンション ● チャンネル方向のアテンションが適用されたクエリ画像の特徴マップに適用 ● 特徴のうち、空間的にどこが重要かを重み付け 𝐅𝐜 𝐪: チャンネル方向のアテンションが適用された特徴マップ 𝐏𝐚𝐯𝐠 : average pooling 𝐏𝐦𝐚𝐱 : maximum pooling 𝜎: シグモイド関数 Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用 Convolutional Block Attention Module(CBAM)で提案された空間方向の アテンションを採用している

Slide 21

Slide 21 text

21 実験 This image was generated by ChatGPT

Slide 22

Slide 22 text

実験: 使用したデータセット 22 ● このタスクの標準的なデータセットであるCVOGL datasetを使用 ● 5,836枚の衛星画像と5,279枚の地上視点画像、5,279枚のドローン視点画像から構成 ● 対象の地物は、クエリ画像ではクリックポイント、衛星画像ではbboxでマークされている Y. Sun, Y. Ye, J. Kang, R. Fernandez-Beltran, S. Feng, X. Li, C. Luo, P. Zhang, and A. Plaza, “Cross-view object geo-localization in a local region with satellite imagery,” IEEE Transactions on Geoscience and Remote Sensing, vol. 61, pp. 1–16, 2023. より引用

Slide 23

Slide 23 text

実験: 条件 23 実装 ● 特徴抽出のネットワーク(バックボーン)として、クエリ画像はResNet-18、 衛星画像はDarknet-53を使用 評価指標 ● IoUが25%以上と50%以上それぞれの時のAccuracyで評価?

Slide 24

Slide 24 text

実験: 結果 24 既存で一番精度が高かった手法(DetGeo)に比べ、提案手法がIoU閾値25%、50%のときいずれも 精度が向上 極端に精度が低い手法は、Cross-View Geo-Localizationだから?(要調査) Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用

Slide 25

Slide 25 text

実験: 結果 25 判読結果例 Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用 ●: クリックポイント、□: 正解のbbox、□: 判読結果のbbox

Slide 26

Slide 26 text

実験: Ablation study 26 地上視点のVSPE ● ガウス分布とラプラス分布を比較し、ラプラス分布を使用する方が精度が高い また、標準偏差𝜎は25が一番地上視点の画像に適していることが分かった Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用

Slide 27

Slide 27 text

実験: Ablation study 27 CSHA ● 提案手法のモデルが判読時にどこを着目しているかをヒートマップで可視化 ● ベースラインに比べ、提案手法の方が対象の地物を正確に着目している 上段はドローン視点画像、下段は地上視点画像 (a) ベースライン、(b) VSPEのみ適用、(c) VSPE+CSHAを適用 Zhongyang Li, Xin Yuan, Wei Liu and Xin Xu, “VAGeo: View-specific Attention for Cross-View Object Geo-Localization,” arXiv, 2025. より引用

Slide 28

Slide 28 text

28 結論 This image was generated by ChatGPT

Slide 29

Slide 29 text

結論 29 ● Cross-View Object Geo-Localizationの新しい手法であるVAGeoを提案 ● 地上またはドローン視点固有の特性に合わせて調整され、スケールと視点の違いに 関連する課題に効果的に対処(VSPE) ● クエリ画像に対して、チャンネル方向、空間方向双方にアテンションを適用することで モデルがどのチャンネルとどこに注目すれば良いかを自律的に学習(CSHA) ● VSPEとCSHAを組み合わせることにより、大幅に位置精度が向上