Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM-Assisted Semantic Guidance for Sparsely Ann...

LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、
より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。
speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection」です。本研究では、衛星画像に付与されたラベル(バウンディングボックス)が一部欠損しているSparsely labeled dataの条件下を対象としており、その条件下で生じるラベル付けされたクラス数が多いにもかかわらず疑似ラベルの信頼度が低い問題に対処するために、視覚言語モデルのセマンティクスを利用することで性能改善を行った。その他にも半教師あり学習の疑似ラベル付与過程をSparsely labeled data向けに改善したマルチブランチインプット戦略や背景情報への信頼度向上のモジュールAdaptive Hard-Negative Reweightingも提案している。

Avatar for SatAI.challenge

SatAI.challenge

November 09, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. 中村 凌 株式会社天地人 / SatAI.challenge 主宰 / cvpaper.challenge HQ •

    株式会社天地人データサイエンティスト (2024/04 - 現在) • SatAI.challenge 主宰(2024/09 - 現在) • cvpaper.challenge HQ(2021/1 - 現在 ) • 福岡大学大学院 理学研究科 応用数学専攻 博士課程(2021/04 - 2024/03) • 産業技術総合研究所 コンピュータビジョンチーム RA(2021/05 - 2024/03) • 福岡大学大学院 理学研究科 応用数学専攻 修士課程(2019/04 - 2021/03) 自己紹介 Twitter LinkedIn 2 これまでの個人的な活動 • 研究効率化Tips (ViEW2021招待講演) • 国際会議への論文採択実績(IROS / ICCV 2023, ICASSP / ECCV2024) • CCCS,W2021/2022 GC PC(登録者800名超え) • SSII2023オーディエンス賞受賞 • SatAI.challenge運営(国際論文の日本語資料・動画のアーカイブ化)
  2. Sparsely labeldの物体検出タスクにおいてクラス数が多いにもかかわらず信頼度が下がる問題を視 覚言語モデルのセマンティクスを用いて性能向上を実施 
 3 • 画像内の一部にしかラベルが付与されていないSparsely labeled dataを活用するには、ラベルがある領域から パターンを学習し、そのパターンから信頼度が高いパターンを中心に新たなパターンを学習する戦略がとられる

    
 • しかし、クラスが多いと多く学習が行われるため信頼度が高くなると思うが、実際は信頼度が低くなることが分 かった
 • この研究では、視覚言語モデルのクラス情報を用いてクラス情報のサポートを行い、物体と背景の信頼度を高 めるための手法について提案した研究である 
 LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection 
 Wei Liao et al. (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用
  3. 物体検出におけるラベル付けの課題と主流のアプローチとその限界点 
 4 Minsung Hyun et al. (2020), “Class-Imbalanced Semi-Supervised

    Learning”, ArXivより引用 • 物体検出は自動運転、監視、リモートセンシング解析などで幅広いアプリケーションで使用されている 
 • 深層学習を用いた高性能な物体検出モデルの作成には膨大な人間による手動ラベリングデータが必要 
 • この手動ラベリングデータの依存を軽減するために「半教師あり学習(SSOD)」が知られている 
 • しかし、リモートセンシングの物体検出ではの物体の偏り(例えば、出現しやすい/しにくいクラス・向き、物体の 密集←出現場所)が大きく、SSODだと中々解けないという課題がある 
 https://www.digitalvidya.com/blog/semi-supervised-learning/ より引用 このエリアが Major classに よってしまう

  4. 近年広がりつつあるアプローチ界隈:Sparsely Annotated Remote Sensing(SAOD) 
 5 Wei Liao et al.

    (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用 • このような偏りに対処するために近年ではSparsely Annotated Object Detection(SSOD)という概念が提唱され ている
 • SAODは画像内の全ての物体にバウンディングボックスが付与されている状況ではなく、ラベルが一部欠損して いる状況での物体検出タスク 
 • *半教師あり学習は「完全な教師が有り」 or 「ラベルが無し」の状況で学習することを想定
 

  5. リモートセンシングにおけるSSADについて考える前に従来手法について紹介 
 6 弱いデータ拡張と信頼 度に関する閾値を用い て疑似ラベルを作成
 ラベルを
 学習
 信頼度の高いラベルより強い データ拡張を行い判断が難しい

    データを学習
 難しいデータを学習した 際に誤った方向に直ぐ パラメータを更新される のを防ぐためパメータを 指数指導平均的に更新
 • SSODは「疑似ラベリング」と「一貫性に基づく正則化」が主流 
 ◦ 下の図のような手法が主流 
 ▪ 1.限られた教師データを学習したTeacher modelを作成 
 ▪ 2.Teacher modelは弱いデータ拡張したデータの内、信頼度の高いデータに擬似ラベルを付与(分布における高 密度領域に擬似ラベルを付与) 
 ▪ 3.Student modelは弱いデータ拡張したデータより更に強いデータ拡張を行い、Teacherの疑似ラベル学習(分布 における低密度領域を学習) 
 ▪ 4.Student modelには誤学習が含まれる場合があるので、指数移動平均でTeacherのパラメータを更新 
 ◦ ただ上記の手法は低信頼度の情報を有り無しで削るため、その分、情報量が薄い疑似ラベルになってしまう 
 
 Yen-Cheng Liu et al. (2021), “Unbiased Teacher for Semi-Supervised Object Detection”, ICLR. より引用
  6. リモートセンシングにおけるSSADについて考える前に従来手法について紹介 
 7 Wei Liao et al. (2023), “Ambiguity-Resistant Semi-Supervised

    Learning for Dense Object Detection”, CVPR. より引用 • 疑似ラベル+正則化は「つけるかつけないかの0 or 1」の情報の選択課題を克服するために「高密度疑似ラベル (DPL)」が知られている 
 ◦ これはStudentとTeacherの概念は同じだが、信頼度がLocalization mapベースで設計されている 
 ◦ 疑似ラベルの作成としては信頼度MapのTop K個のピクセルを選択 
 • ただ、DPLは、クラス内のサンプル数が多いハズにもかかわらず信頼度が低くなる課題がある 
 • 右下の図の(a)の横軸はDOTAの各カテゴリにおける数量比率、縦軸は平均信頼比率を示すが、相関関係にあ るというわけではない 
 
 Wei Liao et al. (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用
  7. 本論文の取り組み 
 8 • この論文では、上記の課題を解決/軽減するために、次のような 2大モジュール+割り当て戦略を提示してい る
 • LLM-Assisted Semantic

    Prediction (LSP) 
 ◦ モデル出力のみに頼るのではなく、 Vicuna‑v1.5 などのLLMのセマンティック推論能力を活用して、画像内 に出現しうるクラスをsemantic priorsとして予測 
 • Class-Aware Dense Pseudo-Label Assignment (CLA) 
 ◦ LSP によって得られたクラスプロンプト(クラス候補)を使って、擬似ラベル割り当てをTeacher modelのクラ スによらないクラス意識 (class-aware) に行う 
 • Multi-branch Input (MBI) 
 ◦ Teacher modelへのInputはラベルなしデータのみだが、Sparsery Labeled dataも活用 
 • Adaptive Hard-Negative Reweighting(AHR) 
 ◦ ネガティブ(背景)に対しても信頼度のラベルの割当を実施 
 • 上記の工夫により、「信頼度の質」と「信頼度とクラス数のギャップ」に対してアプローチする 
 Wei Liao et al. (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用
  8. 手法の概要 
 9 Wei Liao et al. (2025), “LLM-Assisted Semantic

    Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用 Multi-Branch Input

  9. LLM-Assisted Semantic Prediction (LSP)について 
 10 Wei Liao et al.

    (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用 • 画像の中にある物体を視覚的言語モデルを用いて画像内のクラス情報をリストとして獲得するモジュール 
 ◦ CLIPのエンコーダーを用いて画像を言語モデルに入力するためのベクトルに変換 
 ◦ 大規模言語モデルに言語のベクトルとCLIPが出力されたベクトルを使って出力を獲得 
 ◦ その出力を使って画像内の物体のリストを獲得 
 ◦ これをclass promptとしてClass-Aware Dense Pseudo-Label Assignment (CLA)へ 
 

  10. Class-Aware Dense Pseudo-Label Assignment (CLA) 
 11 Wei Liao et

    al. (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用 • Sparsely labeled・Unlabeled dataを用いてDense Psude labelを作成 
 ◦ 物体ピクセルの候補はClass promptの結果から採用・信頼度スコアの考え方同様に閾値を使って、信頼 度の高い集合を選択 
 ◦ その後、Top kのピクセルを選択しDPLとして使用 
 ◦ ラベルがある場合はそのラベルを使用 
 

  11. Adaptive Hard-Negative Reweighting(AHR) 
 12 Wei Liao et al. (2025),

    “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用 • AHR は、予測確率スコアに基づいてポジティブ・ネガティブそれぞれ異なる損失項を設計し、信頼度の高いネガ ティブを学習できるようにした 
 ◦ 式は右下に記述
 ▪ α は正例/負例重みバランスを制御するハイパーパラメータ 
 ▪ 𝛾はフォーカリング係数(よくある Focal Loss に近い考え方で、容易な例/困難な例の重み付けを制 御)
 ▪ 𝑤はネガティブサンプルに対する追加重みスケールで、信頼度が高いネガティブ(誤ネガティブであ る可能性があるもの)には 𝑤<1をかけて重みを下げる設計 
 

  12. 実験設定 
 13 • 評価指標
 ◦ mAP:特定の閾値(複数)を設けた時のPrecisionとRecall曲線の下面積 
 • Datasets


    ◦ DOTA:リモートセンシング向けオブジェクト検出データセット 
 ▪ train 1,411 / val 458 / test 937 
 ▪ クラス:15 クラス (PL:plane, BD:baseball-diamond, BR:bridge, GTF:ground-trackfield, SV:small-vehicle, LV:large-vehicle, SH:ship, SBF:soccer-ball field, TC:tennis-court, BC:basketballcourt, ST:storage-tank, RA:roundabout, HA:harbor, SP:swimming-pool, HC:helicopter)
 ◦ HRSC2016(リモートセンシング向けの船舶検出データセット) 
 ▪ train 436 / val 181 / test 444 
 • Sparsely Anotationは各クラスのインスタンスから 1% / 2% / 5% / 10% をランダムサンプリング 
 
 Wei Liao et al. (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用
  13. 実験:Oriented bounding boxes(OBB)タスク下における性能比較 
 14 • 異なるModel TypeにおけるOBBタスクの性能をmAPを用いて評価 
 


    • Oursは全てのラベル比率において高い性能を 記録
 • Supervisedの手法は特定の手法では高い性能 を示すが、Semi-supervisedの手法は Supervisedに負ける場合もあるが安定的に精 度が出ている模様
 • Sparsely-Annotatedの手法はSemi-supervised の手法より全体的に高性能 
 Wei Liao et al. (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用
  14. • DOTAデータセットに対するLSPモジュールが生成するクラスプロンプトの精度について統計的な分析を実施 (21046の画像に対して実施) 
 ◦ Noneは予測とGTの両方に物体クラスが存在しないことを意味する。 
 ◦ Exactは予測された物体クラスがGTと同一であることを意味する。 


    ◦ Partlyは予測がGTのサブセットであることを意味する。 
 ◦ Errorsは予測がGTと一致してない数を意味する 
 • LSPが生成するクラスプロンプトの数が多ければ多いほど性能向上 
 ◦ 特にExactとErrorsの数が減っている 
 実験:LLM-Assisted Semantic Prediction Moduleの効果検証 
 15 Wei Liao et al. (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用
  15. • DOTAデータセットを用いてコンポーネント毎の性能を検証 
 ◦ AHR(背景情報の信頼度を向上する工夫)を用いるだけでも精度向上 
 ◦ LSPとCLA(クラスプロンプトを用いた物体の信頼度を向上する工夫)を用いても精度向上 
 ◦

    MBI(マルチブランチの学習)を用いることで精度向上 
 • 論文で提案するモジュールが効果を発揮していることを確認した 
 実験:コンポーネント毎のアブレーションスタディ 
 17 Wei Liao et al. (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用
  16. 実験:本手法の定性的評価 
 18 教師のロジットか ら計算された特徴 マップ
 (灰色の点が物体 に対応する)
 Wei Liao

    et al. (2025), “LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection”, ICCV. より引用
  17. 論文を読んだ後の感想 
 19 • CLIPモデルやLLMを前提とした手法が多く開発されてきていますね。 
 • 私が過去参加したICCV2023では、CLIPの言語エンコーダーにテキストに含まれる色などの属性情報を変更 して、得られるベクトルを画像認識に応用する論文があり、その系統の論文ににたものを感じました。 


    • 限られた状況下でロバストなモデルを作成しようと思うと、既にあるデータセットを使うのではなく、大規模言 語モデルとの相互作用で性能向上が見込めるという流れが来ているんじゃないかなと思います。 
 • このような大規模モデルを活用するということは、「あくまでデータが沢山蓄積できるドメイン」でモデルを作成 し、その知見を「データが沢山蓄積できないドメイン」に転用する話なので、今後データの蓄積が難しい文脈 に本技術が広く活きそうです。 
 • そういう意味では、今回のCLIPモデルは画像を言語のベクトルに上手く変換できていたという点で十分に データがあったと言えるのかもしれませんね。