Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ECCV2024論文紹介:Continual learning, Object detection

hinako0123
December 23, 2024
62

ECCV2024論文紹介:Continual learning, Object detection

hinako0123

December 23, 2024
Tweet

Transcript

  1. Object detectionに関する論文:78件 ・Integer-Valued Training and Spike-Driven Inference Spiking Neural Network

    for High-performance and Energy-efficient Object Detection (ECCV2024 Best Paper Award Candidate) ・Projecting Points to Axes: Oriented Object Detection via Point-Axis Representation ・DQ-DETR: DETR with Dynamic Query for Tiny Object Detection ・Relation DETR: Exploring Explicit Position Relation Prior for Object Detection ※DETRに関する論文:14件 / 78件
  2. Integer-Valued Training and Spike-driven Inference Spiking Neural Network for High-performance

    and Energy-efficient Object Detection Spiking Neural Network(SNN) は計算コストが低く、 電力効率が高い 従来のYOLOの複雑な構造をそのままSNNに変換すると、深い層でスパ イクがほとんど発生しなくなる(スパイク劣化問題) SNNは量子化誤差が大きいのが課題
  3. Projecting Points to Axis: Oriented Object Detection via Point-Axis Representation

    物体検出タスクのBBoxを回転、物体位置+サイズ+方向を推定する 従来では角度の不連続性による学習の不安定さ、方向情報の精度の 低さが問題 位置情報(Points)と方向情報(Axis)を別々の損失として学習すること で精度向上(Point-Axis表現)
  4. 提案手法: Oriented DETR・2つのloss Max-Projection Loss -縦横4方向で最大の点を選択、学習 ※点の数𝑲は事前に決定 Cross-Axis Loss -

    360度の方向を離散的に分割 - Cross Entropy Lossによる学習 ※ 𝑵𝒃𝒊𝒏𝒔 とクエリ数𝑵とは無関係 Oriented DETRの構造
  5. Continual learningに関する論文:31件 ・Class-Incremental Learning with CLIP: Adaptive Representation Adjustment and

    Parameter Fusion ・STSP: Spatial-Temporal Subspace Projection for Video Class- incremental Learning ※Class Incremental Learning・・・14件 / 31件
  6. Class-Incremental Learning with CLIP: Adaptive Representation Adjustment and Parameter Fusion

    CLIPのもつ言語知識を活用した、破滅的忘却の軽減手法を提案 CLIP特徴量を利用して、カテゴリ名が近い新旧クラス間の 特徴表現を調整(Adaptive Representation Adjustment ) タスク間で重みを分解・融合することで、タスクが増えた時の 精度の安定性を向上(Parameter Fusion) ① ②
  7. 提案手法② :Parameter Fusion 重みをタスク固有知識・共通知識に分解してから再統合する 重みをSVDにより共有知識(直交基底) 𝑩と新旧タスク固有の知識𝑹𝒏𝒆𝒘 , 𝑹𝒐𝒍𝒅 に分解 新旧タスクの重み

    𝑾𝒏𝒆𝒘 , 𝑾𝒐𝒍𝒅 の差分からsoft-mask 𝑴を計算 (新タスク固有の重みの重要度にあたる) 𝑴, 𝑹𝒏𝒆𝒘 , 𝑹𝒐𝒍𝒅 を用いて各タスク固有の知識𝐑 を計算 𝑩, 𝑹を用いて新しい重み𝑾を計算 𝑴: 重要度マスク 𝑩: 共有知識の直交基底 𝑹 : タスク固有の知識 ②
  8. STSP: Spatial-Temporal Subspace Projection for Video Class- incremental Learning 継続学習において、新規クラスが入った時にLinear

    Classifierでは 分布の変化が大きい 動画分類ではフレーム毎に同じような画像が多く、画像分類より データの冗長性が高いため、分布の変化もさらに大 Linear ClassifierではなくSubspace-based Classifierを用いて 新旧クラスのお互いの干渉を減らす Linear Classifier Subspace-based Classifier Encoderからの特徴量を切り分ける Encoderからの特徴量を調整・成形して分類
  9. 提案手法① :Temporal-based Subspace Classifier 各クラスの直交基底𝑃𝑚 を学習パラメータとする 新旧クラスの直交制約を維持しつつ、互いに干渉しないように𝑃𝑚 を学習 する 推論時は𝑃𝑚

    と𝑍𝑖 との距離𝑑𝑘 (𝑍𝑖 )をもとにクラスを推定 𝑍𝑖 :入力動画の特徴量 𝑃𝑚 :旧クラスmの部分空間基底 ・ 𝐹 :フロベニウスノルム ①
  10. 提案手法② :Spatial-based Gradient Projection 旧クラスの知識を破壊しない方向(null空間)にのみ更新を許可 特異値分解(SVD)で得られる基底𝑈2 は「影響が最も小さい方向」を表す 重みの更新方向∆𝑔𝑡,𝑠 を基底𝑈2 により∆𝑤𝑡,𝑠

    へ方向修正 𝑀 :特徴量の共分散行列 Q :新クラスの特徴量 𝑈2 :直交基底の特異値が 小さい側 𝑔 :元のパラメータの勾配 ∆𝑤 :修正後の重み更新量 ②
  11. DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single

    Video DINOv2は特徴抽出能力が高いが、単一動画では事前学習データとのドメインギャップが存在する 1. Delta-DINOと呼ばれる3層のMLPを使用し、クエリ特徴量(追跡したい点)の特徴量を抽出 2. ターゲットフレームをDINOv2に入力したときの出力特徴量とのコサイン類似度から注目部分のみに 特化した特徴マップを作成 3. 特徴マップをCNNに入力して最終的な位置を出力 optical flow loss:短フレーム間での特徴量の差異を無くす feature contrastive loss:各特徴量点における相関を無くす
  12. DQ-DETR: DETR with Dynamic Query for Tiny Object Detection DETRは小物体に弱い

    そこで、3つの機能を提案: 1.物体種数をカウントする 2.物体数に応じてクエリの数を動的に調整 3.物体種数のカウントに基づいた特徴量の強化 dilated convを含めた特徴抽出により、density mapを作成、それに基づいて1,2の機能を実現させる クラス不均衡かつ小物体が存在するAirial dataset(航空写真)を用いて実験し、有効性を評価
  13. Integer-Valued Training and Spike-driven Inference Spiking Neural Network for High-

    performance and Energy-efficient Object Detection LIF: Leaky-integrate-and-fire - 入力を積分していって,閾値に達したら発火する 量子化誤差の低減とスパイク駆動による効率性の維持が可能
  14. Integer-Valued Training and Spike-driven Inference Spiking Neural Network for High-performance

    and Energy-efficient Object Detection SNN Blockをそのまま入れた時のYOLOv8との比較