Slide 1

Slide 1 text

名古屋CV・PRML勉強会 論⽂紹介 名城⼤学 堀⽥研究室 坂井泰吾

Slide 2

Slide 2 text

⾃⼰紹介 pM1 名城⼤学 堀⽥研究室 p趣味:アプリ・ゲーム制作、ハッカソン参加 p研究内容:増減型ニューラルネットワーク、物体追跡 pCVPR期間中コロラド⼤学にいました

Slide 3

Slide 3 text

紹介する分野 pSparse training(スパース学習) pContinual learning(継続学習) pObject detection(物体追跡)

Slide 4

Slide 4 text

Sparse training(スパース学習) p⼈間の脳内のニューロンは密につながっておらず,スパース(疎) pスパース(疎)なニューラルネットワークで学習させることで速度向上 Pruning

Slide 5

Slide 5 text

Sparse trainingに関する論⽂ ・NICE: Neurogenesis Inspired Contextual Encoding for Replay- free Class Incremental Learning ・ MaxQ- Multi-Axis Query for N-M Sparsity Network ・Gradient-based Parameter Selection for Efficient Fine-Tuning

Slide 6

Slide 6 text

MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 pSoft Mask(0~1のマスク)を作成 p学習中にスパース性の割合を徐々に増やす

Slide 7

Slide 7 text

Soft Mask p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 pソフトマスク(0~1のマスク)を作成

Slide 8

Slide 8 text

学習中にスパース性の割合を徐々に増やす p3乗項を⽤いることで、初期は緩やかに、後半で急速にスパース化 p学習率スケジューラのスパース化版 δ…スパース割合 t…現在のエポック ti…プルーニング開始のエポック tf…プルーニング終了のエポック

Slide 9

Slide 9 text

実験結果 p画像分類,セグメンテーション,物体検出で⾼精度

Slide 10

Slide 10 text

Continual learning(継続学習)

Slide 11

Slide 11 text

破滅的忘却とは タスクAに特化した知識 タスクBに特化した知識 タスクAを学習したニューラルネットワーク タスクA,Bを学習したニューラルネットワーク タスクBを学習

Slide 12

Slide 12 text

Continual learningに関する論⽂(パラメータ⼿法) ・Gradient Reweighting: Towards Imbalanced Class-Incremental Learning ・NICE: Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental Learning ・Expandable Subspace Ensemble for Pre-Trained Model-Based Class-Incremental Learning ・InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning

Slide 13

Slide 13 text

NICE: Neurogenesis Inspired Contextual Encoding pNISPA(ICML2022)という⼿法から発展 pニューロンの「年齢(α)」という概念を追加 p⼊⼒画像から,どのニューロンを使うか判断 不使⽤ 学習させる 重み固定

Slide 14

Slide 14 text

学習の概要 p最初のタスクで全ニューロンを年齢1に設定 p年齢1のニューロン内で活性化度の総和τ(95%)以上になる様に選択 p選択したニューロンを凍結,他は次のタスクに残す 不使⽤ 学習させる 重み固定 i…i番⽬のニューロン l…l層⽬のネットワーク S…選択するニューロン

Slide 15

Slide 15 text

⼊⼒画像から,どの年齢のニューロンを使うか判断 pタスクごとに,ニューロンの活性化分布を記録 p推論時に,⼊⼒画像に対するニューロンの活性化分布を出⼒ p記録したニューロンの活性化分布からどのタスクかを判断 ニューロンがタスクごとに専⾨化している 専⾨タスクの活性化度 専⾨でないタスクの活性化度

Slide 16

Slide 16 text

実験結果 pReplay-method(前のタスクの画像を保存して使う⼿法)を上回る p精度向上に加えてメモリ効率向上

Slide 17

Slide 17 text

Object detectionに関する論⽂(Real-Time) ・YOLO-World- Real-Time Open-Vocabulary Object Detection ・ DETRs Beat YOLOs on Real-time Object Detection ・YolOOD: Utilizing Object Detection Concepts for Multi-Label Out- of-Distribution Detection ・HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations

Slide 18

Slide 18 text

DETRs Beat YOLOs on Real-time Object Detection pリアルタイムの物体検出においてYOLOv8(当時最⾼精度)を上回る pHybrid Encoderにより異なるスケールの特徴量を混ぜる pUncertainty-minimal Query Selectionによりリアルタイム推論可能に

Slide 19

Slide 19 text

Hybrid Encoder pAIFI内ではS5の特徴量同⼠でAttentionを⾏い,⼤域情報を考慮 pCCFF内ではS4,5,6の特徴量同⼠を混ぜることで異なるスケールを考慮 AIFI…Attention-based Intra-scale Feature Interaction CCFF…CNN-based Cross-scale Feature Fusion

Slide 20

Slide 20 text

Uncertainty-minimal Query Selection p従来のDETRでは,学習パラメータにより特徴量(Query)を選択,収束遅 p分類スコア(MLPに通す)の内で確信度が⾼いBboxを選択 pBboxの中⼼座標を位置埋め込みとしてDecoderに通す p確信度が⾼いtop-K個の特徴量(Query)を選択,Decoderに通す K

Slide 21

Slide 21 text

実験結果 p同程度の精度で2倍の速度 p⼩物体に弱い YOLOv8 RT-DETR

Slide 22

Slide 22 text

補⾜資料

Slide 23

Slide 23 text

MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 p学習中にスパース性の割合を徐々に増やす pソフトマスク(0~1のマスク)を作成

Slide 24

Slide 24 text

MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 p学習中にスパース性の割合を徐々に増やす pソフトマスク(0~1のマスク)を作成

Slide 25

Slide 25 text

DETRs Beat YOLOs on Real-time Object Detection pリアルタイムの物体検出においてYOLOv8(当時最⾼精度)を上回る pHybrid Encoderにより異なるスケールの特徴量を混ぜる pUncertainty-minimal Query Selectionによりリアルタイム推論可能に

Slide 26

Slide 26 text

InfLoRA: Interference-Free Low-Rank Adaptation p事前学習モデルに少数のパラメータを追加し、それらをFine-Tuning pImageNet-R(10タスク)でACC_10が75.65%、ACC_10が80.82%

Slide 27

Slide 27 text

YOLO-World Real-Time Open-Vocabulary Object Detection pRepVL-PAN導⼊、テキスト特徴と画像特徴の相互作⽤を促進 p軽量なYOLOでオープン語彙検出を実現、20倍⾼速化