Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CVPR2024論文紹介:Sparse Training, Continual learnin...
Search
hinako0123
July 21, 2024
0
130
CVPR2024論文紹介:Sparse Training, Continual learning, Object detection
hinako0123
July 21, 2024
Tweet
Share
More Decks by hinako0123
See All by hinako0123
CVPR2024現地参加報告
hinako0123
0
98
CVPR2024論文紹介:Segmentation
hinako0123
0
140
Featured
See All Featured
Embracing the Ebb and Flow
colly
84
4.4k
GitHub's CSS Performance
jonrohan
1030
460k
Being A Developer After 40
akosma
86
590k
Unsuck your backbone
ammeep
668
57k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.8k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Speed Design
sergeychernyshev
24
580
Docker and Python
trallard
40
3.1k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
328
21k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Measuring & Analyzing Core Web Vitals
bluesmoon
2
48
The Invisible Side of Design
smashingmag
297
50k
Transcript
名古屋CV・PRML勉強会 論⽂紹介 名城⼤学 堀⽥研究室 坂井泰吾
⾃⼰紹介 pM1 名城⼤学 堀⽥研究室 p趣味:アプリ・ゲーム制作、ハッカソン参加 p研究内容:増減型ニューラルネットワーク、物体追跡 pCVPR期間中コロラド⼤学にいました
紹介する分野 pSparse training(スパース学習) pContinual learning(継続学習) pObject detection(物体追跡)
Sparse training(スパース学習) p⼈間の脳内のニューロンは密につながっておらず,スパース(疎) pスパース(疎)なニューラルネットワークで学習させることで速度向上 Pruning
Sparse trainingに関する論⽂ ・NICE: Neurogenesis Inspired Contextual Encoding for Replay- free
Class Incremental Learning ・ MaxQ- Multi-Axis Query for N-M Sparsity Network ・Gradient-based Parameter Selection for Efficient Fine-Tuning
MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 pSoft Mask(0~1のマスク)を作成
p学習中にスパース性の割合を徐々に増やす
Soft Mask p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 pソフトマスク(0~1のマスク)を作成
学習中にスパース性の割合を徐々に増やす p3乗項を⽤いることで、初期は緩やかに、後半で急速にスパース化 p学習率スケジューラのスパース化版 δ…スパース割合 t…現在のエポック ti…プルーニング開始のエポック tf…プルーニング終了のエポック
実験結果 p画像分類,セグメンテーション,物体検出で⾼精度
Continual learning(継続学習)
破滅的忘却とは タスクAに特化した知識 タスクBに特化した知識 タスクAを学習したニューラルネットワーク タスクA,Bを学習したニューラルネットワーク タスクBを学習
Continual learningに関する論⽂(パラメータ⼿法) ・Gradient Reweighting: Towards Imbalanced Class-Incremental Learning ・NICE: Neurogenesis
Inspired Contextual Encoding for Replay-free Class Incremental Learning ・Expandable Subspace Ensemble for Pre-Trained Model-Based Class-Incremental Learning ・InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning
NICE: Neurogenesis Inspired Contextual Encoding pNISPA(ICML2022)という⼿法から発展 pニューロンの「年齢(α)」という概念を追加 p⼊⼒画像から,どのニューロンを使うか判断 不使⽤ 学習させる
重み固定
学習の概要 p最初のタスクで全ニューロンを年齢1に設定 p年齢1のニューロン内で活性化度の総和τ(95%)以上になる様に選択 p選択したニューロンを凍結,他は次のタスクに残す 不使⽤ 学習させる 重み固定 i…i番⽬のニューロン l…l層⽬のネットワーク S…選択するニューロン
⼊⼒画像から,どの年齢のニューロンを使うか判断 pタスクごとに,ニューロンの活性化分布を記録 p推論時に,⼊⼒画像に対するニューロンの活性化分布を出⼒ p記録したニューロンの活性化分布からどのタスクかを判断 ニューロンがタスクごとに専⾨化している 専⾨タスクの活性化度 専⾨でないタスクの活性化度
実験結果 pReplay-method(前のタスクの画像を保存して使う⼿法)を上回る p精度向上に加えてメモリ効率向上
Object detectionに関する論⽂(Real-Time) ・YOLO-World- Real-Time Open-Vocabulary Object Detection ・ DETRs Beat
YOLOs on Real-time Object Detection ・YolOOD: Utilizing Object Detection Concepts for Multi-Label Out- of-Distribution Detection ・HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations
DETRs Beat YOLOs on Real-time Object Detection pリアルタイムの物体検出においてYOLOv8(当時最⾼精度)を上回る pHybrid Encoderにより異なるスケールの特徴量を混ぜる
pUncertainty-minimal Query Selectionによりリアルタイム推論可能に
Hybrid Encoder pAIFI内ではS5の特徴量同⼠でAttentionを⾏い,⼤域情報を考慮 pCCFF内ではS4,5,6の特徴量同⼠を混ぜることで異なるスケールを考慮 AIFI…Attention-based Intra-scale Feature Interaction CCFF…CNN-based Cross-scale
Feature Fusion
Uncertainty-minimal Query Selection p従来のDETRでは,学習パラメータにより特徴量(Query)を選択,収束遅 p分類スコア(MLPに通す)の内で確信度が⾼いBboxを選択 pBboxの中⼼座標を位置埋め込みとしてDecoderに通す p確信度が⾼いtop-K個の特徴量(Query)を選択,Decoderに通す K
実験結果 p同程度の精度で2倍の速度 p⼩物体に弱い YOLOv8 RT-DETR
補⾜資料
MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 p学習中にスパース性の割合を徐々に増やす pソフトマスク(0~1のマスク)を作成
MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 p学習中にスパース性の割合を徐々に増やす pソフトマスク(0~1のマスク)を作成
DETRs Beat YOLOs on Real-time Object Detection pリアルタイムの物体検出においてYOLOv8(当時最⾼精度)を上回る pHybrid Encoderにより異なるスケールの特徴量を混ぜる
pUncertainty-minimal Query Selectionによりリアルタイム推論可能に
InfLoRA: Interference-Free Low-Rank Adaptation p事前学習モデルに少数のパラメータを追加し、それらをFine-Tuning pImageNet-R(10タスク)でACC_10が75.65%、ACC_10が80.82%
YOLO-World Real-Time Open-Vocabulary Object Detection pRepVL-PAN導⼊、テキスト特徴と画像特徴の相互作⽤を促進 p軽量なYOLOでオープン語彙検出を実現、20倍⾼速化