×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
名古屋CV・PRML勉強会 論⽂紹介 名城⼤学 堀⽥研究室 坂井泰吾
Slide 2
Slide 2 text
⾃⼰紹介 pM1 名城⼤学 堀⽥研究室 p趣味:アプリ・ゲーム制作、ハッカソン参加 p研究内容:増減型ニューラルネットワーク、物体追跡 pCVPR期間中コロラド⼤学にいました
Slide 3
Slide 3 text
紹介する分野 pSparse training(スパース学習) pContinual learning(継続学習) pObject detection(物体追跡)
Slide 4
Slide 4 text
Sparse training(スパース学習) p⼈間の脳内のニューロンは密につながっておらず,スパース(疎) pスパース(疎)なニューラルネットワークで学習させることで速度向上 Pruning
Slide 5
Slide 5 text
Sparse trainingに関する論⽂ ・NICE: Neurogenesis Inspired Contextual Encoding for Replay- free Class Incremental Learning ・ MaxQ- Multi-Axis Query for N-M Sparsity Network ・Gradient-based Parameter Selection for Efficient Fine-Tuning
Slide 6
Slide 6 text
MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 pSoft Mask(0~1のマスク)を作成 p学習中にスパース性の割合を徐々に増やす
Slide 7
Slide 7 text
Soft Mask p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 pソフトマスク(0~1のマスク)を作成
Slide 8
Slide 8 text
学習中にスパース性の割合を徐々に増やす p3乗項を⽤いることで、初期は緩やかに、後半で急速にスパース化 p学習率スケジューラのスパース化版 δ…スパース割合 t…現在のエポック ti…プルーニング開始のエポック tf…プルーニング終了のエポック
Slide 9
Slide 9 text
実験結果 p画像分類,セグメンテーション,物体検出で⾼精度
Slide 10
Slide 10 text
Continual learning(継続学習)
Slide 11
Slide 11 text
破滅的忘却とは タスクAに特化した知識 タスクBに特化した知識 タスクAを学習したニューラルネットワーク タスクA,Bを学習したニューラルネットワーク タスクBを学習
Slide 12
Slide 12 text
Continual learningに関する論⽂(パラメータ⼿法) ・Gradient Reweighting: Towards Imbalanced Class-Incremental Learning ・NICE: Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental Learning ・Expandable Subspace Ensemble for Pre-Trained Model-Based Class-Incremental Learning ・InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning
Slide 13
Slide 13 text
NICE: Neurogenesis Inspired Contextual Encoding pNISPA(ICML2022)という⼿法から発展 pニューロンの「年齢(α)」という概念を追加 p⼊⼒画像から,どのニューロンを使うか判断 不使⽤ 学習させる 重み固定
Slide 14
Slide 14 text
学習の概要 p最初のタスクで全ニューロンを年齢1に設定 p年齢1のニューロン内で活性化度の総和τ(95%)以上になる様に選択 p選択したニューロンを凍結,他は次のタスクに残す 不使⽤ 学習させる 重み固定 i…i番⽬のニューロン l…l層⽬のネットワーク S…選択するニューロン
Slide 15
Slide 15 text
⼊⼒画像から,どの年齢のニューロンを使うか判断 pタスクごとに,ニューロンの活性化分布を記録 p推論時に,⼊⼒画像に対するニューロンの活性化分布を出⼒ p記録したニューロンの活性化分布からどのタスクかを判断 ニューロンがタスクごとに専⾨化している 専⾨タスクの活性化度 専⾨でないタスクの活性化度
Slide 16
Slide 16 text
実験結果 pReplay-method(前のタスクの画像を保存して使う⼿法)を上回る p精度向上に加えてメモリ効率向上
Slide 17
Slide 17 text
Object detectionに関する論⽂(Real-Time) ・YOLO-World- Real-Time Open-Vocabulary Object Detection ・ DETRs Beat YOLOs on Real-time Object Detection ・YolOOD: Utilizing Object Detection Concepts for Multi-Label Out- of-Distribution Detection ・HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations
Slide 18
Slide 18 text
DETRs Beat YOLOs on Real-time Object Detection pリアルタイムの物体検出においてYOLOv8(当時最⾼精度)を上回る pHybrid Encoderにより異なるスケールの特徴量を混ぜる pUncertainty-minimal Query Selectionによりリアルタイム推論可能に
Slide 19
Slide 19 text
Hybrid Encoder pAIFI内ではS5の特徴量同⼠でAttentionを⾏い,⼤域情報を考慮 pCCFF内ではS4,5,6の特徴量同⼠を混ぜることで異なるスケールを考慮 AIFI…Attention-based Intra-scale Feature Interaction CCFF…CNN-based Cross-scale Feature Fusion
Slide 20
Slide 20 text
Uncertainty-minimal Query Selection p従来のDETRでは,学習パラメータにより特徴量(Query)を選択,収束遅 p分類スコア(MLPに通す)の内で確信度が⾼いBboxを選択 pBboxの中⼼座標を位置埋め込みとしてDecoderに通す p確信度が⾼いtop-K個の特徴量(Query)を選択,Decoderに通す K
Slide 21
Slide 21 text
実験結果 p同程度の精度で2倍の速度 p⼩物体に弱い YOLOv8 RT-DETR
Slide 22
Slide 22 text
補⾜資料
Slide 23
Slide 23 text
MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 p学習中にスパース性の割合を徐々に増やす pソフトマスク(0~1のマスク)を作成
Slide 24
Slide 24 text
MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 p学習中にスパース性の割合を徐々に増やす pソフトマスク(0~1のマスク)を作成
Slide 25
Slide 25 text
DETRs Beat YOLOs on Real-time Object Detection pリアルタイムの物体検出においてYOLOv8(当時最⾼精度)を上回る pHybrid Encoderにより異なるスケールの特徴量を混ぜる pUncertainty-minimal Query Selectionによりリアルタイム推論可能に
Slide 26
Slide 26 text
InfLoRA: Interference-Free Low-Rank Adaptation p事前学習モデルに少数のパラメータを追加し、それらをFine-Tuning pImageNet-R(10タスク)でACC_10が75.65%、ACC_10が80.82%
Slide 27
Slide 27 text
YOLO-World Real-Time Open-Vocabulary Object Detection pRepVL-PAN導⼊、テキスト特徴と画像特徴の相互作⽤を促進 p軽量なYOLOでオープン語彙検出を実現、20倍⾼速化