Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
YOLOv10~v12
Search
TakatoYoshikawa
April 16, 2025
Technology
5
1.2k
YOLOv10~v12
DeNA/Go CV輪講の発表時の資料です。
YOLOv10~v12の改良点を調査し、まとめました。
TakatoYoshikawa
April 16, 2025
Tweet
Share
More Decks by TakatoYoshikawa
See All by TakatoYoshikawa
DETR手法の変遷と最新動向(CVPR2025)
tenten0727
3
2k
Segment Anything Model 2 (SAM2)
tenten0727
4
1.7k
Other Decks in Technology
See All in Technology
Securing your Lambda 101
chillzprezi
0
260
AIにどこまで任せる?実務で使える(かもしれない)AIエージェント設計の考え方
har1101
3
1k
Introduction to Sansan Meishi Maker Development Engineer
sansan33
PRO
0
280
Devin(Deep) Wiki/Searchの活用で変わる開発の世界観/devin-wiki-search-impact
tomoki10
0
310
原則から考える保守しやすいComposable関数設計
moriatsushi
2
240
Kotlinで学ぶ 代数的データ型
ysknsid25
5
1.1k
Digitization部 紹介資料
sansan33
PRO
1
4.2k
Eight Engineering Unit 紹介資料
sansan33
PRO
0
3.4k
Long journey of Continuous Delivery at Mercari
hisaharu
1
210
ユーザーのプロフィールデータを活用した推薦精度向上の取り組み
yudai00
0
290
SFTPコンテナからファイルをダウンロードする
dip
0
150
(非公式) AWS Summit Japan と 海浜幕張 の歩き方 2025年版
coosuke
PRO
1
220
Featured
See All Featured
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
46
9.6k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
107
19k
GitHub's CSS Performance
jonrohan
1031
460k
BBQ
matthewcrist
89
9.7k
Code Reviewing Like a Champion
maltzj
524
40k
The Straight Up "How To Draw Better" Workshop
denniskardys
233
140k
Docker and Python
trallard
44
3.4k
What's in a price? How to price your products and services
michaelherold
245
12k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
16
920
RailsConf 2023
tenderlove
30
1.1k
Transcript
AI 2025.3.21 Takato Yoshikawa 株式会社ディー・エヌ・エー + GO株式会社 YOLOv10~v12
AI 2 ❏ Object Detectionタスクでよく使われる手法YOLO ❏ 性能と効率のバランスが良い ❏ 最近のYOLOはどこを改善しているのか はじめに
https://arxiv.org/pdf/1506.02640
AI 3 01 YOLOv10
AI 4 ❏ YOLOv10の改善 a. 推論時のNMS(Non-Maximum Suppression)による後処理を 不要にする学習方法 → End-to-endのObject
Detectionへ b. 効率と精度を両立させるためのモデルアーキテクチャの改善 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024] 速度/精度、モデルサイズ/精度のトレードオフで 既存手法を上回る
AI 5 ❏ NMSによる後処理 1. 信頼度がしきい値以下のBBoxを削除 2. 最も信頼度が高いBBoxと他のBBoxとのIoUを計算 3. IoUがしきい値以上のBBoxを削除
❏ NMSの課題点 ❏ End-to-endでないため、精度がしきい値 に依存する ❏ NMSにかかる時間分推論速度が低下する 0.8 0.9 0.7 https://arxiv.org/abs/2304.08069 YOLOv8でそれぞれのしきい値を変化させたときの 精度とNMSにかかる時間の変化 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 6 ❏ One-to-one Headを追加 ❏ Detection Transformerを参考に 各GTに対して複数のBBox とLossを計算
(従来のYOLOと同様) 各GTに対して1つのBBox とLossを計算 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 7 ❏ Consistent dual assignment ❏ 学習時は両方のヘッドで最適化 ❏ 推論時はOne-to-one
Headのみ使用 →NMS不要でEnd-to-endの推論が可能に! YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 8 ❏ Consistent matching metric ❏ 各GTに対してどの予測BBoxを割り当てるか ❏ 以下の指標を元に割り当て
❏ One-to-manyはtop n個を割り当て ❏ α, βは分類と位置のタスクの重要度のバランス を取るハイパーパラメータ ❏ One-to-oneとOne-to-manyそれぞれで同じパラメータにすることで 両方のヘッドの最適な予測BBoxが同じになるように学習が進む GTの中にアンカーポイント があるかどうか0/1 分類スコア GTと予測BBox のIoU YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 9 ❏ 効率化のためのモデルアーキテクチャ改善 ❏ クラス分類のConv→Depthwise conv + Pointwise convに変更
❏ 空間ダウンサンプリング時のConv→Pointwise conv + Depthwise convに変更 ❏ 各ステージの最後の畳み込みのランクが低いブロックを より効率的なCIBブロックに置き換える 各ステージ・スケールのランク CIBブロック YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 10 ❏ 精度向上のためのモデルアーキテクチャ改善 ❏ 大きいカーネルによる畳み込みの導入 ❏ 一部にMulti-head self-attentionを導入 YOLOv10:
Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 11 02 YOLOv11
AI 12 ❏ YOLOv8同様論文はない ❏ 別の人がまとめた資料やgithubのissueを参照 ❏ 公式の名前はYOLOv11ではなくYOLO11? YOLOv11
AI 13 ❏ アーキテクチャの変更 ❏ (おそらく)YOLOv8をベースに 以下の改良を加える ❏ C2fブロック→C3k2ブロックに ❏
SPPFの後ろにCross Stage Partial with Spatial Attention (C2PSA) ブロックを追加 ❏ 幅広いタスクをサポート ❏ 物体検出、instance segmentation ❏ pose estimation ❏ 画像分類 ❏ Oriented Detection YOLOv11 https://github.com/ultralytics/ultralytics/issues/17102
AI 14 ❏ YOLOv10と比べた性能 ❏ 同じスケールのモデルでmAPやLatencyは少し改善 ❏ パラメータ数やFLOPsはYOLOv10のほうが良い YOLOv11 https://docs.ultralytics.com/ja/models/yolo11/
Model mAPval 50-90 Latenc y T4 params FLOPs YOLO v10-m 51.1% 4.74ms 15.4M 59.1G YOLO v11-m 51.5% 4.7 ms 20.1M 68.0G
AI 15 03 YOLOv12
AI 16 ❏ アーキテクチャの変更 1. Area attention (A2) moduleの導入 2.
Residual Efficient Layer Aggregation Networks(R-ELAN) の導入 3. アーキテクチャの調整 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 17 ❏ Area Attention (A2) Module ❏ 特徴マップを(H/l, W)
or(H, W/I)に分割してAttentionを計算 ❏ window分割の処理等が不要で、reshapeのみで動作するので高速 ❏ l=4で実装 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 18 ❏ R-ELAN (Residual Efficient Layer Aggregation Networks) a.
CSPNet ❏ DenseNetの利点を活かしつつ、勾配経路に着目し 最初に特徴マップを分岐(勾配経路を分岐)させることで、 大きいモデルでも安定した学習+計算効率UP b. ELAN ❏ ブロックの途中も分岐させて、短い勾配経路を増やすことで 層を増やしてもより安定した学習になり、精度向上 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 19 ❏ R-ELAN (Residual Efficient Layer Aggregation Networks) c.
C3K2(YOLOv11で使用) ❏ 1つの大きな畳み込みの代わりに、分岐させた2つの畳み込みを使うことで 計算効率を上げる d. R-ELAN ❏ ELANのConvをA2モジュールにすると収束しづらい(特に大きいモデル) ❏ 特徴マップの分岐はせずに、残差ショートカットを追加 →学習が安定+計算コストやパラメータも削減 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 20 ❏ アーキテクチャの調整 ❏ backboneの最初の2ステージはYOLOv11と同様 ❏ 残りのC3k2→R-ELANに ❏ backboneの最後の3ブロックもR-ELAN
❏ Attention moduleの調整 ❏ Linear+LNの代わりにConv2d+BN ❏ Positional Encodingの代わりに7x7畳み込みで位置情報を補助 など YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 21 ❏ 性能 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+,
arXiv2025]
AI 22 まとめ ❏ YOLOv10 ❏ NMSを不要にする学習方法でEnd-to-endに ❏ DETRに近い学習方法 ❏
YOLOv11 ❏ アーキテクチャの調整 ❏ YOLOv12 ❏ Attention機構の導入 ❏ それに伴うR-ELANの導入