Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
YOLOv10~v12
Search
TakatoYoshikawa
April 16, 2025
Technology
6
1.5k
YOLOv10~v12
DeNA/Go CV輪講の発表時の資料です。
YOLOv10~v12の改良点を調査し、まとめました。
TakatoYoshikawa
April 16, 2025
Tweet
Share
More Decks by TakatoYoshikawa
See All by TakatoYoshikawa
Segment Anything Modelの最新動向:SAM2とその発展系
tenten0727
0
1.5k
DETR手法の変遷と最新動向(CVPR2025)
tenten0727
4
3.5k
Segment Anything Model 2 (SAM2)
tenten0727
4
2.3k
Other Decks in Technology
See All in Technology
サブドメインテイクオーバー事例紹介と対策について
mikit
15
7.1k
re:Invent 2025の見どころと便利アイテムをご紹介 / Highlights and Useful Items for re:Invent 2025
yuj1osm
0
670
GCASアップデート(202508-202510)
techniczna
0
280
AIでデータ活用を加速させる取り組み / Leveraging AI to accelerate data utilization
okiyuki99
6
1.7k
Amazon Q Developer CLIをClaude Codeから使うためのベストプラクティスを考えてみた
dar_kuma_san
0
330
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
0
430
累計5000万DLサービスの裏側 – LINEマンガのKotlinで挑む大規模 Server-side ETLの最適化
ldf_tech
0
170
AIとの協業で実現!レガシーコードをKotlinらしく生まれ変わらせる実践ガイド
zozotech
PRO
2
320
初海外がre:Inventだった人間の感じたこと
tommy0124
1
190
Snowflakeとdbtで加速する 「TVCMデータで価値を生む組織」への進化論 / Evolving TVCM Data Value in TELECY with Snowflake and dbt
carta_engineering
0
120
Spec Driven Development入門/spec_driven_development_for_learners
hanhan1978
0
580
プロダクトエンジニアとしてのマインドセットの育み方 / How to improve product engineer mindset
saka2jp
1
170
Featured
See All Featured
How to Ace a Technical Interview
jacobian
280
24k
KATA
mclloyd
PRO
32
15k
Bash Introduction
62gerente
615
210k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
Rails Girls Zürich Keynote
gr2m
95
14k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
658
61k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
650
Build The Right Thing And Hit Your Dates
maggiecrowley
38
2.9k
Designing for Performance
lara
610
69k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Building a Modern Day E-commerce SEO Strategy
aleyda
44
8k
The Cost Of JavaScript in 2023
addyosmani
55
9.1k
Transcript
AI 2025.3.21 Takato Yoshikawa 株式会社ディー・エヌ・エー + GO株式会社 YOLOv10~v12
AI 2 ❏ Object Detectionタスクでよく使われる手法YOLO ❏ 性能と効率のバランスが良い ❏ 最近のYOLOはどこを改善しているのか はじめに
https://arxiv.org/pdf/1506.02640
AI 3 01 YOLOv10
AI 4 ❏ YOLOv10の改善 a. 推論時のNMS(Non-Maximum Suppression)による後処理を 不要にする学習方法 → End-to-endのObject
Detectionへ b. 効率と精度を両立させるためのモデルアーキテクチャの改善 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024] 速度/精度、モデルサイズ/精度のトレードオフで 既存手法を上回る
AI 5 ❏ NMSによる後処理 1. 信頼度がしきい値以下のBBoxを削除 2. 最も信頼度が高いBBoxと他のBBoxとのIoUを計算 3. IoUがしきい値以上のBBoxを削除
❏ NMSの課題点 ❏ End-to-endでないため、精度がしきい値 に依存する ❏ NMSにかかる時間分推論速度が低下する 0.8 0.9 0.7 https://arxiv.org/abs/2304.08069 YOLOv8でそれぞれのしきい値を変化させたときの 精度とNMSにかかる時間の変化 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 6 ❏ One-to-one Headを追加 ❏ Detection Transformerを参考に 各GTに対して複数のBBox とLossを計算
(従来のYOLOと同様) 各GTに対して1つのBBox とLossを計算 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 7 ❏ Consistent dual assignment ❏ 学習時は両方のヘッドで最適化 ❏ 推論時はOne-to-one
Headのみ使用 →NMS不要でEnd-to-endの推論が可能に! YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 8 ❏ Consistent matching metric ❏ 各GTに対してどの予測BBoxを割り当てるか ❏ 以下の指標を元に割り当て
❏ One-to-manyはtop n個を割り当て ❏ α, βは分類と位置のタスクの重要度のバランス を取るハイパーパラメータ ❏ One-to-oneとOne-to-manyそれぞれで同じパラメータにすることで 両方のヘッドの最適な予測BBoxが同じになるように学習が進む GTの中にアンカーポイント があるかどうか0/1 分類スコア GTと予測BBox のIoU YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 9 ❏ 効率化のためのモデルアーキテクチャ改善 ❏ クラス分類のConv→Depthwise conv + Pointwise convに変更
❏ 空間ダウンサンプリング時のConv→Pointwise conv + Depthwise convに変更 ❏ 各ステージの最後の畳み込みのランクが低いブロックを より効率的なCIBブロックに置き換える 各ステージ・スケールのランク CIBブロック YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 10 ❏ 精度向上のためのモデルアーキテクチャ改善 ❏ 大きいカーネルによる畳み込みの導入 ❏ 一部にMulti-head self-attentionを導入 YOLOv10:
Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 11 02 YOLOv11
AI 12 ❏ YOLOv8同様論文はない ❏ 別の人がまとめた資料やgithubのissueを参照 ❏ 公式の名前はYOLOv11ではなくYOLO11? YOLOv11
AI 13 ❏ アーキテクチャの変更 ❏ (おそらく)YOLOv8をベースに 以下の改良を加える ❏ C2fブロック→C3k2ブロックに ❏
SPPFの後ろにCross Stage Partial with Spatial Attention (C2PSA) ブロックを追加 ❏ 幅広いタスクをサポート ❏ 物体検出、instance segmentation ❏ pose estimation ❏ 画像分類 ❏ Oriented Detection YOLOv11 https://github.com/ultralytics/ultralytics/issues/17102
AI 14 ❏ YOLOv10と比べた性能 ❏ 同じスケールのモデルでmAPやLatencyは少し改善 ❏ パラメータ数やFLOPsはYOLOv10のほうが良い YOLOv11 https://docs.ultralytics.com/ja/models/yolo11/
Model mAPval 50-90 Latenc y T4 params FLOPs YOLO v10-m 51.1% 4.74ms 15.4M 59.1G YOLO v11-m 51.5% 4.7 ms 20.1M 68.0G
AI 15 03 YOLOv12
AI 16 ❏ アーキテクチャの変更 1. Area attention (A2) moduleの導入 2.
Residual Efficient Layer Aggregation Networks(R-ELAN) の導入 3. アーキテクチャの調整 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 17 ❏ Area Attention (A2) Module ❏ 特徴マップを(H/l, W)
or(H, W/I)に分割してAttentionを計算 ❏ window分割の処理等が不要で、reshapeのみで動作するので高速 ❏ l=4で実装 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 18 ❏ R-ELAN (Residual Efficient Layer Aggregation Networks) a.
CSPNet ❏ DenseNetの利点を活かしつつ、勾配経路に着目し 最初に特徴マップを分岐(勾配経路を分岐)させることで、 大きいモデルでも安定した学習+計算効率UP b. ELAN ❏ ブロックの途中も分岐させて、短い勾配経路を増やすことで 層を増やしてもより安定した学習になり、精度向上 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 19 ❏ R-ELAN (Residual Efficient Layer Aggregation Networks) c.
C3K2(YOLOv11で使用) ❏ 1つの大きな畳み込みの代わりに、分岐させた2つの畳み込みを使うことで 計算効率を上げる d. R-ELAN ❏ ELANのConvをA2モジュールにすると収束しづらい(特に大きいモデル) ❏ 特徴マップの分岐はせずに、残差ショートカットを追加 →学習が安定+計算コストやパラメータも削減 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 20 ❏ アーキテクチャの調整 ❏ backboneの最初の2ステージはYOLOv11と同様 ❏ 残りのC3k2→R-ELANに ❏ backboneの最後の3ブロックもR-ELAN
❏ Attention moduleの調整 ❏ Linear+LNの代わりにConv2d+BN ❏ Positional Encodingの代わりに7x7畳み込みで位置情報を補助 など YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 21 ❏ 性能 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+,
arXiv2025]
AI 22 まとめ ❏ YOLOv10 ❏ NMSを不要にする学習方法でEnd-to-endに ❏ DETRに近い学習方法 ❏
YOLOv11 ❏ アーキテクチャの調整 ❏ YOLOv12 ❏ Attention機構の導入 ❏ それに伴うR-ELANの導入