Slide 1

Slide 1 text

中村凌
 1 YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection 第24回 atAI.challenge勉強会


Slide 2

Slide 2 text

中村 凌 株式会社天地人 / SatAI.challenge 主宰 / cvpaper.challenge HQ ● 株式会社天地人データサイエンティスト (2024/04 - 現在) ● SatAI.challenge 主宰(2024/09 - 現在) ● cvpaper.challenge HQ(2021/1 - 現在 ) ● 福岡大学大学院 理学研究科 応用数学専攻 博士課程(2021/04 - 2024/03) ● 産業技術総合研究所 コンピュータビジョンチーム RA(2021/05 - 2024/03) ● 福岡大学大学院 理学研究科 応用数学専攻 修士課程(2019/04 - 2021/03) 自己紹介 Twitter LinkedIn 2 これまで 個人的な活動 ● 研究効率化Tips (ViEW2021招待講演) ● 国際会議へ 論文採択実績(IROS / ICCV 2023, ICASSP / ECCV2024) ● CCCS,W2021/2022 GC PC(登録者800名超え) ● SSII2023オーディエンス賞受賞 ● SatAI.challenge運営(国際論文 日本語資料・動画 アーカイブ化)

Slide 3

Slide 3 text

計算 度を改善するために、これまでボトルネックになってた処理を削除し、段階的な学習と小物体 へ 学習、最適化方法を見直し性能を改善 
 3 OLO26: Key Architectural Enhancements and Performance Benchmarking for eal- ime Object Detection 
 ● 従来 OLOシリーズで活用された、「NM (Non-Maximum uppression)」と「DFL(Distribution Focal Loss)」 計算時間や実利用 ボトルネックに焦点をあて、これまで物体検出で大事とされていた方法論を取り除いた
 ● そ 代わりにProgLoss(学習が進む毎に難しいサンプルへ 重みを上げる)、 AL(小物体へ ラベル 割り 当て 工夫)、Mu GD(学習 収束を早くする工夫)を用いて、計算 度と性能維持を図った論文
 ● 以下 実験結果が示すよにCOCOデータセットで計算時間・精度で高い性能を示している
 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

Slide 4

Slide 4 text

これまで OLOアップデート 歴史 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 Model 重要な構 的イノベーションと貢献 概要 YOLOv1 (2015) 最初 統合されたシングルステージ物体検出器 (バウンディングボックスとクラス確率を単一 ネットワークで処理) YOLOv2 (2016) マルチスケール学習 導入 。事前 ボックス( Prior boxes)を改善するため アンカーボッ クス次元 クラスタリング (YOLO9000による結合検出・分類) YOLOv3 (2018) 残差結合( Residual connections)を持つより深い Darknet-53バックボーン 採用 。SPPモ ジュールと、小物体検出 ため マルチスケール特徴融合 追加 YOLOv4 (2020) Mish活性化関数 採用 。特徴 再利用を強化するため CSPDarknet-53バックボーン。 YOLOv5 (2020) UltralyticsによるPyTorch実装。アンカーフリー検出ヘッド オプション、 SiLU(Swish)活性化 関数、特徴集約 ため PANetネック 使用 。 YOLOv6 (2022) 自己注意( Self-attention)を埋め込んだ EfficientRepバックボーン 。 効率化 ため アンカーフリー物体検出モード 導入。 attention追加
 物体検出性能向上 ため モ デル モデル 計算方法につ いて検討 


Slide 5

Slide 5 text

これまで OLOアップデート 歴史 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 Model 重要な構 的イノベーションと貢献 概要 YOLOv7 (2022) モデル 再パラメータ化( Model re-parameterization)を伴う拡張 ELAN(E-ELAN)バック ボーン。より広範なタスク(追跡など) ため Transformerベース モジュール 統合 。 YOLOv8 (2023) 新しいC2fバックボーンと分離型ヘッド( Decoupled head)。 生成技術( GANベース 拡張)と完全なアンカーフリー設計 統合 。 YOLOv9 (2024) 選択的な学習 ため プログラマブル勾配情報 (PGI:Programmable Gradient Information) 導入。 特徴抽出向上 ため G-ELAN(強化版 ELAN) 提案 。 YOLOv10 (2024) 一貫したデュアルアサインメント学習戦略による、 End-to-End NMS(非極大抑制)フリー検 出 導入 。 ransformer導入
 物体検出 精度向上 


Slide 6

Slide 6 text

これまで OLOアップデート 歴史 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 Model 重要な構 的イノベーションと貢献 概要 YOLO11 (2024) 効率化 ため、バックボーンとネック全体に C3k2 CSPボトルネック (より小さなカーネル CSPブロック)を追加。 重要な領域に焦点を当てるため C2PSA(空間的注意付き CSP)モジュール 導入 (SPPF 維持)。 YOLOv12 (2025) Attention中心 アーキテクチャ: 効率的なエリア Attentionモジュール(低計算量 グローバ ル自己注意) 導入 。特徴集約を改善する Residual ELAN(R-ELAN)ブロック 導入 によ り、YOLO 度でTransformerレベル 精度を実現。 YOLOv13 (2025) 大域的な高次特徴 相互作用を捉えるため Hypergraph-based Adaptive Correlation Enhancement(HyperACE)モジュール 。ネットワーク全体 特徴フローを強化する Full-Pipeline Aggregation-Distribution(FullPAD)スキーム 。複雑さを軽減するため Depthwise-separable convolutions(深さ方向分離畳み込み) 利用 。 v11ぐらいから計算効率化に焦点があたり始め る(おそらく egment Anything Model 影響) 
 ベンチマーク 精度向上によって改善されてきた で
 「モデル外 処理(後処理やエクスポート対応)増加 」「動かすまで 工数 増加」

Slide 7

Slide 7 text

論文 問題点
 ● OLO26で 計算効率以下 課題にフォーカス 
 ○ NM :アルゴリズム 特性場現場で活用する際にパラメータチューニングが必要 
 ○ DFL:計算処理に積分処理が含まれてしまい別 計算機へ 移植性に影響を与える 
 ● OLO26 (1) NM を消す、(2) DFLを消す、(3) そ 穴を 学習側 工夫(ProgLoss/ AL/Mu GD) で埋める方針を取る
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 DFL計算遅い
 NM チューニング大変
 小規模物体 学習が困難
 学習効率(時間がかかる)


Slide 8

Slide 8 text

● NM :「多数 候補枠(One-to-many)」から最後に精度 良い1つ バウンディングボックを求めるため 後処理 
 ● 具体的な計算 手順
 ○ 1. 確信度スコアが高い順へ並び変え 
 ○ 2. リスト 先頭にある正解候補(M)を選出(一番先頭 代表候補) 
 ○ 3. 重なり判定:代表候補と正解候補(M)同士 Io (重なり度合い)を計算 
 ○ 4. 重複したバウンディングボックス 削除:計算したIo が閾値以上であるかを判定 
 ○ 5. Io が閾値未満 結果を別 クラス 予測候補として活用 
 NM (Non-Maximum uppression)って何? 
 1
 2
 3
 4
 5
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

Slide 9

Slide 9 text

DFL(Distribution Focal Loss)って何? 
 ● DFL:従来 バウンディングボックス座標or中心座標 予測と異なり、確率分布として予測する位置座標 回帰を高精度化する仕組み。 
 
 d4r6j et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 ←点 回帰
 ←点 周辺 確率 が高くなるように回 帰


Slide 10

Slide 10 text

OLO26 概要:「推論を単純化」し「学習で改善」という設計思想 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 推論過程 変更部分 
 学習過程 変更部分 


Slide 11

Slide 11 text

NM を取り除くモチベーションについて 
 ● NM 現場にデプロイする際にパラメータチューニングが必要 
 ○ NM を取り除くために論文で 直接回帰ヘッドを用いて予測 
 ○ 予測1つに対して1つ バウンディングボックスを割り当てる方式で学習 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

Slide 12

Slide 12 text

AL( mall- arget-Aware Label Assignment) 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 従来手法(Io ベース 割り当て) 
 Io が低いため小物体が無視される 
 AL
 サイズ情報に基づき重み付けを行い 
 優先的にラベルを割り当て 
 物体が小さいとラベル 割り当てがうまくいかない 
 「小物体へ ラベル割当て」を変更し小物体を学習しやすくする 
 物体が小さいとラベル 割り当てがうまくいかない 


Slide 13

Slide 13 text

DFLを取り除くモチベーションについて 
 ● DFL で、バウンディングボックス 座標を「1つ 数値」で なく「確率分布」として予測 
 ○ 確率分布を積分(また 加重平均)して座標値に戻す処理を推論時に行う 
 ● 上記 処理 特定 演算操作を必要とし計算機によって 動かない原因になる 
 ○ ONN 、 ensor 、CoreML、 FLiteなど 異なる形式へ変換(エクスポート)する際、演算子が対応してい なかったり、特殊なプラグインが必要になるケースが発生する 
 ● OLO26で 、DFLを取り除き、こ 計算を単純化。 
 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 特徴マップ
 分布予測
 softmax演算
 期待値計算
 バウンディング ボックス
 バウンディング ボックス
 特徴マップ
 位置 回帰
 単純化


Slide 14

Slide 14 text

ProgLossについて:「学習 後半で簡単な例に支配される問題」を抑える 
 ● ProgLoss(Progressive Loss Balancing) 、学習 進行状況(エポック数や収束具合)に応じて、異な る損失コンポーネント 「重み付け」を動的に変化させる仕組み 
 ● 具体的な数式 論文中に記載されてない で概念的なイメージを共有 
 
 
 ● 動的な重み係数(Dynamic eighting) 
 ○ 「学習 後半において、簡単なサンプルが損失全体を支配してしまう を防ぐ」ために適応的に 再重み付けを実施することで、学習 後半 難しいサンプルへ 学習 
 ● 残り 、物体 位置 回帰(L_box)・物体 クラス分類(L_cls) 損失 
 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

Slide 15

Slide 15 text

Mu GDについて:「 GD 汎化」・「より安定に く収束」最適化を目指す 
 ● Mu GD: GDにMuon系 最適化を良い所取りした手法 
 ○ GD(確率的勾配降下法) 役割 
 ■ 汎化性能 担保: GD 長年 OLOシリーズを含む画像認識モデルで使用されてきた標 準的な手法で、未知 データに対する適応力(汎化)が高いことが知られている 
 ○ Muon(Momentum/Curvature) 役割 
 ■ 収束 さと安定性を担保:Muon 大規模言語モデル トレーニング用に提案された手 法
 ■ パラメータ 曲率(curvature)やモーメンタム(勢い)を考慮した適応的な挙動を持ち、複雑 な損失関数 「谷」を効率よく下ることが可能に 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 「 GD 汎化」・「より安定に く収束」 良いとこ取りをした最適化手法


Slide 16

Slide 16 text

実験設定
 ● 評価タスク:検出/インスタンスセグメンテーション/分類/pose/回転BBoxを、同系列モデルで横並び 評価
 ● 主要ベンチ:COCO(検出/セグメ/pose)、ImageNet(分類)、DO A v1(回転BBox) 
 ● ランタイム:CP ONN 、GP N IDIA 4 + ensor FP16を中心に 度を報告 
 (e2e指標も併記)
 ● モデル 表記について 説明
 ○ OLO26n = nano(最小)
 ○ OLO26s = small
 ○ OLO26m = medium
 ○ OLO26l = large
 ○ OLO26x = extra-large(最大)
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

Slide 17

Slide 17 text

● 下記に物体検出とインスタンスセグメンテーション 結果を示す
 ○ モデルサイズが異なる結果を異なる指標で評価(e2eがNM free 結果)
 ● NM -freeにしても精度低下が小さい(と書いてあった。) 
 ○ 物体検出: OLO26nでe2e mAP 40.1(-0.8低下)、 OLO26xで56.9(-0.6低下)
 ○ セグメンテーション: OLO26nでe2e mAP 結果33.9(-5.7低下)、 OLO26xで47.0(-0.6低下)
 ● モデルサイズを大きくしても性能が改善 
 ○ 物体検出:e2e n-seg vs x-segで16.8精度が向上
 ○ mAPmask n-seg vs x-segで13.1精度が向上(33.9→47.0)
 
 ベンチマーク:物体検出&インスタンスセグメンテーション 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

Slide 18

Slide 18 text

● NM -freeにしても精度低下が小さい(と書いてあった。) 
 ○ e2e有り無し 比較
 物体検出: OLO26nで mAP -0.8低下、 OLO26xで -0.6低下
 ○ セグメンテーション: OLO26nで mAP -5.7低下、 OLO26xで -0.6低下
 ● モデルサイズを大きくしても性能が改善 
 ○ モデルサイズ 比較
 ○ 物体検出:e2e n-seg vs x-segだと、16.8精度が向上
 ○ mAPmask n-seg vs x-segだと、13.1精度が向上
 
 ベンチマーク:物体検出&インスタンスセグメンテーション 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

Slide 19

Slide 19 text

ベンチマーク:画像分類&ポーズ推定 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 画像分類
 ポーズ推定
 モデル サイズ大きくすると精度向上 


Slide 20

Slide 20 text

ベンチマーク:回転バウンディングボックス(データセットDO A) 
 ● モデルサイズを大きくすると精度が改善 
 ● NM -free 設計を回転検出にも拡張し、航空画像・リモセン用途に適すると述べる 
 ● 小物体( AL)×回転BBox(DO A) 組 、船舶・車両・建 物など“細長い/斜め” 検出で効き筋 がある
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 回転バウンディングボックス 回帰でもモデルサイズに応じて精度向上を確認