最新の物体検出モデルに関するサーベイ　A Survey of the Latest Object Detection Models

最新の物体検出モデルに関するサーベイ株式会社ニューロジカ開発部佐藤太陽最新の物体検出モデルに関するサーベイ

1. はじめに：物体検出とは 2. YOLO ・YOLO26（2026）・YOLO-World（2024） 3. DETR ・RT-DETRv4（2025） 4.
SAM ・SAM3（2025） 5. まとめアジェンダアジェンダはじめに YOLO DETR SAM まとめ @Neurogica Inc.

物体検出とは？アジェンダはじめに YOLO DETR SAM まとめ Microsoft coco: Common
objects in context (ECCV 2014) https://arxiv.org/abs/1405.0312 person sheep dog person sheep background dog 1. 画像分類（Image Classiﬁcation）画像全体を分析し、「何が写っているか」を特定。出⼒：クラス名（⼈、⽺など） 2. 物体検出（Object Detection）画像内の特定の物体の「位置」と「種類」を特定。出⼒：四⾓い枠とクラス名 3. セグメンテーション（Segmentation）画像をピクセル単位で分類し、物体の「形状」を特定。出⼒：マスク画像物体検出の活⽤例：⾃動運転、製造業での異常検知、医⽤画像診断など @Neurogica Inc.

v1 (CVPR2016) YOLOの歴史 YOLO ( You Look Only Once )：画像全体を⼀度の推論で処理し、物体の位置と
クラスの予測を同時に⾏うリアルタイム物体検出モデル 2015年 2016-20年 2023年 2024年 2026年 v2 (CVPR2017) ~ v5 v8 v10 (NeurIPS2024) 26 (最新モデル) ⾼速だが精度（特に⼩物体）に課題を残す黎明期アンカーボックス等の導⼊により実⽤レベルへ精度向上セグメンテーション等のマルチタスクに対応処理が重くなるNMS （後処理）の排除。効率化が主な焦点完全なEnd-to-End 推論。モバイル・エッジに向け最適化 YOLOは登場時からリアルタイム性を追求し、エッジでの⾼精度な物体検出を実現。 You Only Look Once: Uniﬁed, Real-Time Object Detection https://arxiv.org/abs/1506.02640 アジェンダはじめに YOLO DETR SAM まとめ @Neurogica Inc.

YOLO26 対応タスク物体検出、セグメンテーション、姿勢推定、OBB、画像分類学習・必要データ教師あり学習。実⽤には1クラスあたり100〜1,000 枚の画像データ（アノテーション済み）が必要。エッジデバイスでの運⽤可能性パラメータ数は2.4Mから55.7Mなので搭載可能。 CPUでの処理速度も⼗分速い。
YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection https://arxiv.org/abs/2509.25164 アジェンダはじめに YOLO DETR SAM まとめ https://www.youtube.com/watch?v=pJLXmhyuHzA @Neurogica Inc.

YOLO-World (CVPR2024) 対応タスクテキスト条件付きOpen-Vocabulary物体検出アジェンダはじめに YOLO DETR SAM まとめ
学習・必要データ膨⼤な視覚・⾔語ペアデータで事前学習済み。追加学習データなし（ゼロショット）で利⽤可能。エッジデバイスでの運⽤可能性パラメータ数は13Mから48Mなので搭載可能。 YOLO-World: Real-Time Open-Vocabulary Object Detection https://arxiv.org/abs/2401.17270 プロンプト条件なし検出とプロンプト条件あり検出 https://www.youtube.com/watch?v=sWEm3dIGKU8 @Neurogica Inc.

DETRの歴史アジェンダはじめに YOLO DETR SAM まとめ DETR (ECCV2020) DETR
( Detection TRansformer)：TransformerのAttention機構を利⽤して、画像全体の⽂脈を⼀度に把握する物体検出モデル 2020年 2021年 2023年 2024-26年 Deformable DETR (ICLR2021) DINO (ICLR2023) RT-DETR (CVPR2024) シリーズパラダイムシフトを起こすが学習（収束）に膨⼤な時間がかかった画像の⼀部のみに注⽬することで収束を速め、計算量・メモリ削減ノイズを活⽤した学習により検出精度向上。⾃⼰教師あり学習の DINOとは別物 DINOをベースに更に効率化。 YOLOに匹敵する速度を獲得 DETRは⾼精度だが速度が遅かった。その後の改良によりYOLOに匹敵する速度を獲得。 End-to-End Object Detection with Transformers https://arxiv.org/abs/2005.12872 @Neurogica Inc.

RT-DETRv4 アジェンダはじめに YOLO DETR SAM まとめ対応タスク物体検出（※内部で物体候補の分類は⾏うが、画像分類モデルとしては⽤いない。）
学習・必要データ教師あり学習。基盤モデルからの蒸留を活⽤するため、必要数は⽐較的少ない（具体的な枚数不明）。エッジデバイスでの運⽤可能性パラメータ数は10Mから62Mなので搭載可能。 CPUでの処理速度も⼗分速い。 RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models https://arxiv.org/abs/2510.25257 https://github.com/RT-DETRs/RT-DETRv4 @Neurogica Inc.

SAMの歴史アジェンダはじめに YOLO DETR SAM まとめ SAM1 (ICCV2023) SAM
( Segment Anything Model )：セグメンテーションに特化した、膨⼤な量のデータセットで学習された視覚基盤モデル 2023年 2024年 2025年 SAM2 SAM3 (ICLR2026) 1,100万枚以上の画像と11億以上のマスクのデータセットで学習。点や枠を与えるとその物体だけを切り抜く対象を動画へ拡張。⼀度プロンプトで指定した物体を⾼速にトラッキング可能テキストプロンプトで⾃由に全てを切り抜き可能 SAMはセグメンテーション分野に対して、プロンプト指⽰というパラダイムを導⼊。 End-to-End Object Detection with Transformers https://arxiv.org/abs/2005.12872 @Neurogica Inc.

SAM3 アジェンダはじめに YOLO DETR SAM まとめ対応タスク物体検出、Promptable Concept
セグメンテーション＆トラッキング学習・必要データ巨⼤なデータセットで事前学習済み。ゼロショットで利⽤可能。エッジデバイスでの運⽤可能性パラメータ数は848Mであり、⽐較的巨⼤であるため、エッジでの活⽤は難しい。 SAM 3: Segment Anything with Concepts https://arxiv.org/abs/2511.16719 https://www.youtube.com/watch?v=G4OLPDjwncw @Neurogica Inc.

まとめアジェンダはじめに YOLO DETR SAM まとめ評価項⽬ YOLO26 YOLO-World
RT-DETRv4 SAM3 物体検出 ◎ ◎ ◎ ◎ エッジ搭載しやすさ ◎ 〇 ◎ ✕ セグメンテーション ◎ ✕ ✕ ◎ 推論速度 ◎ 〇 ◎ △ Open-Vocabulary △ ◎ ✕ ◎ 動画対応〇〇〇 ◎ 追加学習のしやすさ ◎ 〇〇〇⾃動アノテーション⽤途 △ 〇 △ ◎ • ⾼精度を維持しつつ、軽量・⾼速化を⽬指す流れがある。 • エッジ⽤途であればYOLO26が現状本命といえる。 @Neurogica Inc.

最新の物体検出モデルに関するサーベイ　A Survey of the Latest Objec...

最新の物体検出モデルに関するサーベイ　A Survey of the Latest Object Detection Models

Neurogica

More Decks by Neurogica

Other Decks in Technology

Featured

Transcript

最新の物体検出モデルに関するサーベイ株式会社ニューロジカ開発部佐藤太陽最新の物体検出モデルに関するサーベイ

1. はじめに：物体検出とは 2. YOLO ・YOLO26（2026）・YOLO-World（2024） 3. DETR ・RT-DETRv4（2025） 4.

物体検出とは？アジェンダはじめに YOLO DETR SAM まとめ Microsoft coco: Common

v1 (CVPR2016) YOLOの歴史 YOLO ( You Look Only Once )：画像全体を⼀度の推論で処理し、物体の位置と

YOLO-World (CVPR2024) 対応タスクテキスト条件付きOpen-Vocabulary物体検出アジェンダはじめに YOLO DETR SAM まとめ

DETRの歴史アジェンダはじめに YOLO DETR SAM まとめ DETR (ECCV2020) DETR

RT-DETRv4 アジェンダはじめに YOLO DETR SAM まとめ対応タスク物体検出（※内部で物体候補の分類は⾏うが、画像分類モデルとしては⽤いない。）

SAMの歴史アジェンダはじめに YOLO DETR SAM まとめ SAM1 (ICCV2023) SAM

SAM3 アジェンダはじめに YOLO DETR SAM まとめ対応タスク物体検出、Promptable Concept

まとめアジェンダはじめに YOLO DETR SAM まとめ評価項⽬ YOLO26 YOLO-World

最新の物体検出モデルに関するサーベイ A Survey of the Latest Objec...

最新の物体検出モデルに関するサーベイ A Survey of the Latest Object Detection Models

More Decks by Neurogica

Other Decks in Technology

Featured

Transcript

最新の物体検出モデルに関するサーベイ　A Survey of the Latest Objec...

最新の物体検出モデルに関するサーベイ　A Survey of the Latest Object Detection Models