Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SOTA競争から人間を超える画像認識へ

 SOTA競争から人間を超える画像認識へ

GPU UNITE 2025(2025/10/15開催)講演資料。
概要:ImageNetやCOCOなどのベンチマークは、精度競争を促すことで画像認識技術の発展を推進してきました。また、DNNの実用化が進むにつれ、推論速度・訓練エポック数などの推論効率・訓練効率を考慮した競争が行われてきました。本講演では、特に物体検出における技術開発競争の歴史を振り返るとともに、今後重要になる人間を超える画像認識について議論します。

Avatar for Yosuke Shinya

Yosuke Shinya

October 28, 2025
Tweet

More Decks by Yosuke Shinya

Other Decks in Technology

Transcript

  1. 自己紹介 進矢 陽介 ピンエーアイテクノロジー (旧:センスタイムジャパン) シニアリサーチャー コンピュータビジョンの研究開発に従事 • 画像認識 •

    物体検出 • 最近:オートフォーカス用物体追跡 • 画像生成、CG、AR • 最近:画像編集 OpenMMLabのcontributor 特にMMDetection 『コンピュータビジョン最前線 Summer 2025』 「イマドキノ物体検出」の執筆を担当
  2. タスク紹介:画像分類・物体検出 画像分類 画像全体に対するカテゴリを出力する 入力解像度の例:224×224 [Tsung-Yi Lin+, ECCV 2014] 物体検出 各物体のカテゴリ・範囲を出力する

    典型的には範囲を矩形で表す 入力解像度の例:1333×800 高解像度が位置推定や小物体検出に有利 計算効率が重視されやすい
  3. 停滞している? ベンチマークの問題 • 10年以上前から使われており、伸び代が小さい • デファクトスタンダードすぎて、ベンチマークの世代交代が起きなかった データセットの問題 • 量が小さい •

    アノテーション品質が高くない 人的リソース・計算リソースの配分の問題 • 言語モデル・マルチモーダルモデルに移行 • より発展的なCVタスクに移行 • 実用化・社会実装に移行
  4. 高速化に関する主要な物体検出手法の推移 • R-CNN等 画像 → 候補領域生成 → カテゴリ分類・位置推定 → 重複除去

    → 検出結果 • YOLO等 画像 → カテゴリ分類・位置推定 → 重複除去 → 検出結果 • DETR等 画像 → カテゴリ分類・位置推定 → 検出結果 全体処理を単純化し高速化してきた ただし、精度が低下する場合がある カテゴリ分類・位置推定を担うDNNも設計次第 速度・精度を合わせて考慮して、手法・設計を決める必要がある
  5. 速度・精度トレードオフ改善方法 精度を犠牲にして速度向上 • 入力解像度縮小 • 層数・チャンネル数削減 • 枝刈り・量子化・低ランク近似等 • 知識蒸留(教師モデルから見た場合)

    (精度劣化) • バグ 速度を犠牲にして精度向上 • 入力解像度拡大 • 層数・チャンネル数増加 • TTA(推論時データ増幅) • アンサンブル 速度向上 • ハードウェアに合わせた 実装・演算・ライブラリ 精度向上 • データ改良(収集・増幅・生成・品質向上) • ロス改良 • 長期訓練 • 知識蒸留(生徒モデルから見た場合) 精度・速度の改良・調整 • 手法改良 • ネットワーク設計改良 • ハイパラ調整
  6. 物体検出とスケーリング則 EfficientDetは以下を大きくして精度を向上させている • モデルサイズ • データセットサイズ • 訓練の計算量 • 入力解像度(訓練・推論の計算量に影響)

    その後流行したスケーリング則との差異: • ロスとの関係式を気にしない • データセットサイズ増加はデータ増幅による 言語データや画像全体に対するアノテーションと異なり、 Webから実データを大量入手できない
  7. 長期訓練の問題 開発効率の課題 • 訓練に時間がかかる • 試行錯誤数が減る → 大規模分散深層学習や収束高速化の技術が発展 • ImageNet訓練時間競争(2017年~)

    • 目標精度に到達する訓練時間を競うベンチマーク(DAWNBench、MLPerf Training Benchmark) 費用・環境・倫理面の課題 • 費用がかかる(GPU料金、電気代、…) • CO 2 排出量が多く環境に悪い • 一部の組織でないと研究できない • 科学の発展を阻害する “buying stronger results” Green AI [Roy Schwartz+, Communications of the ACM 2020] 訓練効率も重要
  8. DETRの訓練エポック数競争 Deformable DETR [Xizhou Zhu+, ICLR 2021] • DETRは収束が遅い •

    注意機構・クエリ等の分析・改良により収束高速化
  9. DETRの訓練エポック数競争 • DETRは収束が遅い • 注意機構・クエリ等の分析・改良により収束高速化 arXiv 手法 DETR同等APに到達するエポック数 2020/5 DETR

    [Nicolas Carion+, ECCV 2020] 500 2020/10 Deformable DETR [Xizhou Zhu+, ICLR 2021] 50 2022/3 DINO [Hao Zhang+, ICLR 2023] 8 DINO [Hao Zhang+, ICLR 2023]
  10. 訓練効率改善方法:事前学習 • 物体検出事前学習 • COCO • Objects365 • 画像分類事前学習 •

    ImageNet • 生成画像 • 自己教師あり学習事前学習 • DINOv3 計算量の大きな事前学習により、全体としての訓練効率を上げるという意味では、 ImageNet学習済みモデルも基盤モデルも同じ Objects365 [Shuai Shao+, ICCV 2019]
  11. 訓練効率改善方法:その他 • 人間の知識の活用 • オープン語彙物体検出 検出対象が変わるごとに別モデルを訓練する必要が無い • オープンワールド物体検出・継続学習 • データプルーニング

    • GPU使用率向上の各種テクニック • アスペクト比分類 (aspect grouping, aspect ratio bucketing) ミニバッチ内にアスペクト比の近い画像が選ばれるようにする 応用:物体検出(2015年?~)、画像生成(2022年?~)
  12. 人間を超える画像認識:注目分野 新センサー • 人間を超えるセンシング(空間・時間・スペクトル) SSII 2025 OS2 https://speakerdeck.com/ssii 電脳・人間拡張 •

    脳・計算機・眼・センサーを連携させる • 人間が機械に代替されないためにも必要 人間と機械が共生していく 文化・娯楽 • 「自動化して終わり」ではない