【論文紹介】DINOv2: Seeing Without Supervision

preencoded.png DINOv2: Learning Robust Visual Features without Supervision

研究背景と動機自然言語処理の分野の進展 GPTやBERTやLLaMaなどの大規模言語モデルが、事前学習により汎用的な特徴を獲得し下流タスクで優れた性能を発揮している従来手法の課題特定の小規模なキュレートデータセット(ImageNet-1k)に依存している →未キュレートデータの使用は制度の低下に繋がるため画像分野での「基盤モデル」の実現が期待されている CLIPなどの画像-テキスト対応学習型の事前学習手法は、キャプションが画像の豊かな情報を十分に表現できないという制約
ViT-gのような巨大モデルは高精度ですが、推論コストやデプロイの観点で非常に重い小規模なモデルでも同様に高性能化させる方法が求められている ③大規模モデルの高コスト問題 ②テキスト依存の限界 ①小規模データの依存

提案手法 (従来手法①への対策) 1️⃣ Embedding 未キュレート画像を埋め込み空間に変換（類似性計算の準備） 2️⃣ Deduplication Copy Detection Pipelineを用いて類似画像・重複画像を削除
1️⃣ 2️⃣ 3️⃣ ImageNet-22k、Google Landmarks 1億4200万枚の高品質データセット LVD-142M 公開ウェブクロールデータから12億枚の画像を収集 3️⃣ Retrieval & Merging キュレート済みデータと照合し、重複を除いた多様なデータのみを再構成 → 「Augmented Curated Dataset」へ統合 Deduplication & Retrieval

preencoded.png 提案手法 (従来手法②③への対策) DINOv2は、簡単に言うと「よりロバスト（頑健）な視覚特徴を学習できるようにしたモデル」基盤アーキテクチャ最大11億パラメータを持つ大規模Vision Transformer (ViT-g) を基盤モデルとして採用。 ①複合損失関数
• DINOロス（画像レベルの自己蒸留） • iBOTロス（パッチレベルのマスク予測） • Sinkhorn-Knopp正規化（SwAV由来） • KoLeo正則化（特徴空間の均一化促進） ②学習効率の最適化 • 独自FlashAttention実装による高速化 • Sequence packingによるメモリ効率化 • FSDP + Mixed precisionによる分散並列学習 ③多段階学習戦略 224解像度での長期学習後、518解像度で短期間微調整。小規模モデルは、大規模ViT-gモデルからの知識蒸留によって学習されます。

preencoded.png 提案手法 DINOv2は、簡単に言うと「よりロバスト（頑健）な視覚特徴を学習できるようにしたモデル」基盤アーキテクチャ最大11億パラメータを持つ大規模Vision Transformer (ViT-g) を基盤モデルとして採用。 ①複合損失関数 •
DINOロス（画像レベルの自己蒸留） • iBOTロス（パッチレベルのマスク予測） • Sinkhorn-Knopp正規化（SwAV由来） • KoLeo正則化（特徴空間の均一化促進） ②学習効率の最適化 • 独自FlashAttention実装による高速化 • Sequence packingによるメモリ効率化 • FSDP + Mixed precisionによる分散並列学習 ③多段階学習戦略 224解像度での長期学習後、518解像度で短期間微調整。小規模モデルは、大規模ViT-gモデルからの知識蒸留によって学習されます。

DINO（Self-Distillation with No Labels）は、Meta AI Researchによって提案された、ラベルを使わずに視覚特徴を学習するための自己蒸留手法大量の未分類データから、多様な下流タスクに適用可能な、堅牢で汎用的な視覚特徴表現を学習することを目的としています。ラベル不要な蒸留一般的な蒸留プロセスが大規模な教師モデルの知識を小さな生徒モデルへラベル付きデータを用いて転移するのに対し、 DINOでは教師モデルも生徒モデルもラベルを必要としません。
DINOロス（画像レベルの自己蒸留）

DINOロス（画像レベルの自己蒸留） ①データ拡張 Global crop Local crop 𝒙 𝟐 𝒈 𝒙
𝟏 𝒈 𝒙𝟏 𝒍 𝒙𝟐 𝒍 𝒙𝟑 𝒍 𝒙𝒏 𝒍 … 面積が50%以上面積が50%未満 1枚の入力画像から、面積が50%以上の「Global crop」を2つ、50%未満の「Local crop」を複数生成します。

②モデルへの入力生徒モデルには全てのGlobal/Local cropを入力し、教師モデルにはGlobal cropのみを入力して処理させます。生徒モデル (小規模なモデル) 教師モデル (大規模な事前学習モデル) DINOロス（画像レベルの自己蒸留）

③各モデルの出力モデルの出力が単一のベクトルに集中してしまう「崩壊」という現象が起きやすいという課題があります。 DINOはこの問題に対し、「Sharpening」と「Centering」で安定した学習を実現しています。 Centering（平均化によるバランス調整）教師モデルの出力の偏りを抑え、予測が一様な分布に集中するのを防ぐ手法です。これは、教師出力から移動平均ベクトル c を差し引くことで実現されます。 •
教師出力の調整: 教師モデルの出力から、過去の出力の移動平均である c を減算します。 • 効果: これにより、モデルが常に特定のクラスを予測するような極端な偏りを防ぎ、学習の安定性を高めます。 Before After DINOロス（画像レベルの自己蒸留）

③各モデルの出力モデルの出力が単一のベクトルに集中してしまう「崩壊」という現象が起きやすいという課題があります。 DINOはこの問題に対し、「Sharpening」と「Centering」で安定した学習を実現しています。 Sharpening（出力を鋭くする） Softmax関数に温度パラメータ 𝜏 を導入することで分布の鋭さを制御する手法生徒モデル (Student):
低い温度 𝜏 を適用し、より明確な予測を促します。教師モデル (Teacher): 生徒モデルとは異なる温度 𝜏 を適用し、安定したターゲットを提供します。比較的「なだらか」な分布（𝜏𝑡 大きめ）より「鋭い」分布（𝜏𝑠 小さめ） DINOロス（画像レベルの自己蒸留）

④学習タスク生徒モデルのLocal cropからの出力が、教師モデルのGlobal cropからの出力と一致するように学習を進めます。 →画像の一部と全体の関係性を強制的に学習します。教師分布 𝒑𝒕 を「正解ラベル」とみなし、生徒分布 𝒑𝒔
がそれに近づくよう最適化する DINOロス（画像レベルの自己蒸留）クロスエントロピー損失

⑤教師モデルの更新教師モデルは静的ではなく、生徒モデルのパラメータの指数移動平均（EMA）によって動的に更新され、学習の安定性と性能向上に貢献します。確率的勾配降下法 DINOロス（画像レベルの自己蒸留）

iBOTロス（パッチレベルのマスク予測） iBOT（Image BERT Pre-Training with Online Tokenizer）は、DINOの自己蒸留を発展させ、Vision Transformer (ViT) のパッチ表現に焦点を当て
た自己教師あり学習手法です。

生徒モデルパッチ分割＋マスク化教師モデルパッチ分割のみ ①データ拡張とモデルへの入力 iBOTロス（パッチレベルのマスク予測）

生徒モデル教師モデル • 生徒モデルのLocalCropからの出力が、教師モデルのGlobalCropからの出力と一致するように学習 → DINO loss (分類的) • 生徒のマスクされたパッチ出力
が、教師の対応パッチ出力に近づくよう学習 → iBOT loss (MIM的)= local-to-local蒸留 ②学習タスク iBOTロス（パッチレベルのマスク予測）画像全体レベルパッチ単位レベル EMA

Sinkhorn-Knopp正規化 DINOやiBOTのような自己教師あり学習では、モデルの出力分布が特定のクラスに集中したり、逆に一様化したりする「モデル崩壊」が課題となります。 Sinkhorn-Knopp Centeringは、この問題を解決し、学習の安定性を飛躍的に向上させる技術です。正規化 Centering 目的：出力の平均をゼロに近づける範囲：各バッチ単位効果：局所的な偏りを抑制目的：出力分布をクラス間で均等化
範囲：全データ分布単位効果：全クラスのバランスを確保 Sinkhorn-Knopp Centering

KoLeo正則化モデルが特徴ベクトルをうまく学習できたとしても、その分布が特定の領域に密集してしまう（collapseする）という問題があります。 KoLeo正則化（Kozachenko-Leonenko Regularization）は、特徴空間におけるデータポイントの分布を最適化し、モデルの汎化性能を向上させるために導入 →損失が小さくなるようにモデルは自然と「特徴点同士を離す」方向に学習

自己注意（Self-Attention）は、強力な表現能力を持つ反面、計算コストとメモリ消費が大きいという課題があります。 DINOv2では、この問題を解決するため、大規模なVision Transformer（ViT）の学習効率を飛躍的に向上させる独自のFlashAttentionを導入モデル名次元数ヘッド数パラメータ数既存ViT-g 1408次元 16ヘッド
(88 dim/head) 約11億 (1.1B) DINOv2 ViT-g 1536次元 24ヘッド (64 dim/head) 約11億 (1.1B) ViT-gアーキテクチャの調整約11億パラメータを持つViT-gモデルにおいて精度を損なうことなく速度とメモリ効率が大幅に改善！！ GPUは行列計算が得意ですが、サイズが「きれいな数字（64や256の倍数）」だと特に速く動きます。 FlashAttentionは、この性質を利用して「1ヘッドのサイズ」と「全体のサイズ」を調整すると効率が良くなる仕組みです。学習効率の最適化 ①高速・省メモリなアテンション

②Sequence Packing 学習効率の最適化 forward/backward計算を2回実行 GPU計算資源が二重に使われる Block-diagonal attention mask （ブロック対角型マスク） forward/backward計算を1回実行
計算効率が大幅に向上!! 計算結果は個別処理と同等

学習効率の最適化 ③Efficient Stochastic Depth Residual Blocks Stochastic Depth 計算計算
計算計算計算計算 Skipped Efficient Stochastic Depth Skipped Skipped Residual Blocks 計算計算計算 Skipped Group A Group B 計算自体

学習効率の最適化 ④Fully-Sharded Data Parallel (FSDP) 巨大なモデルをGPU間で分割して効率的に学習する仕組み Getting Started with Fully
Sharded Data Parallel (FSDP2) — PyTorch Tutorials 2.9.0+cu128 documentation

学習効率の最適化 ④Fully-Sharded Data Parallel (FSDP) 提案される解決策 • FSDPは、モデルの複製を複数のGPUに分割して配置します。 • 各GPUはモデルの重みの一部（シャード）をfloat32で保持し、勾配の通信はfloat16で集約することで、通信コストを約50%削減します。
効果 • 複数のGPUのメモリを合算して利用できるため、巨大なモデルの学習が可能になります。 • 通信コストの大幅な削減は、DDP（データ並列）とautocastを組み合わせた従来の手法よりも効率的です。 • これにより、大規模な分散学習が安定し、スケーラビリティが向上します。

多段階学習戦略：解像度適応課題低解像度：小さな物体や細部の情報は失われがち高解像度：時間とメモリのコストが非常に大きい効果学習リソースを抑えつつ、高精細な視覚表現を獲得することが可能になります。学習初期学習後期低解像度高解像度
グローバルな特徴モデルが大まかな構造や配置を把握ローカルな特徴微細な特徴を捉える

実験結果：ImageNet分類性能キュレーションされたデータセット特徴量の質を測る指標特徴の線形分離性を測る指標実世界のデータや追加ベンチマークでの精度 384次元 768次元 1024次元 1536次元

実験結果：画像分類/動画分類 205種類のシーンカテゴリ（例：キッチン、図書館、ビーチなど）動植物の種分類 iNat2018：8,142種、約43万枚のトレーニング画像 iNat2021：10,000種・270万枚以上のトレーニング画像 400種類のアクション 10秒クリップ 101種類のアクション背景
やカメラの動きが多様約22万本の動画人間と物体のインタラクション

実験結果：12種類の細分類ベンチマーク食品画像の分類テクスチャや複雑な物体認識 196種類の車種（メーカー・モデル・年式） 100種類の航空機 20カテゴリの物体（人/自転車/犬/車など） 101カテゴリ＋背景カテゴリの画像
200種類の鳥の品種に分類された 11,788枚の画像 397種類のシーン（例：教室、ビーチ、図書館など）

実験結果：インスタンス認識

実験結果：セグメンテーションと深度推定車載カメラとLiDARを使って取得された現実世界の運転シーンシーンカテゴリ、物体の向き、部屋のレイアウトなど 10,000枚以上のRGB-D画像 Microsoft Kinectで取得されたRGB画像と深度画像のペ
アデータセット 25,000枚以上のシーン中心画像に、150以上のカテゴリ（人、車、壁、床など）で詳細なアノテーションが付いたデータセット

実験結果：画像パッチに対して主成分分析（PCA）を適用

実験結果：異なる画像間でのパッチレベル特徴マッチング

preencoded.png まとめ単に高精度を追うのではなく、 “効率よく・転用可能な学習”という新しい方向性が見えた • 多様な下流タスク（画像・動画分類、インスタンス認識）で高い評価結果を達成 • 自己教師あり学習の進化により、教師なしでも強力な表現力を獲得 • 単なる精度向上ではなく、「リソース効率化」や「スケーラビリティ」を重視
• 実装・運用両面で汎用性が高く、転移学習に優れた設計

補足資料

公平性とバイアス分析 25.7% 地域間性能差 Dollar Streetデータセットでの評価では、アフリカとヨーロッパ間で25.7%の性能差が観測されました。西欧諸国への偏りが依然として存在します。 31.7% 所得層間格差
高所得世帯と低所得世帯間で31.7%の性能差があり、経済格差に基づくバイアスが確認されています。 0% 有害ラベル性別、肌色、年齢グループでの評価では、非人間的または犯罪的なラベルの予測はほぼゼロでした。 Casual Conversationsデータセットを用いた分析では、性別や肌色による明確な偏見パターンは観察されませんでした。しかし、男性に対して「 Possibly-Human」クラス（髭、眼鏡など）の予測頻度が高い傾向が見られます。全体として、SEERv2と比較して公平性の面で改善が見られるものの、地理的・経済的格差への対応は今後の課題です。

環境影響と今後の展望環境負荷の評価 DINOv2-gの再学習には22,016 GPU時間が必要で、推定3.7トンのCO2排出量となります。これは、OpenCLIP ViT-Lの10分の1の排出量であり、テキストエンコーダーを必要としない自己教師あり学習の環境面での優位性を示しています。プロジェクト全体では500-1000トンのCO2排出量と推定され、これは約20万 GPU日に相当します。主な排出源は大規模モデルの事前学習であり、ファイ
ンチューニングの排出量は比較的少量です。今後の研究方向より大規模なモデルとデータでのスケーリングにより、大規模言語モデルで見られるような創発的特性の出現が期待されます。また、これらの視覚特徴を言語トークンのように処理できるマルチモーダルAIシステムの開発も計画されています。線形分類器で十分な性能が得られることから、特徴が「すぐに利用可能」な形で情報を保持していることが示されており、これは実用的な応用において重要な利点となります。 DINOv2は、自己教師あり学習が弱教師あり学習と競合する性能を達成できることを初めて実証した研究です。ファインチューニングが不要で、様々なタスクで即座に利用可能な汎用視覚特徴の実現により、コンピュータビジョン分野における新たなパラダイムを確立しています。

多様な下流タスクでの評価結果画像分類 iNaturalist 2018/2021では、OpenCLIPを 8.6%/9.7%上回る性能を達成。細粒度分類タスクでも優れた結果を示し、12の転移学習ベンチマークで平均92.1%の精度を記録しました。動画認識動画で学習していないにも関わらず、 UCF-101、Kinetics-400、Something-
Something v2で優秀な性能を発揮。特にSSv2では、OpenCLIPを2.5%上回る結果を達成しています。インスタンス認識 Oxford-Hardで41%のmAP向上を実現。ランドマーク認識、芸術作品検索、街並み画像マッチングなど、様々な検索タスクで最先端性能を達成しました。セマンティックセグメンテーション ADE20k、CityScapes、Pascal VOCでの評価では、線形分類器のみでMAE の完全ファインチューニングと同等の性能を実現。特に、ViT-Adapter と組み合わせた場合、ADE20kで60.2 mIoUを達成し、最先端に近い結果を得ています。深度推定 NYUd、KITTI、SUN RGB-Dでの評価で、自己教師あり・弱教師ありモデルを大幅に上回る性能を示しました。特に、ドメイン間転移（ NYUd→SUN RGB-D）でも優れた汎化性能を発揮しています。

preencoded.png 定性的分析と特徴可視化 PCA成分分析パッチ特徴のPCA分析により、第1成分が前景・背景分離を、他の成分がオブジェクトの部位に対応することが判明しました。これは教師なし学習にも関わらず、意味的な部位解析が自然に学習されていることを示しています。パッチマッチング
異なる画像間でのパッチレベル特徴マッチングでは、飛行機の翼と鳥の翼、象の異なるポーズでの対応部位など、意味的に類似した領域が正確にマッチングされることが確認されました。ドメイン外汎化動物の写真や絵画など、学習データにない分布の画像に対しても、深度推定やセグメンテーションが高品質で実行されます。これは、学習された特徴が真にドメイン不変であることを示しています。線形分離可能性複雑な深度情報やセグメンテーション情報が線形分類器で分離可能であることは、特徴空間での情報の整理された表現を示唆しています。

【論文紹介】DINOv2: Seeing Without Supervision

【論文紹介】DINOv2: Seeing Without Supervision

yuyu4Tech

More Decks by yuyu4Tech

Other Decks in Technology

Featured

Transcript

preencoded.png DINOv2: Learning Robust Visual Features without Supervision

提案手法 (従来手法①への対策) 1️⃣ Embedding 未キュレート画像を埋め込み空間に変換（類似性計算の準備） 2️⃣ Deduplication Copy Detection Pipelineを用いて類似画像・重複画像を削除

DINOロス（画像レベルの自己蒸留） ①データ拡張 Global crop Local crop 𝒙 𝟐 𝒈 𝒙

②モデルへの入力生徒モデルには全てのGlobal/Local cropを入力し、教師モデルにはGlobal cropのみを入力して処理させます。生徒モデル (小規模なモデル) 教師モデル (大規模な事前学習モデル) DINOロス（画像レベルの自己蒸留）

⑤教師モデルの更新教師モデルは静的ではなく、生徒モデルのパラメータの指数移動平均（EMA）によって動的に更新され、学習の安定性と性能向上に貢献します。確率的勾配降下法 DINOロス（画像レベルの自己蒸留）

iBOTロス（パッチレベルのマスク予測） iBOT（Image BERT Pre-Training with Online Tokenizer）は、DINOの自己蒸留を発展させ、Vision Transformer (ViT) のパッチ表現に焦点を当て

生徒モデルパッチ分割＋マスク化教師モデルパッチ分割のみ ①データ拡張とモデルへの入力 iBOTロス（パッチレベルのマスク予測）

生徒モデル教師モデル • 生徒モデルのLocalCropからの出力が、教師モデルのGlobalCropからの出力と一致するように学習 → DINO loss (分類的) • 生徒のマスクされたパッチ出力

②Sequence Packing 学習効率の最適化 forward/backward計算を2回実行 GPU計算資源が二重に使われる Block-diagonal attention mask （ブロック対角型マスク） forward/backward計算を1回実行

学習効率の最適化 ③Efficient Stochastic Depth Residual Blocks Stochastic Depth 計算計算

学習効率の最適化 ④Fully-Sharded Data Parallel (FSDP) 巨大なモデルをGPU間で分割して効率的に学習する仕組み Getting Started with Fully

実験結果：ImageNet分類性能キュレーションされたデータセット特徴量の質を測る指標特徴の線形分離性を測る指標実世界のデータや追加ベンチマークでの精度 384次元 768次元 1024次元 1536次元

実験結果：12種類の細分類ベンチマーク食品画像の分類テクスチャや複雑な物体認識 196種類の車種（メーカー・モデル・年式） 100種類の航空機 20カテゴリの物体（人/自転車/犬/車など） 101カテゴリ＋背景カテゴリの画像

実験結果：インスタンス認識

実験結果：画像パッチに対して主成分分析（PCA）を適用

実験結果：異なる画像間でのパッチレベル特徴マッチング

補足資料

公平性とバイアス分析 25.7% 地域間性能差 Dollar Streetデータセットでの評価では、アフリカとヨーロッパ間で25.7%の性能差が観測されました。西欧諸国への偏りが依然として存在します。 31.7% 所得層間格差