【論文紹介】DINOv3: Self-supervised Learning for Vision at Unprecedented Scale

preencoded.png META AI RESEARCH · ARXIV:2508.10104 · 2025年8月 DINOv3 S
e l f -s u p e r v i s e d U n p r e c e d e n t e d Siméoni, Vo et al. · Meta AI Research YUYU4TECH

preencoded.png 目次 / AGENDA 1 背景と課題 SSLの可能性とビジョン分野の遅れ 2 DINOシリーズの系譜 DINO
→ DINOv2 → DINOv3 のスケール 3 DINOv3の学習パイプライン（5段階） 4 ViT の学習進行による特徴表現の変化 5 6 性能比較各タスクのSoTA比較 7 実応用例まとめ

preencoded.png 背景と課題

preencoded.png 背景と課題 LLMと比較したビジョンの遅れ NLP / LLM テキストSSLによる大規模事前学習が成熟し、GPT・LLaMAなどの強力なモデルが誕生しています。 DINOv3の目標ラベル不要のSSLのみでビジョンのSoTAを達成することです。
Computer Vision 最強モデルはWebキャプションなどの弱教師あり学習に依存しており、純粋なSSLの限界が課題でした。 DINOv3が解決する3つの問い • 人間のアノテーションなしで強力な視覚表現を学べるか？ • 単一モデルで分類・検出・セグメンテーション・深度推定を同時に解けるか？ • SSLモデルがWeakly-supervisedモデルを超えられるか？ DINOv3は全てに YES と答えました。

preencoded.png DINOシリーズの系譜

preencoded.png DINOシリーズの系譜 2021年から2025年にかけて、DINOシリーズはパラメータ数・学習データ量ともに劇的なスケールアップを遂げてきました。 DINO (v1) · 2021 80M パラメータ 1M枚
学習データ Knowledge Distillation のみ DINOv2 · 2023 1.1B パラメータ 142M枚学習データ Registers 導入 DINOv3 · 2025 7B パラメータ 1.7B枚学習データ Gram Anchoring + RoPE + ConvNeXt ×6 モデルスケール DINOv1 → DINOv2 ×12 データスケール DINOv2 → DINOv3 ×6 モデルスケール DINOv2 → DINOv3

preencoded.png Architecture & Optimization Improvements (DINOv2→DINOv3) アーキテクチャ比較表 DINOv2 → DINOv3
の構造的変更点項目 DINOv2 DINOv3 変更の意図パッチサイズ 14px 16px トークン数削減（261→201）で計算効率向上最大モデル ViT-G（1.1B） ViT-7B（6.7B） SSL史上最大規模のViTへモデル種類 ViTのみ ViT + ConvNeXt エッジデバイス向け軽量モデルを追加 FFN種類 MLP MLP / SwiGLU 表現力の向上位置エンコーディング固定 / 学習式 RoPE（Rotary PE）任意解像度・アスペクト比への汎化 Dense劣化対策なし Gram Anchoring ✓ 長学習でのpatch特徴崩壊を根本解決テキスト統合 DINOv2.txt（別途） DINOv3.txt（統合）視覚・言語の一体化

preencoded.png DINOv3の学習パイプライン（5段階）

preencoded.png DINOv3 学習パイプライン（5段階） 1 Data Curation 高品質データセット構築 LVD-1689M画像の厳選・フィルタリングデータスケーリングだけでなく品質を重視 2
Pre-Training SSL大規模学習 LVD-1689M画像・ViT-7B（6.7B params）・1M iterations DINO + iBOT + Koleo損失を組み合わせ 3 Gram Anchoring Dense特徴修復 1M iter以降に適用・高解像度Gram teacher ADE20kで+2 mIoUを達成 4 高解像度適応 Resolution Scaling 追加10k iterations・512/768px mixed crops 4096pxまで対応可能 5 蒸留 Distillation ViT-S/B/L/H+ と ConvNeXt T/S/B/L 小型モデルへの知識伝達

preencoded.png ① Data Curation なぜデータ量だけでは不十分か？大規模基盤モデルは膨大なデータセットに依存しています。しかしデータ量を増やすだけでは性能は必ずしも向上しません。論文では、生の17億枚の画像プールから単純にランダムサンプリングすると、クラスタリングや検索ベースの手法と比べて分類・検索・セグメンテーションの全タスクで性能が下回ることを実験で示しています（Table
1）。 DINOv3のアプローチ：「汎化性能と下流タスク性能のバランス」 LVD-1689Mの3部構成データセット構築の戦略 Instagram公開投稿から収集した約170億枚を起点に、3つの方法を組み合わせてLVD-1689Mを構築： ① クラスタリングベース（多様性重視） DINOv2の特徴量で階層的k-meansクラスタリングを実施（5階層、最大クラスタ数200M）。バランスサンプリングにより、Web上に出現するあらゆる視覚概念を均等にカバー。 ② 検索ベース（下流タスク適合性重視） ImageNetなどのシード画像に類似した画像をプールから検索し収録。実用タスクに関連する視覚概念を強化。 ③ 公開CVデータセット（品質重視） ImageNet-1k・22k、Mapillaryなど既存の高品質データセットを直接混入。学習の安定性と性能の底上げに寄与。 → 各手法単独より3つの組み合わせが全ベンチマークで最良!! 学習中は各イテレーションで、ImageNet-1kのみの均質バッチ（10%）と3部混合の不均質バッチ（90%）をランダムに切り替えるサンプリング戦略を採用。

preencoded.png ② Pre-training Loss Functions L_DINO • グローバル表現学習（CLS token） •
セマンティック一貫性学習 L_iBOT • マスク付きパッチ潜在復元 • 密な局所特徴学習 L_DKoleo • 特徴空間の均一分布を促進 • 特徴崩壊を防止 Data & Training LVD-1689M 画像データセット ViT-7B 6.7Bパラメータ 1M iterations Multi-Scale 複数の画像サイズ・クロップ戦略 Key Improvements ✓ ADE20k +6.4 mIoU vs DINOv2 ✓ ImageNet k-NN 88.4% ✓ Dense Features 一貫性を維持

preencoded.png ③ Gram Anchoring ― なぜDense特徴は劣化するのか発見された問題分類精度は向上するが、Dense特徴は劣化する大規模な事前学習を長く続けると、Global特徴（分類精度）は継続的に改善します。
しかし、約200kイテレーション以降、patch特徴の空間的一貫性が低下し始め、セグメンテーションや深度推定といったDenseタスクの性能が損なわれることが確認されました。根本原因は、patchトークンとCLSトークンとの類似度が上昇し、ローカルな特徴の局所性が失われることにあります。これはレジスタトークンを導入しても解決されなかった既知の課題でした。 DINOv3では、ViT-7Bモデルが1Mイテレーション時点で、セグメンテーション性能が200kイテレーション時点を大幅に下回るという深刻な現象が観測されました。「特徴そのものでなく、特徴間の関係構造を固定する」この課題に対し、Gram Anchoringは「特徴ベクトル自体」ではなく「特徴間の関係構造」を固定するという画期的なアプローチを採用しました。 • 早期学習時点（約200kイテレーション時）のpatch特徴が持つGram行列（全てのpatchペアの内積行列）を「アンカー」として保存します。 • 学習中、現在のモデルのGram行列がこのアンカーから大きく乖離しないよう正則化を行います。この手法は特徴ベクトル自体には影響を与えないため、Global特徴の学習を一切妨げません。これが従来の手法との決定的な違いであり、密な特徴表現の劣化を防ぎながら、全体の表現能力向上を両立させます。アイディアの核心

preencoded.png ③ Gram Anchoring ― 特徴間の関係構造を固定する正則化 Gram行列に作用させることで、特徴の絶対的な向きは自由に動かしつつ、patch間の類似構造だけを保存し、Dense特徴の品質を維持します。

preencoded.png ③ Gram Anchoring ― 実装の詳細と効果 Gram Anchoring 損失関数 •
X_S：StudentモデルのL2正規化済みpatch特徴行列（P×d） • X_G：Gram teacherモデルのL2正規化済みpatch特徴行列（P×d）この損失関数は、学習開始から1Mイテレーション終了後に適用を開始します。遅れて適用しても、既に劣化したDense特徴を効果的に「修復」できることが確認されています。設計判断①：Gram teacherの選び方 100k〜200k時点のモデルをGram teacherとして使用します。 1Mイテレーション時点のモデルをteacherにすると、Dense特徴が既に劣化しているため効果が低下します。 Gram teacherは、その後10kイテレーションごとにEMA teacherと同期させながら更新されます。設計判断②：高解像度Gramの活用 Gram teacherには2倍解像度の画像をそのまま入力し、得られた特徴マップを bicubic補間により1/2にダウンサンプリングしたものをX_Gとして使用します。高解像度で得られる滑らかな特徴構造を低解像度の学習に蒸留することで、さらなる性能向上を実現しました。 Gram Anchoringによる性能向上手法 ADE20k mIoU NYUv2 RMSE ImageNet Linear Baseline (Gram Anchoring無し) 50.3 0.307 88.2 Lref (通常解像度) 53.6 0.285 88.0 LHRef (高解像度Gram) 55.7 0.281 88.0 • Dense特徴を大幅に改善しながら、分類精度への影響はほぼゼロに抑えられています。 • Gram Anchoring適用後、わずか10kイテレーション以内に顕著な効果が現れます。 Gram Anchoringにより、7Bモデルの長期学習で生じるDense特徴崩壊が初めて解決されました。これがDINOv3のスケールアップを実用的にした最大の技術的貢献です。損失関数と設計判断定量効果

preencoded.png 1024×1024px 入力画像に対する L_HRef 適用前後のコサイン類似度マップ行の見方 1行目: 元画像 2行目 (wo/):
L_HRef なし 3行目 (w/): L_HRef あり wo/ L_HRef（適用前）ノイジー・散漫なマップ物体の境界が不明瞎局所特徴依存のまま w/ L_HRef（適用後）物体の形状・輪郭を鈥く捕捉個々の物体が分離・圆看意味的に山質な領域に集中 ③ Gram Anchoring ― 効果

preencoded.png ④高解像度適応 (Resolution Scaling)

preencoded.png ポイントグループサイズを調整して全生徒の訓練時間を揃えることで、同期バリアでのアイドル時間を最小化し、 GPU効率を最大化する。 ⑤マルチスチューデント蒸留 (Multi-Student Distillation) ①
データロード: 全GPUが B/Nт サンプルを読み込む ② 教師モデル推論: 全GPUで推論を実行・共有 ③ All-gather: 推論結果を全GPUに集約 ④ 並列蒸留: S1〜S3を異なるGPU グループで同時訓練 ⑤ 同期バリア: 全グループの完了を待ち次へ Figure 12: マルチスチューデント蒸留の手順図

preencoded.png ⑤マルチスチューデント蒸留 (Multi-Student Distillation)

preencoded.png ViT の学習進行による特徴表現の変化

preencoded.png (a) CLSとパッチの類似度マップ (b)(c) ViT-g / ViT-7B の下流タスク性能推移 (a) アテンションの成熟
200k：全体が青くぼんやり 1M：被写体の輪郭を正確に捕えアテンションが鈥くなる (b)(c) 性能の推移 IN1k：単調に上昇・安定 VOC：中期に一時ディップ後 1Mで高性能に収束 ViT-7B が全体的に高スコア CLSトークンが「何を見るべきか」を学び、十分な学習で被写体を正確にフォーカスする CLSトークン類似度と下流タスク性能の推移

preencoded.png 赤点パッチと全パッチのコサイン類似度を学習段階別に可視化 200k（初期）赤点の直近のみ高類似度局所テクスチャに依存 400k～600k（中期）類似域が徐々に拡張遷移・変化の時期 800k～1M（後期）ノイジーだが広域を捉える
意味的文脈の獲得局所テクスチャの依存 → 意味的・構造的な広域理解へ特徴表現が成熟パッチ間コサイン類似度の変化

preencoded.png Figure 6：パッチ同士の類似度 • 赤点パッチを起点に類似域がどう広がるかを観察 • 初期：局所ピクセルのみ高類似度（テクスチャ依存） • 後期：広域にわたりノイジーに拡散 •
→ 局所特徴から意味的・文脈的特徴へ進化前の図：CLSトークンの類似度 • CLSトークンと各パッチの類似度を可視化 • 初期：ぼんやりした反応 • 後期：被写体の輪郭を鈥く捕える • → CLSが「何を見るべきか」を学習 vs 統合的解釈：パッチ特徴が「広く意味的文脈を取り込む」一方、CLSトークンが「何が重要かを絞り込む」という役割分担が学習を通じて確立される 2つの視点から見る特徴表現の成熟

preencoded.png 性能比較

(a) セグメンテーション ADE20k (b) 3Dキーポイントマッチング NAVI (c) OOD分類 ObjectNet —
円の大きさ = パラメータ数 (a) 密な特徴タスクで圧倒 DINOv3が mIoUで最高（【55）他モデルを大差で引き離す FLOPsが増えるほど差が拡大 (b) 3D一貫性でも首位 Recall で最高（【63）スケール時の伸びが最も急俊 SigLIP 2 はスケールしても伸び餈 (c) OOD分類は SigLIP 2 と並ぶ精度 1位は SigLIP 2（【80） DINOv3 は同等水準で追階言語アラインモデルが得意な領域計算量（FLOPs）対性能のトレードオフ比較（ Figure 2 ）

注目ポイント種類別識別ぶどう → ぶどうのみ、バナナ → バナナのみに高類似度混在する多種類の果物を正確に区別位置不変の意味認識畫面上部と左のぶどうが
空間的に離れていても同じ高類似度を示す超高解像度での動作䂖×4096px（通常の16倍）でもパッチレベルの細かい識別を維持 4096×4096px 超高解像度密特徴マップ (Figure 3)

Table 3: セグメンテーション & 深度推定 Table 4: 3Dキーポイント対応一貫性 DINOv3 の結果
Table 3：ADE20k 55.9 / Citysc. 81.1 / VOC 86.6（全6指標1位） Table 4：NAVI 64.4 / SPair 58.7（全2指標1位）セグメンテーション・深度推定・3D一貫性の定量評価 (Table 3,4)

preencoded.png PCAでRGBに映した密な特徴マップ — 同色 = 小模モデルが「同種」と認識した領域各モデルの特徴 SigLIP 2 ノイジー・ピクセル単位でバラバラ
空間一貫性が低い言語アラインの影響 PE Spatial 中間的な品質一部の物体は輪郭が出るまだノイズが残る DINOv2 w/reg 大幅に滑らかに改善物体単位で色がまとまる輪郭が比較的明確 DINOv3 ★ 最も鮮橋か・滑らか・明瞎個々の物体が精細に分離前景・背景の分離が醒撕同色 = モデルが「同種」と判断した領域 ❘ DINOv3 が密な特徴表現において質的に一段上の能力を発揮密な特徴マップのモデル間比較 (Figure 13)

preencoded.png Table 5 + Figure 15: J&F-mean（動画追跡）& カモの追跡例ポイント DINOv3
の全指標 1位 DAVIS-L：83.3 YT-VOS-L：80.7 MOSE-L：55.6 解像度が上がるほどスコアが上昇（S→L） AM-RADIOv2.5（81.4）を超える 83.3 を達成 Figure 15：機能の内容 • 初期フレームのみマスクを与え、以降は特徴類似度で自動伝播 • ラベルなしで個体IDを正確に維持 • 複数オブジェクトが重なっても混同が少ない • → 密な特徴表現が意味的に高度に分離されている証拠ラベルなしの純粋な特徴類似度だけで、長時間・複数物体の追跡を正確に実行 — DINOv3 の密な特徴表現の優秀性を示す動画セグメンテーション追跡 (Table 5, Figure 15)

Table 7: ImageNet 線形分類等 Table 8: 細粒度分類 / Table 9:
インスタンス認識 DINOv3 の強み Table 7: Hard-C 耳性耐性 19.6（全指標1位） Table 8: iNat21 89.8（生物種分類、全指標1位） Table 9: Oxford-H 60.7 / Met 55.4 / AmsterTime 56.5（全指標1位）分類・細粒度認識・インスタンス認識の定量評価（Table 7・8・9）

(a) CNX系（ConvNeXt）と ViT系の全モデルリスト（パラメータ数 & 推論GFLOP） (b) ViT-H+ vs ViT-7B の全ベンチマーク性能比較
CNX 系の効率 CNX-Base（89M）が@256で 20 GFLOP ViT-B（86M）は 47 GFLOP → 同規模で ViTの強2倍の計算効率 ViT-H+ のコスト効果 ViT-7B（6.7B）の1/8のコスト（840M）分類タスクではほぼ同等の性能密な特徴タスクでが1.1ポイント差実用的なモデル選択 CNX-Tiny（29M）から ViT-7B（6.7B）まで Figure 3の超高解像度使用は ViT-7B リソースに応じた選択が可能 DINOv3 モデルファミリーとスケール比較 (Figure16)

PCAの主成分5～7をRGBに映した特徴マップ（各行：ViT-S/S+/B/L/H+、各列：4解像度）モデル別安定性 ViT-H+ ◎ 完全安定 7168×4096pxの最大解像度でも全域安定テスト範囲全体で色パターンが維持 ViT-S+/B △
中解像度まで安定 3584×2048まで安定最大解像度でわずかにドリフト ViT-L △ 最大解像度でドリフト 7168×4096で色の乱れが開始大型モデルほど安定性が高い備向 Gram Anchoringにより高解像度でも特徴が「成熟」 — 大型モデルほど解像度安定性が高い解像度をまたいだ特徴の安定性（Figure 17）

Table 10: 物体検出 COCO / COCO-O Table 11: セグメンテーション ADE20k
mIoU ポイント Table 10: 物体検出 • 学習可能パラメータが最小（100M）で全指標1位 • COCO-O ER 36.8: ロバスト性で群を引き離す • 凍結バックボーンで FT済大型モデルを超える Table 11: セグメンテーション • mIoU TTA 63.0: ONE-PEACEと同率で1位 • 学習可能パラメータ 927M — ONE-PEACEの半分以下 • デコーダのみ学習、エンコーダ凍結で達成凍結バックボーン・最小パラメータで、FT済み大型モデル群を全タスクで凌駕— 特徴表現の汎用性の高さを証明物体検出・セグメンテーションの最高水準比較 (Table 10 & 11)

DINOv3 + Depth Anything V2 の組み合わせによる相対深度推定 SotA 結果データセット別結果 NYUv2
ARel 4.3 δ₁ 98.0 全指標1位 KITTI ARel 7.3 δ₁ 96.7 全指標1位 ETH3D ARel 5.4 δ₁ 97.5 DAv2比 13.1→5.4 ScanNet ARel 4.4 δ₁ 98.1 全指標1位 DAv2 (ViT-g) 比較：KITTI δ₁: 94.7 → 96.7（+2.0） ETH3D ARel: 13.1 → 5.4（半分以下） 5データセットの10指標9指標1位 — DINOv3 + Depth Anything V2 で単眼深度推定 SotA を突破単眼深度推定（相対深度）の最高水準比較 (Table 12)

PUE=1.1, カーボン強度=0.385 kg CO₂eq/KWh で算出した再現時の推定排出量 MetaCLIP (ViT-G) 62 tCO₂eq GPU時間:
368,640h 総電力: 160 MWh A100 × 多数、390kステップ DINOv2 (ViT-g) 3.7 tCO₂eq GPU時間: 22,016h 総電力: 9.7 MWh A100 × 少数、625kステップ DINOv3 (ViT-7B) ★ 18 tCO₂eq GPU時間: 61,440h 総電力: 47 MWh H100 高効率、1Mステップ DINOv3：MetaCLIPの29%のCO₂排出量で ViT-7B を学習 — H100の高効率活用でスケールと環境負荷のバランスを実現モデル学習のカーボンフットプリント (Table 20)

preencoded.png 実応用例

preencoded.png 衛星画像解析（WRI）衛星画像から樹木の樹冠高さを計測し、植林進捗のモニタリングに活用。 DINOv2→DINOv3移行でDense特徴精度向上が期待できます。注意: パッチサイズ
14→16、出力トークンキーの変更に注意が必要です。宇宙探査（NASA JPL）火星探査ロボットに組み込み、地形マッピング・物体認識を単一モデルで実現。DINOv3は DINOv2互換のAPIではないため、出力辞書キーの変更（x_storage_tokens）が必要です。医療画像（深度推定）ラベルが希少・高コストな医療領域で、少数サンプルからの特徴抽出に有効。DINOv3はDAv2を上回る深度推定性能を報告しており、将来的なパイプライン刷新の候補です。製造・品質検査正常品のみでアノテーションなしに異常検知を実現。ラベルなし・ Frozen backboneで高精度な新ドメインへの迅速な適応に有利です。実応用例

preencoded.png まとめ

preencoded.png まとめ 01 · Scale 70億パラメータ × 17億枚画像 SSLのみで史上最大級のビジョンモデルを実現しました。 02
· Gram Anchoring Dense特徴劣化の根本解決 Gramマトリクス正則化により、長学習でもDense特徴の品質を維持できます。 03 · Frozen SoTA バックボーン固定で全面制覇弱教師あり専門モデルを全面的に上回る性能を達成しました。 04 · 汎用性 ViT-S〜7B + ConvNeXt 多様なサイズのモデルファミリーで、多様な用途に対応可能です。 arXiv:2508.10104 · facebookresearch/dinov3 · 2025.08

【論文紹介】DINOv3: Self-supervised Learning for Visi...

【論文紹介】DINOv3: Self-supervised Learning for Vision at Unprecedented Scale

More Decks by yuyu4Tech

Other Decks in Technology

Featured

Transcript