FiT3D: Improving 2D Feature Representations by 3D-Aware Fine-Tuning - 第62回コンピュータビジョン勉強会 ECCV論文読み会

FiT3D: Improving 2D Feature Representations by 3D-Aware Fine-Tuning 岩政公平 CV勉強会
ECCV2024

Fig. 1 Figure 1: We propose 3D-aware fine-tuning to improve
2D foundation features. Our method starts with lifting 2D image features (e.g. DINOv2 [44]) (b) to a 3D representation. Then we finetune the 2D foundation model using the 3D-aware features (c). We demonstrate that incorporating the fine-tuned features (d) results in improved performance on downstream tasks such as semantic segmentation and depth estimation on a variety of datasets with simple linear probing (right). Feature maps are visualized using principal component analysis (PCA). Figure 1: 2D基盤特徴を向上させるために3D対応のfine-tuning⼿法を提案する。この⽅法では、まず2D画像特徴(e.g., DINOv2 [44])(b)を3D表現に変換する。次に、3D対応の特徴 (c) を使⽤して2D基盤モデルをfine-tuningする。fine-tuningした特徴 (d) を取り⼊れることで、semantic segmentationや深度推定などの下流タスクの性能が向上することを⽰した。この性能向上は、様々なデータセット上で単純な線形プロービング (右) を⽤いることで確認できる。特徴マップは主成分分析 (PCA) を⽤いて可視化する。

Feature visualization - PCA / K-Means https://ywyue.github.io/FiT3D/

書誌情報 • 2Dの視覚基盤モデル(e.g., ViT)に対して3D-awareデータでﬁne-tuningすることで、その基盤モデルによって抽出される画像特徴の質を向上させる！ • 3D-awareデータ？ → 3D Gaussian
Splatting (3DGS) を⽤いる！ • 屋内データを⽤いているが、ドメイン外データセット (屋外) でも精度改善！ GitHub

Vision Transformer • Transformerを視覚モデルに適応した⼿法 • ⼊⼒画像をパッチに分割して埋め込んだトークンと、学習可能なパラメータであるCLSトークンを Transformer Encoderに⼊⼒する操作を⾏う ViT [Dosovitskiy+
20]

視覚モデルの事前学習 • 本論⽂ではDINOv2 [Oquab+ 23] , DINOv2-reg [Darcet+ 23] ,
CLIP [Radford+ 21] , MAE [He+ 21] , DeiT-III [Touvron+ 22] などの⾃⼰教師あり学習を⾏った2D視覚モデルに対して適⽤ (CNNでもViTでも何でも適⽤できるはず) ◦ 各学習⽅法は今回は割愛します🙏 • 各視覚モデルは特有の Artifact (アーチファクト) が存在する ← ここ⼤事⾃⼰教師あり学習 (画像のみ) ⾃⼰教師あり学習 (画像のみ) ⾃⼰教師あり学習 (画像-テキスト) ⾃⼰教師あり学習 (画像のみ) 教師あり学習 (画像とラベル)

視覚モデルのアーチファクト • アーチファクトにより下流タスクに悪影響を与える😢 • DINOv2のアーチファクトとして、特に位置埋め込みが寄与してしまっている ◦ 動画のような連続フレームを与えても画像内の相対的な位置に同様なアーチファクトが出現 “Denoising Vision Transformers”
[Yang+ 24]

3D Gaussian Splatting https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/ • 複数視点画像から新規視点合成を⾏う⼿法 → NeRFと⽐較して特に⾼速なレンダリングが可能👍 • 3D
Gaussian (位置, 回転, スケール, 球⾯調和パラメータ, 不透明度) を2D平⾯に効率的にSplat (投影) する ◦ ラスタライズレンダリングにより描画するため⾼速‧軽量 “3D Gaussian Splatting for Real-Time Radiance Field Rendering” [Kerbl+ 23]

FiT3Dの流れ 1. 3D Gaussianに新しく2D視覚特徴を加える 2. 2D視覚特徴をSplattingして、その特徴をもとに2D視覚モデルをﬁne-tuning

学習データセット • ScanNet++ [Yeshwanth+ 23] という屋内シーンの⾼品質なジオメトリ情報と画像が含まれるデータセット • 460シーン, 28万枚のデジタル⼀眼レフのキャプチャ画像, 370万枚のiPhoneRGBDフレームから成る
ScanNet++ [Yeshwanth+ 23]

1. 3D Gaussianに2D特徴をliftする • 新しくという特徴ベクトルに関するパラメータを追加 ◦ 蒸留する2D特徴よりも少ない次元数であり、シーンごとに異なるConv層で次元数を揃える ◦ 1シーン数百万のGaussianが存在するため元の次元数だとメモリに乗らない😢
• のレンダリングは、3D GSと同様に不透明度αを⽤いたα-blendingで⾏う • 通常のGaussianのパラメータと、はそれぞれ独⽴に最適化する (損失関数はそれぞれL1Loss) ◦ “a loss from feature space does not lead to correct Gaussian mean, covariance and opacity” とのこと

2. レンダリングした特徴を学習する • レンダリングした3D-awareな特徴マップを教師として、視覚モデルをﬁne-tuningする ◦ メモリ効率の観点で、3D-awareな特徴マップは学習中に⽣成し、またGaussianをCPUメモリに事前にロードするといった⼯夫で効率的に学習する ◦ 損失関数はL1Loss

結果 - 同ドメインの定量評価 • ﬁne-tuningした前/後の視覚モデルを⽤いて、単純な線形層だけを更新するようしてセマンティックセグメンテーションや深度推定を学習し、パフォーマンスを調べる • 同じドメインである屋内データセットにおいて両タスクともに精度向上！

結果 - 同ドメインの定性評価 1. 壁やボードのような均⼀でテクスチャのない領域で両タスク改善 2. 椅⼦やテーブルの脚など細かい領域で両タスク改善

結果 - 同ドメインの定性評価 1. 壁やボードのような均⼀でテクスチャのない領域で両タスク改善 • そもそも元のモデルの2D特徴をliftするとき、1枚だけなら“空洞”ができる ( DINOv2の⾚⽮印 )
• Gaussianを最適化するときに複数のビューからの2D特徴が全体的に集約されるため、あるビューからの情報は他のビューで補完される → 補完された3D-aware特徴でﬁne-tuningすると👍

結果 - 同ドメインの定性評価 2. 椅⼦やテーブルの脚など細かい領域で両タスク改善 • Gaussianのジオメトリ特性 (e.g., 位置, 不透明度)
はRGB画像を参照とした最適化が⾏われるため、この“RGBガイダンス”が詳細な3D構造を学習して⾼解像度の特徴マップをレンダリング可能に👍

結果 - Out-of-domainのデータの場合 • ScanNet++でﬁne-tuningしたモデルは、屋外のデータであっても精度改善！ • 定性的にも同ドメイン時と同様の結果が観察された (textureless領域、細かな領域での改善)

⽇本で撮った画像で試す

Ablation study • F_lowの次元数を増やすと使⽤メモリ‧学習時間は増えるが、パフォーマンスは向上する • 無限のメモリがあればそもそもCNN層いらない＋精度改善する？ • CLSトークンを⽤いてImageNet-1Kで画像分類タスク
→精度改善しない • 本⼿法は画像パッチトークンに対する改善だから？ ◦ Poolingなどでパッチトークンの特徴ベクトルも⽤いる構造にすれば改善する？

感想 • 3D GSを使って2D視覚モデルの改善するの⾯⽩い ◦ 定量的にも定性的にも、OODでもパフォーマンス改善しているのいい👍 ◦ モデル構造を変更しないのも👍 • 本⼿法でﬁne-tuningされた視覚モデルは“3D構造を理解した”という訳ではなさそう？
◦ 3D構造をもとにdenoisingされた2D特徴を学習した、という流れ • 屋外データなどOODでも改善しているが、屋外データでﬁne-tuningすると精度改善するのか？ ◦ 屋外データを3DGSで最適化すること⾃体難しい ▪ e.g., 動的なオブジェクト、⾞両データだとカメラ間の重なりが少ない ◦ GSでこれらの課題を克服した⼿法はあるので試してみると⾯⽩そう • ⾃動運転AIにも活⽤していきたい ◦ ⼀旦はbackbone変えて検証できるので試します

FiT3D: Improving 2D Feature Representations by ...

FiT3D: Improving 2D Feature Representations by 3D-Aware Fine-Tuning - 第62回コンピュータビジョン勉強会 ECCV論文読み会

Kohei Iwamasa

More Decks by Kohei Iwamasa

Featured

Transcript

FiT3D: Improving 2D Feature Representations by 3D-Aware Fine-Tuning 岩政公平 CV勉強会

Fig. 1 Figure 1: We propose 3D-aware ﬁne-tuning to improve

Feature visualization - PCA / K-Means https://ywyue.github.io/FiT3D/

書誌情報 • 2Dの視覚基盤モデル(e.g., ViT)に対して3D-awareデータでﬁne-tuningすることで、その基盤モデルによって抽出される画像特徴の質を向上させる！ • 3D-awareデータ？ → 3D Gaussian

Vision Transformer • Transformerを視覚モデルに適応した⼿法 • ⼊⼒画像をパッチに分割して埋め込んだトークンと、学習可能なパラメータであるCLSトークンを Transformer Encoderに⼊⼒する操作を⾏う ViT [Dosovitskiy+

視覚モデルの事前学習 • 本論⽂ではDINOv2 [Oquab+ 23] , DINOv2-reg [Darcet+ 23] ,

3D Gaussian Splatting https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/ • 複数視点画像から新規視点合成を⾏う⼿法 → NeRFと⽐較して特に⾼速なレンダリングが可能👍 • 3D

FiT3Dの流れ 1. 3D Gaussianに新しく2D視覚特徴を加える 2. 2D視覚特徴をSplattingして、その特徴をもとに2D視覚モデルをﬁne-tuning

学習データセット • ScanNet++ [Yeshwanth+ 23] という屋内シーンの⾼品質なジオメトリ情報と画像が含まれるデータセット • 460シーン, 28万枚のデジタル⼀眼レフのキャプチャ画像, 370万枚のiPhoneRGBDフレームから成る

結果 - 同ドメインの定性評価 1. 壁やボードのような均⼀でテクスチャのない領域で両タスク改善 2. 椅⼦やテーブルの脚など細かい領域で両タスク改善

結果 - 同ドメインの定性評価 1. 壁やボードのような均⼀でテクスチャのない領域で両タスク改善 • そもそも元のモデルの2D特徴をliftするとき、1枚だけなら“空洞”ができる ( DINOv2の⾚⽮印 )

結果 - 同ドメインの定性評価 2. 椅⼦やテーブルの脚など細かい領域で両タスク改善 • Gaussianのジオメトリ特性 (e.g., 位置, 不透明度)

結果 - Out-of-domainのデータの場合 • ScanNet++でﬁne-tuningしたモデルは、屋外のデータであっても精度改善！ • 定性的にも同ドメイン時と同様の結果が観察された (textureless領域、細かな領域での改善)

⽇本で撮った画像で試す

Ablation study • F_lowの次元数を増やすと使⽤メモリ‧学習時間は増えるが、パフォーマンスは向上する • 無限のメモリがあればそもそもCNN層いらない＋精度改善する？ • CLSトークンを⽤いてImageNet-1Kで画像分類タスク

FiT3D: Improving 2D Feature Representations by ...

FiT3D: Improving 2D Feature Representations by 3D-Aware Fine-Tuning - 第62回 コンピュータビジョン勉強会 ECCV論文読み会

More Decks by Kohei Iwamasa

Featured

Transcript

FiT3D: Improving 2D Feature Representations by 3D-Aware Fine-Tuning - 第62回コンピュータビジョン勉強会 ECCV論文読み会