2D foundation features. Our method starts with lifting 2D image features (e.g. DINOv2 [44]) (b) to a 3D representation. Then we finetune the 2D foundation model using the 3D-aware features (c). We demonstrate that incorporating the fine-tuned features (d) results in improved performance on downstream tasks such as semantic segmentation and depth estimation on a variety of datasets with simple linear probing (right). Feature maps are visualized using principal component analysis (PCA). Figure 1: 2D基盤特徴を向上させるために3D対応のfine-tuning⼿法を提案する。この⽅法では、まず2D画像特徴(e.g., DINOv2 [44])(b)を3D表現に変換する。 次に、3D対応の特徴 (c) を使⽤して2D基盤モデルをfine-tuningする。fine-tuningした特徴 (d) を取り⼊れることで、semantic segmentationや深度推定などの下 流タスクの性能が向上することを⽰した。この性能向上は、様々なデータセット上で単純な線形プロービング (右) を⽤いることで確認できる。 特徴マップは主成分分析 (PCA) を⽤いて可視化する。
• のレンダリングは、3D GSと同様に不透明度αを⽤いたα-blendingで⾏う • 通常のGaussianのパラメータと、 はそれぞれ独⽴に最適化する (損失関数はそれぞれL1Loss) ◦ “a loss from feature space does not lead to correct Gaussian mean, covariance and opacity” とのこと