2D foundation features. Our method starts with lifting 2D image features (e.g. DINOv2 [44]) (b) to a 3D representation. Then we finetune the 2D foundation model using the 3D-aware features (c). We demonstrate that incorporating the fine-tuned features (d) results in improved performance on downstream tasks such as semantic segmentation and depth estimation on a variety of datasets with simple linear probing (right). Feature maps are visualized using principal component analysis (PCA). Figure 1: 2D基盤特徴を向上させるために3D対応のfine-tuning⼿法を提案する。この⽅法では、まず2D画像特徴(e.g., DINOv2 [44])(b)を3D表現に変換する。 次に、3D対応の特徴 (c) を使⽤して2D基盤モデルをfine-tuningする。fine-tuningした特徴 (d) を取り⼊れることで、semantic segmentationや深度推定などの下 流タスクの性能が向上することを⽰した。この性能向上は、様々なデータセット上で単純な線形プロービング (右) を⽤いることで確認できる。 特徴マップは主成分分析 (PCA) を⽤いて可視化する。