マルチモーダル・一人称視点設定における3Dシーン理解のためのデータセットとベンチマークに関する論文の紹介です.
https://github.com/OpenRobotLab/EmbodiedScan
以下の論文の内容が含まれます.
- EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI [Wang+ '24]
一人称視点の RGB-D データを含む実世界(屋内)のマルチモーダルベンチマークデータセット EmbodiedScan とベースライン手法 Embodied Perceptron の提案
- MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [Lyu+ '24]
階層的な言語アノテーションを備えた大規模マルチモーダル3Dシーンデータセット MMScan の提案