TSDF (Truncated Signed Distance Function)に変換し、3D CNNに入力 • 広い受容野で3次元空間のコンテキストを取得するため、 dilated convを利用 • 屋内シーンをCGで合成したSUNCGデータセット*を新たに構築し、学習・評価を実施 関連研究 - SSCNet - Shuran Song et al., “Semantic Scene Completion from a Single Depth Image,” CVPR 2017. “our goal is to have a model that predicts both volumetric occupancy (i.e., scene completion) and object category (i.e., scene labeling) from a single depth image of a 3D scene” * データ盗用で訴えられ、公開を停止(原告側の訴えは却下) [参考] 5
オクルージョンなどによる不可視領域も無理やり可視領域に投影されるため、たとえば 2つの物体 が重なっている場合、背面物体を前面物体の一部であるとみなしてしまう • これを軽減するため、視錐台に含まれる 3次元ボリュームのラベル分布を真値に近づけるロスを導 入(Frustum Proportion Loss) FLoSP (Features Line of Sight Projection) Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. FLoSP Frustum Proportion Loss 8