Slide 13
Slide 13 text
13
U-Netベースのモデル
● 入力:RGB + ray embedding, 解像度256
● 出力:ピクセル毎のGaussian, 解像度128
● 解像度を下げることでgaussianの個数を削
減
出力は14チャンネル
● position(3), color(3), opacity(1), rotation(4),
scale(3)
● 3d positionは直接予測する
(ray上にあることは前提としない)
● 背景は特別視しない(opacityが0になる/物
体の内側を埋めることを期待?)
3D GS推定器:ネットワーク