Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Pixal3D (SIGGRAPH 2026)

論文紹介:Pixal3D (SIGGRAPH 2026)

社内のCV輪講で発表した資料です。
Pixal3D: Pixel-Aligned 3D Generation from Images (SIGGRAPH 2026)についてまとめました。

Avatar for TakatoYoshikawa

TakatoYoshikawa

May 22, 2026

More Decks by TakatoYoshikawa

Other Decks in Technology

Transcript

  1. AI 7 ▪ SDF(Signed Distance Function)とは? ▪ 各点からの物体表面までの符号付き距離 を返す関数 ▪

    d(x, y, z) = 0が表面、- は形状内部 +が形状外部を表す ▪ NNで直接メッシュデータを生成するのは難しい →SDFを出力してからMarching Cubesなどの アルゴリズムでメッシュデータに変換 (SDFについて) - + + + + + 0
  2. AI 8 ▪ 2段階パイプライン ▪ 1段目で疎な形状を作成し、2段目でディティールの生成 ▪ VAEの入力はDINOv2による多視点特徴、出力は3DGS, Radiance Fields,

    SDF 関連研究:TRELLIS Jianfeng Xiang, et al., "Structured 3D Latents for Scalable and Versatile 3D Generation," in Proc. of CVPR 2025.
  3. AI 9 ▪ Spatial Sparse AttentionによるAttentionの効率化 ▪ 物体が存在する部分だけに効率よく注目 ▪ VAEの入出力をスパースなSDFに統一

    ▪ フォーマットを統一したことで学習効率、安定性、忠実度が改善 関連研究:Direct3D-S2 Shuang Wu, et al., "Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention," in Proc. of NeurIPS 2025.
  4. AI 12 忠実度が低くなる原因 入力画像 TRELLIS Direct3D-S2 ▪ 正準座標系(物体中心の座標系)による生成 ▪ 下の画像でも(おそらく)正面を向いた姿勢で生成されている

    ▪ 画像と3Dモデルの対応関係はCross Attentionでの学習に依存 →グローバルな意味情報を頼りに生成しがち Dong-Yang Li, et al., "Pixal3D: Pixel-Aligned 3D Generation from Images," in Proc. of SIGGRAPH 2026.
  5. AI 13 ▪ 正準座標系(物体中心の座標系)による生成 ▪ 下の画像でも(おそらく)正面を向いた姿勢で生成されている ▪ 画像と3Dモデルの対応関係はCross Attentionでの学習に依存 →グローバルな意味情報を頼りに生成しがち

    忠実度が低くなる原因 ▪ 入力カメラ座標系での生成 ▪ つまり参照画像と同じ向きになるように生成 ▪ Back Projectionによって明示的に画像と3Dの対応関係を考慮 Pixal3D
  6. AI 15 1. DINOv2でマルチスケール画像特徴を作成 2. カメラから画像に飛ばしたRayがBoxに収まるような、カメラとBox位置を 決める 3. 各ボクセルから画像にRayを飛ばしてあたった特徴量を取得 a.

    全特徴量を平均化 Back Projection Proj Injection: 特徴ボリュームを ノイズボリュームに加算 Dong-Yang Li, et al., "Pixal3D: Pixel-Aligned 3D Generation from Images," in Proc. of SIGGRAPH 2026.
  7. AI 16 ▪ 全部で約100万のobjectで学習 ▪ Objaverse ▪ 低品質なデータをフィルタして約48万のobjectを使用 ▪ TRELLIS-500K

    ▪ いくつかの既存データセットを集めたもの 学習データ Matt Deitke, et al., "Objaverse-XL: A Universe of 10M+ 3D Objects," in Proc. of NeurIPS 2023.
  8. AI ▪ 生成されたモデルをカメラ視点からレンダリングし作成された 法線マップとGTを比較(IoU, PSNR, SSIM, LPIPS) ▪ 後半の指標は法線ベクトルの向きのズレについて(Mean, Median~)

    ▪ 11.25°などは誤差がその角度に収まっている割合 18 実験結果 Dong-Yang Li, et al., "Pixal3D: Pixel-Aligned 3D Generation from Images," in Proc. of SIGGRAPH 2026.
  9. AI ▪ Pixal3D ▪ 画像と3Dモデルを明示的に対応付けるBack Projectionを導入 ▪ これにより入力画像への忠実度が改善 ▪ マルチビューへも自然に対応可能

    ▪ 所感 ▪ ぱっと見ではきれいに生成できていそうだがメッシュが大きく崩れる 場合もある ▪ 特に画像では見えていない部分の補完は崩れやすそう ▪ 高品質データを集めるのが大変、高解像度化すると計算量が膨大になる などが引き続き課題か? ▪ 実用上は生成した3Dモデルの分解や編集が簡単にできると良さそう 24 まとめ