論文紹介：Pixal3D (SIGGRAPH 2026)

AI Community 2026.05.15 Takato Yoshikawa 株式会社ディー・エヌ・エー / GO株式会社 / GOドライブ株式会社
論文紹介 Pixal3D (SIGGRAPH 2026)

AI 2 ▪ 3D生成モデルについてあまり調べたことがなかった ▪ 画像や動画生成とは異なる工夫点や現状の3D生成のクオリティを知りたい ▪ Pixal3Dを中心に最近の3D生成モデル（特にimage-to-3D生成）について調査
はじめに

AI 3 項目 01｜image-to-3D generation 02｜Pixal3D 03｜実際に動かしてみる

AI 4 01 image-to-3D generation

AI 5 ▪ 1枚（または複数枚）の画像から3Dモデルを生成するタスク ▪ 生成モデルを用いたImage-to-3Dでは、入力が少なくて見えていない部分も補完して生成が可能 image-to-3D generation https://ldyang694.github.io/projects/pixal3d/

AI ▪ 画像生成などでもよく見られるLatent Diﬀusion型のパイプライン ▪ VAEの入出力のデータ形式は手法ごとに様々 ▪ 最終的にMeshが欲しい場合はSDFを生成し、後処理でメッシュ化 6 最近のImage-to-3Dの大まかなパイプライン
生成モデル VAE Decoder VAE Decoder 参照画像 Mesh化 VAE Encoder Mesh SDF Latent Latent VAEの学習 Noise

AI 7 ▪ SDF（Signed Distance Function）とは？ ▪ 各点からの物体表面までの符号付き距離を返す関数 ▪
d(x, y, z) = 0が表面、- は形状内部 +が形状外部を表す ▪ NNで直接メッシュデータを生成するのは難しい →SDFを出力してからMarching Cubesなどのアルゴリズムでメッシュデータに変換（SDFについて） - + + + + + 0

AI 8 ▪ 2段階パイプライン ▪ 1段目で疎な形状を作成し、２段目でディティールの生成 ▪ VAEの入力はDINOv2による多視点特徴、出力は3DGS, Radiance Fields,
SDF 関連研究：TRELLIS Jianfeng Xiang, et al., "Structured 3D Latents for Scalable and Versatile 3D Generation," in Proc. of CVPR 2025.

AI 9 ▪ Spatial Sparse AttentionによるAttentionの効率化 ▪ 物体が存在する部分だけに効率よく注目 ▪ VAEの入出力をスパースなSDFに統一
▪ フォーマットを統一したことで学習効率、安定性、忠実度が改善関連研究：Direct3D-S2 Shuang Wu, et al., "Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention," in Proc. of NeurIPS 2025.

10 02 Pixal3D

AI 11 ▪ 入力画像への忠実度が低い ▪ 参照画像のディティールが失われたり位置がズレたりする既存手法の課題入力画像 TRELLIS Direct3D-S2
Dong-Yang Li, et al., "Pixal3D: Pixel-Aligned 3D Generation from Images," in Proc. of SIGGRAPH 2026.

AI 12 忠実度が低くなる原因入力画像 TRELLIS Direct3D-S2 ▪ 正準座標系（物体中心の座標系）による生成 ▪ 下の画像でも（おそらく）正面を向いた姿勢で生成されている
▪ 画像と3Dモデルの対応関係はCross Attentionでの学習に依存 →グローバルな意味情報を頼りに生成しがち Dong-Yang Li, et al., "Pixal3D: Pixel-Aligned 3D Generation from Images," in Proc. of SIGGRAPH 2026.

AI 13 ▪ 正準座標系（物体中心の座標系）による生成 ▪ 下の画像でも（おそらく）正面を向いた姿勢で生成されている ▪ 画像と3Dモデルの対応関係はCross Attentionでの学習に依存 →グローバルな意味情報を頼りに生成しがち
忠実度が低くなる原因 ▪ 入力カメラ座標系での生成 ▪ つまり参照画像と同じ向きになるように生成 ▪ Back Projectionによって明示的に画像と3Dの対応関係を考慮 Pixal3D

AI 14 ▪ ベースパイプライン：Direct3D-S2 ▪ カメラ座標系での生成のために、様々な向きでの画像-3Dペアを用意して学習 Pixal3D概要 Back Projection による2D-3D対応

AI 15 1. DINOv2でマルチスケール画像特徴を作成 2. カメラから画像に飛ばしたRayがBoxに収まるような、カメラとBox位置を決める 3. 各ボクセルから画像にRayを飛ばしてあたった特徴量を取得 a.
全特徴量を平均化 Back Projection Proj Injection: 特徴ボリュームをノイズボリュームに加算 Dong-Yang Li, et al., "Pixal3D: Pixel-Aligned 3D Generation from Images," in Proc. of SIGGRAPH 2026.

AI 16 ▪ 全部で約100万のobjectで学習 ▪ Objaverse ▪ 低品質なデータをフィルタして約48万のobjectを使用 ▪ TRELLIS-500K
▪ いくつかの既存データセットを集めたもの学習データ Matt Deitke, et al., "Objaverse-XL: A Universe of 10M+ 3D Objects," in Proc. of NeurIPS 2023.

AI 17 ▪ ディティールの忠実度が改善しているのがわかる実験結果ユーザスタディによる忠実度・クオリティ評価 2D-3Dの整合性評価 Dong-Yang
Li, et al., "Pixal3D: Pixel-Aligned 3D Generation from Images," in Proc. of SIGGRAPH 2026.

AI ▪ 生成されたモデルをカメラ視点からレンダリングし作成された法線マップとGTを比較(IoU, PSNR, SSIM, LPIPS) ▪ 後半の指標は法線ベクトルの向きのズレについて(Mean, Median~)
▪ 11.25°などは誤差がその角度に収まっている割合 18 実験結果 Dong-Yang Li, et al., "Pixal3D: Pixel-Aligned 3D Generation from Images," in Proc. of SIGGRAPH 2026.

AI 19 ▪ Back Projectionにおいて各視点のボリューム特徴を平均化するだけで拡張可能 ▪ （全体が写っている画像が与えられる前提か） Multi-viewへの拡張

20 03 実際に動かしてみる

AI ▪ https://github.com/TencentARC/Pixal3D ▪ 学術目的のみ利用可→MIT Licenceに変更！ ▪ Direct3D-S2をベースにした実装とTRELLIS2をベースにした実装を公開 ▪
TRELLIS2ベースの実装を動かしてみる 21 実際に動かしてみる

AI 22 適当に画像を生成し3D化 Input Output 3DModel

AI 23 実写画像に対して生成 Input Output 3DModel

AI ▪ Pixal3D ▪ 画像と3Dモデルを明示的に対応付けるBack Projectionを導入 ▪ これにより入力画像への忠実度が改善 ▪ マルチビューへも自然に対応可能
▪ 所感 ▪ ぱっと見ではきれいに生成できていそうだがメッシュが大きく崩れる場合もある ▪ 特に画像では見えていない部分の補完は崩れやすそう ▪ 高品質データを集めるのが大変、高解像度化すると計算量が膨大になるなどが引き続き課題か？ ▪ 実用上は生成した3Dモデルの分解や編集が簡単にできると良さそう 24 まとめ

論文紹介：Pixal3D (SIGGRAPH 2026)

論文紹介：Pixal3D (SIGGRAPH 2026)

TakatoYoshikawa

More Decks by TakatoYoshikawa

Other Decks in Technology

Featured

Transcript

AI Community 2026.05.15 Takato Yoshikawa 株式会社ディー・エヌ・エー / GO株式会社 / GOドライブ株式会社

AI 2 ▪ 3D生成モデルについてあまり調べたことがなかった ▪ 画像や動画生成とは異なる工夫点や現状の3D生成のクオリティを知りたい ▪ Pixal3Dを中心に最近の3D生成モデル（特にimage-to-3D生成）について調査

AI 3 項目 01｜image-to-3D generation 02｜Pixal3D 03｜実際に動かしてみる

AI 4 01 image-to-3D generation

AI 5 ▪ 1枚（または複数枚）の画像から3Dモデルを生成するタスク ▪ 生成モデルを用いたImage-to-3Dでは、入力が少なくて見えていない部分も補完して生成が可能 image-to-3D generation https://ldyang694.github.io/projects/pixal3d/

AI ▪ 画像生成などでもよく見られるLatent Diﬀusion型のパイプライン ▪ VAEの入出力のデータ形式は手法ごとに様々 ▪ 最終的にMeshが欲しい場合はSDFを生成し、後処理でメッシュ化 6 最近のImage-to-3Dの大まかなパイプライン

AI 7 ▪ SDF（Signed Distance Function）とは？ ▪ 各点からの物体表面までの符号付き距離を返す関数 ▪

AI 8 ▪ 2段階パイプライン ▪ 1段目で疎な形状を作成し、２段目でディティールの生成 ▪ VAEの入力はDINOv2による多視点特徴、出力は3DGS, Radiance Fields,

AI 9 ▪ Spatial Sparse AttentionによるAttentionの効率化 ▪ 物体が存在する部分だけに効率よく注目 ▪ VAEの入出力をスパースなSDFに統一

10 02 Pixal3D

AI 11 ▪ 入力画像への忠実度が低い ▪ 参照画像のディティールが失われたり位置がズレたりする既存手法の課題入力画像 TRELLIS Direct3D-S2

AI 12 忠実度が低くなる原因入力画像 TRELLIS Direct3D-S2 ▪ 正準座標系（物体中心の座標系）による生成 ▪ 下の画像でも（おそらく）正面を向いた姿勢で生成されている

AI 13 ▪ 正準座標系（物体中心の座標系）による生成 ▪ 下の画像でも（おそらく）正面を向いた姿勢で生成されている ▪ 画像と3Dモデルの対応関係はCross Attentionでの学習に依存 →グローバルな意味情報を頼りに生成しがち

AI 14 ▪ ベースパイプライン：Direct3D-S2 ▪ カメラ座標系での生成のために、様々な向きでの画像-3Dペアを用意して学習 Pixal3D概要 Back Projection による2D-3D対応

AI 15 1. DINOv2でマルチスケール画像特徴を作成 2. カメラから画像に飛ばしたRayがBoxに収まるような、カメラとBox位置を決める 3. 各ボクセルから画像にRayを飛ばしてあたった特徴量を取得 a.

AI 16 ▪ 全部で約100万のobjectで学習 ▪ Objaverse ▪ 低品質なデータをフィルタして約48万のobjectを使用 ▪ TRELLIS-500K

AI 17 ▪ ディティールの忠実度が改善しているのがわかる実験結果ユーザスタディによる忠実度・クオリティ評価 2D-3Dの整合性評価 Dong-Yang

AI ▪ 生成されたモデルをカメラ視点からレンダリングし作成された法線マップとGTを比較(IoU, PSNR, SSIM, LPIPS) ▪ 後半の指標は法線ベクトルの向きのズレについて(Mean, Median~)

AI 19 ▪ Back Projectionにおいて各視点のボリューム特徴を平均化するだけで拡張可能 ▪ （全体が写っている画像が与えられる前提か） Multi-viewへの拡張

20 03 実際に動かしてみる

AI ▪ https://github.com/TencentARC/Pixal3D ▪ 学術目的のみ利用可→MIT Licenceに変更！ ▪ Direct3D-S2をベースにした実装とTRELLIS2をベースにした実装を公開 ▪

AI 22 適当に画像を生成し3D化 Input Output 3DModel

AI 23 実写画像に対して生成 Input Output 3DModel

AI ▪ Pixal3D ▪ 画像と3Dモデルを明示的に対応付けるBack Projectionを導入 ▪ これにより入力画像への忠実度が改善 ▪ マルチビューへも自然に対応可能