3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

Motivation PAPER TALK 3DCodeBench:Benchmarking Agentic Procedural 3D Modeling Via Code
Yipeng Gao1,3 Lei Shu1 Genzhi Ye1 Xi Xiong1 Ameesh Makadia2 Meiqi Guo1 Laurent Itti3 Jindong Chen1 Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. 1 2 3 Presented by Kai Katsumata 1/32

Motivation WHY THIS PAPER 問い: image to 3Dモデルのvision criticの性能がボトルネックなのか ?
coding agent の実装能力はかなり高く、1000行近いコードを生成し、3Dモデルをつくれる残る問題は render を見て正しく自己修正できるか generator だけでなく critic 側がボトルネックになる Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. 2/32

Motivation PROBLEM タスク: 3D生成入力: テキスト、画像... mesh や 3DGS は形状表現
procedural code は実行可能で編集可能な作り方 Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. 3/32

Motivation BIBLIOGRAPHY 書誌情報 Authors: Yipeng Gao Lei Shu Genzhi Ye
Xi Xiong Ameesh Makadia Meiqi Guo Laurent Itti Jindong Chen Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. Inituitions: Google DeepMind Google Research USC https://www.3dcodebench.com/ arXiv:2606.01057 4/32

Motivation TOOL CONNECTORS Claude の Blender / Autodesk connector はすごい
自然言語から実ツールを操作できる段階に来ている Blender や Fusion で3Dモデルを作るUXが現実味を持つツールを呼べるかからどこまでできるか claude blender clip Anthropic Claude for Creative Work / Blender and Autodesk connectors. 5/32

Motivation RESEARCH LINEAGE text-to-3D と image-to-3D の研究系統 text-to-3D: 言語仕様から3D表現へ image-to-3D:
画像観測から3D表現へ executable inverse graphics: 画像からプログラムへ戻す Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. / Yin et al., VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal R... 2020 2026 2023 DeepSDF NeRF 3DGS Triplane 3D表現の獲得 2D拡散 3D拡散 DreamFields DreamFusion Zero-1-to-3 3DShape2VecSet MV拡散 InstantMesh TripoSR TRELLIS Hunyuan Rodin 3D生成サービスの登場 Producion-ready PBR tex QuadGPT UV VIGA PartSAM SEIG 6/32

Motivation SPECIALIZED CAD image-to-CAD Img2CADSeq: Image-to-CAD Generation via Sequence-Based Diffusion
GenCAD: Image-Conditioned Computer-Aided Design Generation with Transformer-Based Contrastive Representation and Diffusion Priors 拡散モデルベースのCAD生成モデルは高い画像忠実度を達成している GenCAD / gen shapen Img2CADSeq / gen shape Img2CADSeq: Image-to-CAD Sequence Generation, arXiv:2605.13293, 2026. / GenCAD: Image-Conditioned Computer-Aided Design Generation, arXiv:2409.16294, 2024. 7/32

Motivation IMAGE-TO-3D Image-to-3D Pixal3D TripoSplat Feedforward 3DGSやピクセル特徴量を使った生成モデル Pixal3D /
singleview pixal3d 102 Pixal3D / singleview triposg 102 Pixal3D: Pixel-Aligned 3D Generation from Images, arXiv:2605.10922, 2026. / TripoSplat: fast feed-forward 3D Gaussian asset generation from images. 8/32

Motivation GENERAL PURPOSE General-purpose model も3D ツールに入り始めている solid modeling をLLMに教える試みが出てい
る BlenderAlchemy は VLM で3D編集状態を評価する汎用モデル + API + visual feedback の流れが強い willpatrick ﬂange clip willpatrick iphone clip Will Patrick, Teaching LLMs how to solid model, 2025. / BlenderAlchemy: Editing 3D Graphics with Vision-Language Models, arXiv:2404.17672, 2024. 9/32

Motivation CALLENGES IN GENERAL-PURPOSE MODELS image-to-CAD / image-to-3D は難しい Tex-to-3Dでは結構うまくできていそう
入力が画像になるとめちゃくちゃ難しいテキストに比べて画像は情報量(制約)が多い mikushrab cad clip b MikushRab X post, image-to-CAD difficulty discussion, 2026. 10/32

Motivation WHY GENERAL MODELS なぜ general-purpose model で頑張るのか専用モデルは復元器として強い汎用モデルは対話・意図変更・編集のインターフェイスになる
価値は生成器だけでなく共同編集者としての能力にある Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. / Pixal3D: Pixel-Aligned 3D Generation from Images, arXiv:2605.10922, 2026. 11/32

Motivation HYPOTHESIS 仮説: 問題は vision critic ではないか render差分を検出する 2D差分から3D空間における差分を推測
Blender/CADコード修正へ変換する 3DCodeBench / visual comparisons VIGA / veriﬁer traj Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. / Yin et al., VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal R... 12/32

3DCodeBench MAIN PAPER 主論文: 3DCodeBench へ VLM agent の procedural
3D code generation を評価 text / image reference から Blender Python を生成実行可能性・形状品質・人間選好を同時に見る Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. 3DCodeBench / visual comparisons VIGA / veriﬁer traj 13/32

3DCodeBench TASK DEFINITION 3DCodeBench の問題設定入力プロンプトから Blenderスクリプトを生成する
Blender 5.0 がスクリプトをメッシュに変換 single-shot と multi-turn reﬁnement を比較する 3DCodeBench Sec. 3.1, p04:051-p04:061. 3DCodeBench / visual comparisons VIGA / veriﬁer traj 14/32

3DCodeBench CODE AS OUTPUT 通常の3D生成タスクとの違い評価対象は procedural 3D modeling via
code メッシュを直接出すのではなく Blender Python を書く Pythonコードが実行され、3Dアセットになる coding agent 評価として重要な設定 3DCodeBench Sec. 3.1 and Appendix C. 15/32

3DCodeBench BENCHMARK DESIGN ベンチマーク設計プロシージャルな3Dシーン生成手法である InﬁniGenを参考に212物体カテゴリ organic (ﬂora, fauna, mollusks),
manufacture (furniture and kitchenware), and architectural fragments. 約26K code / object triplets (input prompt, 3D code, mesh) 12 frontier VLMs across providers 3DCodeBench / statistics 3DCodeBench Sec. 3.3 and Appendix A.3. 3DCodeBench / statistics Code Mesh Prompt 16/32

3DCodeBench EVALUATION 評価指標 Executability: script が実行できるか Image-grounded metrics: render 類似度
SigLIP-2/DINOv3 3D shape metrics (Chamfer距離、Uni3D 3D-3D/3D-image/3D-text) 3DCodeBench / elo vs metrics 3DCodeBench Sec. 3.4, p06:017-p06:041. LLM-as-judge, human preference (ELO) 17/32 3DCodeArena Evaluation Protocol

3DCodeBench 18 / 39 QUALITATIVE COMPARISON Image-to-3D 定性結果 3DCodeBench Sec.
4.3, p09:044-p10:034. カテゴリやオブジェクトの特徴は捉えているサイズや詳細形状の再現はむずかしいメッシュが生成できている 18/32 HF公開データの image_to_3D_agent 出力コードを同一カメラ・同一 clay材質で再レンダー

3DCodeBench RESULT OVERVIEW GPT-5.5が総合最高 3DCodeBench Sec. 4.3, p09:044-p10:034. GeminiとGPTがパレートフロンティア Claude
4.8に期待 19/32

3DCodeBench RESULT 1 人間選好に近いのは Executability ではなく視覚・形状指標 3DCodeBench Sec. 4.3,
p09:044-p10:034. 3DCodeArena は pairwise human preference を集める SigLIP / Uni3D は人間評価に近い Executability は人間選好の弱い説明変数 20/32

3DCodeBench RESULT 1 人間選好に近いのは Executability ではなく視覚・形状指標 3DCodeBench Sec. 4.3,
p09:044-p10:034. 3DCodeArena は pairwise human preference を集める SigLIP / Uni3D は人間評価に近い Executability は人間選好の弱い説明変数 21/32

3DCodeBench RESULT 2 thinking budget は軽量モデルに効くが、強いモデルでは飽和する 3DCodeBench Finding
2, Sec. 4.2 / Appendix A.3. 低〜中性能モデルでは reasoning budget を増やすと品質が改善する frontier model では改善幅が小さく、早い段階で飽和する 3D生成の失敗は「考える時間が足りない」だけでは説明できない 22/32

3DCodeBench RESULT 3 image-to-3D で view 数を増やしても品質改善は限定的 3DCodeBench Finding
3, Sec. 4.2 / Appendix A.4. image-to-3D では入力画像を 1 view から 4 views に増やしても、形状品質は一貫して改善しない追加 view は情報量を増やすが、モデルがそれを安定して 3D構造へ統合できているとは限らない与えられた情報が活用できていないのではないか ? 23/32

3DCodeBench RESULT 4 error feedback retry は Executability をほぼ天井まで上げる
3DCodeBench Finding 4, Sec. 4.3 / Appendix D.1. error feedback retry が実行失敗を大きく減らす API mismatch は traceback で直しやすい LLM agent は3D APIをかなり扱える品質指標への影響は限定的 24/32

3DCodeBench RESULT 5 agent harness は実行可能性を上げるが、形状品質はほぼ改善しない 3DCodeBench Finding
5, Sec. 4.3 / Appendix C.6. ST: Single Turn (no agent) -0.010 -0.008 +0.000 harness は Executability を上げる成功集合では shape ﬁdelity はほぼ改善しない実行できることは必要条件であって十分条件ではない 25/32

3DCodeBench READING 観察 LLM/VLMはコードを書ける runtime feedback で実行エラーも直せる visual feedback を読んで直す力が残る
Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. 26/32

Vision Critic VISUAL SELF-CRITIQUE visual self-critiqueの試み前回コード・生成render・参照画像を再提示する受理するか、修正版scriptを出す image-to-3Dでは visual
feedback が不安定 3DCodeBench Appendix D.2, p32:054-p33:023. 最大2イテレーション 27/32

Vision Critic RELATED WORK BlenderAlchemy: Editing 3D Graphics with Vision-Language
Models edit generator と state evaluator を分ける進化計算的にプログラム生成、選択をくりかえす Visual criticを使ったイテレーションによって性能が改善 BlenderAlchemy / eccv vs baseline BlenderAlchemy / geonodes placements BlenderAlchemy: Editing 3D Graphics with Vision-Language Models, arXiv:2404.17672, 2024. イテレーション数x仮説数 Blender programのAgenticな編集モデル 28/32

Vision Critic RELATED WORK VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal
Reasoning Code Generation AgentとPerceptual Feedback Agentで反復改善をする Perceptual Feedback Agentは画像差分と編集サジェストを行う ﬁne-grained spatial grounding を反復で補う Yin et al., VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning, arXiv:2601.11109, 2026. 29/32

Vision Critic RELATED WORK VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal
Reasoning Code Generation AgentとPerceptual Feedback Agentで反復改善をする Perceptual Feedback Agentは画像差分と編集サジェストを行う ﬁne-grained spatial grounding を反復で補う Yin et al., VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning, arXiv:2601.11109, 2026. 30/32

Vision Critic RELATED WORK Thinking in Blender: Staged Executable Inverse
Graphics with Vision-Language Models Staged Scene Constructionでgeometry / material / composition / lightingのステージごとに生成 Veriﬁerが特化しより適切なフィードバックができる Stageの内部ループはチェックリストを用いる。 Thinking in Blender: Staged Executable Inverse Graphics with VLMs, arXiv:2606.02580, 2026. 31/32

Vision Critic TAKEAWAY まとめ LLM agent は実行可能3Dコードを書ける自己修正は不安定 generator だけでなく
critic / veriﬁer / geometry model が必要 Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. / Yin et al., VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal R... Image-3D間のGroundingに問題があるかも 32/32 3D生成はかなり高い品質を達成している

3DCodeBench: Benchmarking Agentic Procedural 3D...

3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

Spatial AI Network

More Decks by Spatial AI Network

Other Decks in Technology

Featured

Transcript

Motivation PAPER TALK 3DCodeBench:Benchmarking Agentic Procedural 3D Modeling Via Code

Motivation WHY THIS PAPER 問い: image to 3Dモデルのvision criticの性能がボトルネックなのか ?

Motivation PROBLEM タスク: 3D生成入力: テキスト、画像... mesh や 3DGS は形状表現

Motivation BIBLIOGRAPHY 書誌情報 Authors: Yipeng Gao Lei Shu Genzhi Ye

Motivation TOOL CONNECTORS Claude の Blender / Autodesk connector はすごい

Motivation RESEARCH LINEAGE text-to-3D と image-to-3D の研究系統 text-to-3D: 言語仕様から3D表現へ image-to-3D:

Motivation SPECIALIZED CAD image-to-CAD Img2CADSeq: Image-to-CAD Generation via Sequence-Based Diffusion

Motivation IMAGE-TO-3D Image-to-3D Pixal3D TripoSplat Feedforward 3DGSやピクセル特徴量を使った生成モデル Pixal3D /

Motivation GENERAL PURPOSE General-purpose model も3D ツールに入り始めている solid modeling をLLMに教える試みが出てい

Motivation CALLENGES IN GENERAL-PURPOSE MODELS image-to-CAD / image-to-3D は難しい Tex-to-3Dでは結構うまくできていそう

Motivation WHY GENERAL MODELS なぜ general-purpose model で頑張るのか専用モデルは復元器として強い汎用モデルは対話・意図変更・編集のインターフェイスになる

Motivation HYPOTHESIS 仮説: 問題は vision critic ではないか render差分を検出する 2D差分から3D空間における差分を推測

3DCodeBench MAIN PAPER 主論文: 3DCodeBench へ VLM agent の procedural

3DCodeBench TASK DEFINITION 3DCodeBench の問題設定入力プロンプトから Blenderスクリプトを生成する

3DCodeBench CODE AS OUTPUT 通常の3D生成タスクとの違い評価対象は procedural 3D modeling via

3DCodeBench BENCHMARK DESIGN ベンチマーク設計プロシージャルな3Dシーン生成手法である InﬁniGenを参考に212物体カテゴリ organic (ﬂora, fauna, mollusks),

3DCodeBench EVALUATION 評価指標 Executability: script が実行できるか Image-grounded metrics: render 類似度

3DCodeBench 18 / 39 QUALITATIVE COMPARISON Image-to-3D 定性結果 3DCodeBench Sec.

3DCodeBench RESULT OVERVIEW GPT-5.5が総合最高 3DCodeBench Sec. 4.3, p09:044-p10:034. GeminiとGPTがパレートフロンティア Claude

3DCodeBench RESULT 1 人間選好に近いのは Executability ではなく視覚・形状指標 3DCodeBench Sec. 4.3,

3DCodeBench RESULT 1 人間選好に近いのは Executability ではなく視覚・形状指標 3DCodeBench Sec. 4.3,

3DCodeBench RESULT 2 thinking budget は軽量モデルに効くが、強いモデルでは飽和する 3DCodeBench Finding

3DCodeBench RESULT 3 image-to-3D で view 数を増やしても品質改善は限定的 3DCodeBench Finding

3DCodeBench RESULT 4 error feedback retry は Executability をほぼ天井まで上げる

3DCodeBench RESULT 5 agent harness は実行可能性を上げるが、形状品質はほぼ改善しない 3DCodeBench Finding

3DCodeBench READING 観察 LLM/VLMはコードを書ける runtime feedback で実行エラーも直せる visual feedback を読んで直す力が残る

Vision Critic VISUAL SELF-CRITIQUE visual self-critiqueの試み前回コード・生成render・参照画像を再提示する受理するか、修正版scriptを出す image-to-3Dでは visual

Vision Critic RELATED WORK BlenderAlchemy: Editing 3D Graphics with Vision-Language

Vision Critic RELATED WORK VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal

Vision Critic RELATED WORK VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal

Vision Critic RELATED WORK Thinking in Blender: Staged Executable Inverse

Vision Critic TAKEAWAY まとめ LLM agent は実行可能3Dコードを書ける自己修正は不安定 generator だけでなく