VLM agent がテキスト・画像参照から Blender Python を生成し、実行可能な3Dアセットを作れるかを評価するベンチマークを提案
約26Kの prompt / code / mesh triplet と 12種のfrontier VLMを用いて、実行可能性・render類似度・3D形状品質・人間選好を多面的に評価
LLM/VLMは3Dコード生成やruntime errorの修正には強い一方、画像差分を読んで形状を改善するvisual feedback / critic能力にはまだ課題が残る