WikiEdge:ArXiv速递/2025-05-12
摘要
- 原文标题:Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
- 中文标题:Step1X-3D:面向高保真与可控纹理3D资产生成的框架
- 发布日期:2025-05-12 16:56:30+00:00
- 作者:Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
- 分类:cs.CV
- 原文链接:http://arxiv.org/abs/2505.07747v1
中文摘要:摘要:尽管生成式人工智能在文本、图像、音频和视频领域取得了显著进展,但由于数据稀缺、算法限制和生态系统碎片化等根本性挑战,3D生成领域仍相对欠发达。为此,我们提出了Step1X-3D这一开放框架,通过以下方式应对这些挑战:(1) 严格的数据筛选流程处理超过500万个资产,创建包含200万个高质量资产的数据集,具有标准化的几何和纹理属性;(2) 采用两阶段原生3D架构,将混合VAE-DiT几何生成器与基于扩散模型的纹理合成模块相结合;(3) 完整开源模型、训练代码和适配模块。在几何生成方面,混合VAE-DiT组件通过采用基于感知器的潜在编码和锐利边缘采样来保持细节,生成TSDF表示。基于扩散模型的纹理合成模块则通过几何条件约束和潜在空间同步确保跨视图一致性。基准测试结果表明,该框架性能达到最先进水平,超越现有开源方法,同时与专有解决方案的质量相当。值得注意的是,该框架独特地桥接了2D和3D生成范式,支持将2D控制技术(如LoRA)直接迁移到3D合成中。通过同步提升数据质量、算法保真度和可复现性,Step1X-3D旨在为可控3D资产生成的开放研究树立新标准。