WikiEdge:ArXiv速递/2025-05-12

来自WikiEdge
Carole留言 | 贡献2025年5月13日 (二) 07:00的版本 (Created page by Carole)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

摘要

  • 原文标题:Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
  • 中文标题:Step1X-3D:面向高保真与可控纹理3D资产生成的框架
  • 发布日期:2025-05-12 16:56:30+00:00
  • 作者:Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
  • 分类:cs.CV
  • 原文链接http://arxiv.org/abs/2505.07747v1

中文摘要:摘要:尽管生成式人工智能文本图像音频视频领域取得了显著进展,但由于数据稀缺算法限制生态系统碎片化等根本性挑战,3D生成领域仍相对欠发达。为此,我们提出了Step1X-3D这一开放框架,通过以下方式应对这些挑战:(1) 严格的数据筛选流程处理超过500万个资产,创建包含200万个高质量资产的数据集,具有标准化的几何纹理属性;(2) 采用两阶段原生3D架构,将混合VAE-DiT几何生成器与基于扩散模型纹理合成模块相结合;(3) 完整开源模型训练代码适配模块。在几何生成方面,混合VAE-DiT组件通过采用基于感知器潜在编码锐利边缘采样来保持细节,生成TSDF表示。基于扩散模型纹理合成模块则通过几何条件约束潜在空间同步确保跨视图一致性。基准测试结果表明,该框架性能达到最先进水平,超越现有开源方法,同时与专有解决方案的质量相当。值得注意的是,该框架独特地桥接了2D3D生成范式,支持将2D控制技术(如LoRA)直接迁移到3D合成中。通过同步提升数据质量算法保真度可复现性Step1X-3D旨在为可控3D资产生成的开放研究树立新标准。