WikiEdge:ArXiv速遞/2025-05-12

出自WikiEdge

於 2025年5月13日 (二) 07:00 由 Carole（對話 | 貢獻）所做的修訂（Created page by Carole）

(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)

跳至導覽跳至搜尋

摘要

原文標題：Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
中文標題：Step1X-3D：面向高保真與可控紋理3D資產生成的框架
發佈日期：2025-05-12 16:56:30+00:00
作者：Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
分類：cs.CV
原文連結：http://arxiv.org/abs/2505.07747v1

中文摘要：摘要：儘管生成式人工智能在文本、圖像、音頻和視頻領域取得了顯著進展，但由於數據稀缺、算法限制和生態系統碎片化等根本性挑戰，3D生成領域仍相對欠發達。為此，我們提出了Step1X-3D這一開放框架，通過以下方式應對這些挑戰：(1) 嚴格的數據篩選流程處理超過500萬個資產，創建包含200萬個高質量資產的數據集，具有標準化的幾何和紋理屬性；(2) 採用兩階段原生3D架構，將混合VAE-DiT 幾何生成器與基於擴散模型的紋理合成模塊相結合；(3) 完整開源模型、訓練代碼和適配模塊。在幾何生成方面，混合VAE-DiT組件通過採用基於感知器的潛在編碼和銳利邊緣採樣來保持細節，生成TSDF表示。基於擴散模型的紋理合成模塊則通過幾何條件約束和潛在空間同步確保跨視圖一致性。基準測試結果表明，該框架性能達到最先進水平，超越現有開源方法，同時與專有解決方案的質量相當。值得注意的是，該框架獨特地橋接了2D和3D生成範式，支持將2D控制技術（如LoRA）直接遷移到3D合成中。通過同步提升數據質量、算法保真度和可復現性，Step1X-3D旨在為可控3D資產生成的開放研究樹立新標準。

取自 "http://zh.wikiedge.org/index.php?title=WikiEdge:ArXiv速递/2025-05-12&oldid=8790"