WikiEdge:ArXiv-2409.02919/abs
跳转到导航
跳转到搜索
- 标题:HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts
- 中文标题:HiPrompt:无调优的高分辨率生成与层次化多模态大语言模型提示
- 发布日期:2024-09-04 17:58:08+00:00
- 作者:Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qingfeng Liu, Yike Guo
- 分类:cs.CV
- 原文链接:http://arxiv.org/abs/2409.02919v1
摘要:预训练扩散模型在高分辨率图像生成方面的潜力巨大,但这些模型在扩展到4K分辨率及更高时,常常面临物体重复和结构伪影等问题。我们发现,这个问题的根源在于,单一的提示在生成多个尺度时效果不足。为此,我们提出了HiPrompt,这是一种新的无调优解决方案,通过引入层次化提示来解决上述问题。层次化提示提供了全局和局部的指导。具体而言,全局指导来自用户输入的整体内容描述,而局部指导则利用多层次语言模型(MLLM)的逐块描述,精细指导区域结构和纹理的生成。此外,在逆去噪过程中,生成的噪声被分解为低频和高频空间分量。这些分量在多个提示层次的条件下进行处理,包括详细的逐块描述和更广泛的图像级提示,从而促进在层次语义指导下的提示引导去噪。这进一步使生成过程更关注局部空间区域,并确保生成的图像在高分辨率下保持一致的局部和全局语义、结构和纹理。大量实验表明,HiPrompt在高分辨率图像生成方面优于最先进的工作,显著减少了物体重复并增强了结构质量。