查看“WikiEdge:ArXiv-2409.02919/abs”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2409.02919v1/abs|action=edit}} 编辑]</div>
* '''标题'''：HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts
* '''中文标题'''：HiPrompt：无调优的高分辨率生成与层次化多模态大语言模型提示
* '''发布日期'''：2024-09-04 17:58:08+00:00
* '''作者'''：Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qingfeng Liu, Yike Guo
* '''分类'''：cs.CV
* '''原文链接'''：http://arxiv.org/abs/2409.02919v1
'''摘要'''：预训练[[扩散模型]]在高分辨率[[图像生成]]方面的潜力巨大，但这些模型在扩展到4K分辨率及更高时，常常面临物体重复和结构伪影等问题。我们发现，这个问题的根源在于，单一的提示在生成多个尺度时效果不足。为此，我们提出了[[HiPrompt]]，这是一种新的无调优解决方案，通过引入层次化提示来解决上述问题。层次化提示提供了全局和局部的指导。具体而言，全局指导来自用户输入的整体内容描述，而局部指导则利用[[多层次语言模型]]（MLLM）的逐块描述，精细指导区域结构和纹理的生成。此外，在逆去噪过程中，生成的噪声被分解为低频和高频空间分量。这些分量在多个提示层次的条件下进行处理，包括详细的逐块描述和更广泛的[[图像级提示]]，从而促进在层次语义指导下的提示引导去噪。这进一步使生成过程更关注局部空间区域，并确保生成的图像在高分辨率下保持一致的局部和全局语义、结构和纹理。大量实验表明，[[HiPrompt]]在高分辨率图像生成方面优于最先进的工作，显著减少了物体重复并增强了结构质量。