WikiEdge:ArXiv-2409.02919/methods

这篇论文的工作部分详细介绍了如何开发和评估提出的HiPrompt模型，这是一种无需调优的高分辨率图像生成方法。以下是这部分的主要内容：

高分辨率图像生成问题：
- 论文首先指出了使用预训练扩散模型进行高分辨率图像生成的潜力，以及在扩展到4K及以上分辨率时遇到的物体重复和结构伪影问题。
HiPrompt方法：
- 提出了HiPrompt，这是一种无需调优的解决方案，通过引入分层提示（hierarchical prompts）来解决上述问题。分层提示提供全局和局部指导，其中全局指导来自描述整体内容的用户输入，而局部指导则利用来自多语言模型（MLLMs）的分块描述来详细指导区域结构和纹理生成。
噪声分解：
- 在逆向去噪过程中，将生成的噪声分解为低频和高频空间分量，这些分量分别受到多个提示级别的条件限制，包括详细的分块描述和更广泛的图像级提示，以实现分层语义指导下的提示引导去噪。
实验验证：
- 通过广泛的实验验证了HiPrompt在高分辨率图像生成方面的性能，与现有最先进方法相比，显著减少了物体重复并提高了结构质量。

导航菜单