WikiEdge:ArXiv-2409.02919/background

这篇文献的背景主要集中在以下几个方面：

高分辨率图像生成的挑战：
- 预训练扩散模型在高分辨率图像生成方面具有巨大潜力，但在扩展到4K及以上分辨率时，这些模型常常面临对象重复和结构伪影问题。
- 现有的高分辨率图像生成方法，如重新训练模型或训练新的超分辨率模型，既资源密集又耗时。
现有方法的局限性：
- 尽管有研究探索了无需训练的范式来生成更高分辨率的图像，但这些方法仍然存在模式重复和结构失真等问题。
- 例如，MultiDiffusion由于整合了所有区域的控制而引入了严重对象重复的问题；DemoFusion虽然尝试通过残差连接和扩张采样引入全局语义信息来保持准确的全局结构，但仍然存在对象重复问题和不正确的局部结构。
层次化提示（HiPrompt）的提出：
- 为了解决上述问题，本文提出了HiPrompt，这是一种无需调整的解决方案，通过引入层次化提示来提供全局和局部指导，以改善高分辨率图像生成。
- HiPrompt通过分解生成噪声为低频和高频空间分量，并在多个提示级别上进行条件化，包括详细的局部描述和更广泛的图像级提示，从而在层次化语义指导下进行提示引导去噪。

综上所述，这篇文献的背景强调了在高分辨率图像生成领域中对有效生成方法的需求，以及现有方法的局限性。作者提出了HiPrompt方法，旨在通过层次化提示和噪声分解策略，显著减少对象重复，增强结构质量，从而生成更高质量的高分辨率图像。

导航菜单