WikiEdge:ArXiv-2409.02919/methods

来自WikiEdge
跳转到导航 跳转到搜索
编辑

这篇论文的工作部分详细介绍了如何开发和评估提出的HiPrompt模型,这是一种无需调优的高分辨率图像生成方法。以下是这部分的主要内容:

  1. 高分辨率图像生成问题
    • 论文首先指出了使用预训练扩散模型进行高分辨率图像生成的潜力,以及在扩展到4K及以上分辨率时遇到的物体重复和结构伪影问题。
  2. HiPrompt方法
    • 提出了HiPrompt,这是一种无需调优的解决方案,通过引入分层提示(hierarchical prompts)来解决上述问题。分层提示提供全局和局部指导,其中全局指导来自描述整体内容的用户输入,而局部指导则利用来自多语言模型(MLLMs)的分块描述来详细指导区域结构和纹理生成。
  3. 噪声分解
    • 在逆向去噪过程中,将生成的噪声分解为低频和高频空间分量,这些分量分别受到多个提示级别的条件限制,包括详细的分块描述和更广泛的图像级提示,以实现分层语义指导下的提示引导去噪。
  4. 实验验证
    • 通过广泛的实验验证了HiPrompt在高分辨率图像生成方面的性能,与现有最先进方法相比,显著减少了物体重复并提高了结构质量。