WikiEdge:ArXiv-2409.02919/abs

标题：HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts
中文标题：HiPrompt：无调优的高分辨率生成与层次化多模态大语言模型提示
发布日期：2024-09-04 17:58:08+00:00
作者：Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qingfeng Liu, Yike Guo
分类：cs.CV
原文链接：http://arxiv.org/abs/2409.02919v1

摘要：预训练扩散模型在高分辨率图像生成方面的潜力巨大，但这些模型在扩展到4K分辨率及更高时，常常面临物体重复和结构伪影等问题。我们发现，这个问题的根源在于，单一的提示在生成多个尺度时效果不足。为此，我们提出了HiPrompt，这是一种新的无调优解决方案，通过引入层次化提示来解决上述问题。层次化提示提供了全局和局部的指导。具体而言，全局指导来自用户输入的整体内容描述，而局部指导则利用多层次语言模型（MLLM）的逐块描述，精细指导区域结构和纹理的生成。此外，在逆去噪过程中，生成的噪声被分解为低频和高频空间分量。这些分量在多个提示层次的条件下进行处理，包括详细的逐块描述和更广泛的图像级提示，从而促进在层次语义指导下的提示引导去噪。这进一步使生成过程更关注局部空间区域，并确保生成的图像在高分辨率下保持一致的局部和全局语义、结构和纹理。大量实验表明，HiPrompt在高分辨率图像生成方面优于最先进的工作，显著减少了物体重复并增强了结构质量。

WikiEdge:ArXiv-2409.02919/abs

导航菜单

搜索