查看“WikiEdge:ArXiv-2409.02919/abs”的源代码
←
WikiEdge:ArXiv-2409.02919/abs
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2409.02919v1/abs|action=edit}} 编辑]</div> * '''标题''':HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts * '''中文标题''':HiPrompt:无调优的高分辨率生成与层次化多模态大语言模型提示 * '''发布日期''':2024-09-04 17:58:08+00:00 * '''作者''':Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qingfeng Liu, Yike Guo * '''分类''':cs.CV * '''原文链接''':http://arxiv.org/abs/2409.02919v1 '''摘要''':预训练[[扩散模型]]在高分辨率[[图像生成]]方面的潜力巨大,但这些模型在扩展到4K分辨率及更高时,常常面临物体重复和结构伪影等问题。我们发现,这个问题的根源在于,单一的提示在生成多个尺度时效果不足。为此,我们提出了[[HiPrompt]],这是一种新的无调优解决方案,通过引入层次化提示来解决上述问题。层次化提示提供了全局和局部的指导。具体而言,全局指导来自用户输入的整体内容描述,而局部指导则利用[[多层次语言模型]](MLLM)的逐块描述,精细指导区域结构和纹理的生成。此外,在逆去噪过程中,生成的噪声被分解为低频和高频空间分量。这些分量在多个提示层次的条件下进行处理,包括详细的逐块描述和更广泛的[[图像级提示]],从而促进在层次语义指导下的提示引导去噪。这进一步使生成过程更关注局部空间区域,并确保生成的图像在高分辨率下保持一致的局部和全局语义、结构和纹理。大量实验表明,[[HiPrompt]]在高分辨率图像生成方面优于最先进的工作,显著减少了物体重复并增强了结构质量。
返回
WikiEdge:ArXiv-2409.02919/abs
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息