WikiEdge:ArXiv-2409.02919/abs

出自WikiEdge
跳至導覽 跳至搜尋
編輯
  • 標題:HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts
  • 中文標題:HiPrompt:無調優的高解析度生成與層次化多模態大語言模型提示
  • 發布日期:2024-09-04 17:58:08+00:00
  • 作者:Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qingfeng Liu, Yike Guo
  • 分類:cs.CV
  • 原文連結http://arxiv.org/abs/2409.02919v1

摘要:預訓練擴散模型在高解析度圖像生成方面的潛力巨大,但這些模型在擴展到4K解析度及更高時,常常面臨物體重複和結構偽影等問題。我們發現,這個問題的根源在於,單一的提示在生成多個尺度時效果不足。為此,我們提出了HiPrompt,這是一種新的無調優解決方案,通過引入層次化提示來解決上述問題。層次化提示提供了全局和局部的指導。具體而言,全局指導來自用戶輸入的整體內容描述,而局部指導則利用多層次語言模型(MLLM)的逐塊描述,精細指導區域結構和紋理的生成。此外,在逆去噪過程中,生成的噪聲被分解為低頻和高頻空間分量。這些分量在多個提示層次的條件下進行處理,包括詳細的逐塊描述和更廣泛的圖像級提示,從而促進在層次語義指導下的提示引導去噪。這進一步使生成過程更關注局部空間區域,並確保生成的圖像在高解析度下保持一致的局部和全局語義、結構和紋理。大量實驗表明,HiPrompt在高解析度圖像生成方面優於最先進的工作,顯著減少了物體重複並增強了結構質量。