WikiEdge:ArXiv-2409.02919/abs

標題：HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts
中文標題：HiPrompt：無調優的高解析度生成與層次化多模態大語言模型提示
發布日期：2024-09-04 17:58:08+00:00
作者：Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qingfeng Liu, Yike Guo
分類：cs.CV
原文連結：http://arxiv.org/abs/2409.02919v1

摘要：預訓練擴散模型在高解析度圖像生成方面的潛力巨大，但這些模型在擴展到4K解析度及更高時，常常面臨物體重複和結構偽影等問題。我們發現，這個問題的根源在於，單一的提示在生成多個尺度時效果不足。為此，我們提出了HiPrompt，這是一種新的無調優解決方案，通過引入層次化提示來解決上述問題。層次化提示提供了全局和局部的指導。具體而言，全局指導來自用戶輸入的整體內容描述，而局部指導則利用多層次語言模型（MLLM）的逐塊描述，精細指導區域結構和紋理的生成。此外，在逆去噪過程中，生成的噪聲被分解為低頻和高頻空間分量。這些分量在多個提示層次的條件下進行處理，包括詳細的逐塊描述和更廣泛的圖像級提示，從而促進在層次語義指導下的提示引導去噪。這進一步使生成過程更關注局部空間區域，並確保生成的圖像在高解析度下保持一致的局部和全局語義、結構和紋理。大量實驗表明，HiPrompt在高解析度圖像生成方面優於最先進的工作，顯著減少了物體重複並增強了結構質量。

WikiEdge:ArXiv-2409.02919/abs

導覽選單

搜尋