這篇論文的工作部分詳細介紹了如何開發和評估提出的HiPrompt模型,這是一種無需調優的高分辨率圖像生成方法。以下是這部分的主要內容:
- 高分辨率圖像生成問題:
- 論文首先指出了使用預訓練擴散模型進行高分辨率圖像生成的潛力,以及在擴展到4K及以上分辨率時遇到的物體重複和結構偽影問題。
- HiPrompt方法:
- 提出了HiPrompt,這是一種無需調優的解決方案,通過引入分層提示(hierarchical prompts)來解決上述問題。分層提示提供全局和局部指導,其中全局指導來自描述整體內容的用戶輸入,而局部指導則利用來自多語言模型(MLLMs)的分塊描述來詳細指導區域結構和紋理生成。
- 噪聲分解:
- 在逆向去噪過程中,將生成的噪聲分解為低頻和高頻空間分量,這些分量分別受到多個提示級別的條件限制,包括詳細的分塊描述和更廣泛的圖像級提示,以實現分層語義指導下的提示引導去噪。
- 實驗驗證:
- 通過廣泛的實驗驗證了HiPrompt在高分辨率圖像生成方面的性能,與現有最先進方法相比,顯著減少了物體重複並提高了結構質量。