WikiEdge:ArXiv-2409.02919/methods

這篇論文的工作部分詳細介紹了如何開發和評估提出的HiPrompt模型，這是一種無需調優的高分辨率圖像生成方法。以下是這部分的主要內容：

高分辨率圖像生成問題：
- 論文首先指出了使用預訓練擴散模型進行高分辨率圖像生成的潛力，以及在擴展到4K及以上分辨率時遇到的物體重複和結構偽影問題。
HiPrompt方法：
- 提出了HiPrompt，這是一種無需調優的解決方案，通過引入分層提示（hierarchical prompts）來解決上述問題。分層提示提供全局和局部指導，其中全局指導來自描述整體內容的用戶輸入，而局部指導則利用來自多語言模型（MLLMs）的分塊描述來詳細指導區域結構和紋理生成。
噪聲分解：
- 在逆向去噪過程中，將生成的噪聲分解為低頻和高頻空間分量，這些分量分別受到多個提示級別的條件限制，包括詳細的分塊描述和更廣泛的圖像級提示，以實現分層語義指導下的提示引導去噪。
實驗驗證：
- 通過廣泛的實驗驗證了HiPrompt在高分辨率圖像生成方面的性能，與現有最先進方法相比，顯著減少了物體重複並提高了結構質量。

導覽選單