WikiEdge:ArXiv-2409.02919/background

這篇文獻的背景主要集中在以下幾個方面：

高解像度圖像生成的挑戰：
- 預訓練擴散模型在高解像度圖像生成方面具有巨大潛力，但在擴展到4K及以上解像度時，這些模型常常面臨對象重複和結構偽影問題。
- 現有的高解像度圖像生成方法，如重新訓練模型或訓練新的超解像度模型，既資源密集又耗時。
現有方法的局限性：
- 儘管有研究探索了無需訓練的範式來生成更高解像度的圖像，但這些方法仍然存在模式重複和結構失真等問題。
- 例如，MultiDiffusion由於整合了所有區域的控制而引入了嚴重對象重複的問題；DemoFusion雖然嘗試通過殘差連接和擴張採樣引入全局語義信息來保持準確的全局結構，但仍然存在對象重複問題和不正確的局部結構。
層次化提示（HiPrompt）的提出：
- 為了解決上述問題，本文提出了HiPrompt，這是一種無需調整的解決方案，通過引入層次化提示來提供全局和局部指導，以改善高解像度圖像生成。
- HiPrompt通過分解生成噪聲為低頻和高頻空間分量，並在多個提示級別上進行條件化，包括詳細的局部描述和更廣泛的圖像級提示，從而在層次化語義指導下進行提示引導去噪。

綜上所述，這篇文獻的背景強調了在高解像度圖像生成領域中對有效生成方法的需求，以及現有方法的局限性。作者提出了HiPrompt方法，旨在通過層次化提示和噪聲分解策略，顯著減少對象重複，增強結構質量，從而生成更高質量的高解像度圖像。

導覽菜單