WikiEdge:ArXiv-2409.02919/methods

出自WikiEdge
跳至導覽 跳至搜尋
編輯

這篇論文的工作部分詳細介紹了如何開發和評估提出的HiPrompt模型,這是一種無需調優的高解像度圖像生成方法。以下是這部分的主要內容:

  1. 高解像度圖像生成問題
    • 論文首先指出了使用預訓練擴散模型進行高解像度圖像生成的潛力,以及在擴展到4K及以上解像度時遇到的物體重複和結構偽影問題。
  2. HiPrompt方法
    • 提出了HiPrompt,這是一種無需調優的解決方案,通過引入分層提示(hierarchical prompts)來解決上述問題。分層提示提供全局和局部指導,其中全局指導來自描述整體內容的用戶輸入,而局部指導則利用來自多語言模型(MLLMs)的分塊描述來詳細指導區域結構和紋理生成。
  3. 噪聲分解
    • 在逆向去噪過程中,將生成的噪聲分解為低頻和高頻空間分量,這些分量分別受到多個提示級別的條件限制,包括詳細的分塊描述和更廣泛的圖像級提示,以實現分層語義指導下的提示引導去噪。
  4. 實驗驗證
    • 通過廣泛的實驗驗證了HiPrompt在高解像度圖像生成方面的性能,與現有最先進方法相比,顯著減少了物體重複並提高了結構質量。