WikiEdge:ArXiv-2409.02026v1/background
跳至導覽
跳至搜尋
這篇文獻的背景主要集中在以下幾個方面:
- 大型語言模型(Large Language Models,LLMs)的壓縮需求:
- 模型壓縮技術的發展:
- 量化方法的挑戰:
- 儘管量化技術取得了進展,但在低比特深度下,當前的權重量化方法常常導致模型準確性嚴重下降。
- 大多數技術專門為權重量化開發,對於推理期間的激活量化過於複雜,難以應用。
- 量化框架的提出:
綜上所述,這篇文獻的背景強調了在資源受限設備上部署大型語言模型的需求,以及現有量化技術的局限性。作者提出了一種新的量化方法,旨在提高模型壓縮的效率和準確性。