WikiEdge:ArXiv-2409.02026v1/abs

出自WikiEdge
跳至導覽 跳至搜尋
編輯
  • 標題:Foundations of Large Language Model Compression -- Part 1: Weight Quantization
  • 中文標題:大型語言模型壓縮基礎——第一部分:權重量化
  • 發佈日期:2024-09-03T16:20:22+00:00
  • 作者:Sean I. Young
  • 分類:cs.LG, cs.CL
  • 原文連結http://arxiv.org/abs/2409.02026v1

摘要:近年來,大型語言模型(LLMs)的壓縮已成為一個重要問題,以便在資源受限的設備上部署語言模型,降低計算成本,並減輕大規模人工智能基礎設施對環境的影響。本文從凸優化的角度提出了LLM量化的基礎,並提出了一種基於這些基礎的量化方法,該方法在性能上優於之前的方法。我們的量化框架CVXQ可擴展到包含數百億權重參數的模型,並為用戶提供在訓練後將模型壓縮到任何指定模型大小的靈活性。CVXQ的參考實現可以從[[1]]獲得。