WikiEdge:ArXiv-2409.02026v1/abs

標題：Foundations of Large Language Model Compression -- Part 1: Weight Quantization
中文標題：大型語言模型壓縮基礎——第一部分：權重量化
發佈日期：2024-09-03T16:20:22+00:00
作者：Sean I. Young
分類：cs.LG, cs.CL
原文連結：http://arxiv.org/abs/2409.02026v1

摘要：近年來，大型語言模型（LLMs）的壓縮已成為一個重要問題，以便在資源受限的設備上部署語言模型，降低計算成本，並減輕大規模人工智能基礎設施對環境的影響。本文從凸優化的角度提出了LLM量化的基礎，並提出了一種基於這些基礎的量化方法，該方法在性能上優於之前的方法。我們的量化框架CVXQ可擴展到包含數百億權重參數的模型，並為用戶提供在訓練後將模型壓縮到任何指定模型大小的靈活性。CVXQ的參考實現可以從[[1]]獲得。

WikiEdge:ArXiv-2409.02026v1/abs

導覽菜單

搜尋