查看“WikiEdge:ArXiv-2409.02026v1/abs”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2409.02026v1/abs|action=edit}} 编辑]</div>
* '''标题'''：Foundations of Large Language Model Compression -- Part 1: Weight Quantization
* '''中文标题'''：大型语言模型压缩基础——第一部分：权重量化
* '''发布日期'''：2024-09-03T16:20:22+00:00
* '''作者'''：Sean I. Young
* '''分类'''：cs.LG, cs.CL
* '''原文链接'''：http://arxiv.org/abs/2409.02026v1
'''摘要'''：近年来，大型语言模型（[[LLMs]]）的压缩已成为一个重要问题，以便在资源受限的设备上部署语言模型，降低计算成本，并减轻大规模人工智能基础设施对环境的影响。本文从凸优化的角度提出了LLM量化的基础，并提出了一种基于这些基础的量化方法，该方法在性能上优于之前的方法。我们的量化框架[[CVXQ]]可扩展到包含数百亿权重参数的模型，并为用户提供在训练后将模型压缩到任何指定模型大小的灵活性。[[CVXQ]]的参考实现可以从[[https://github.com/seannz/cvxq]]获得。