WikiEdge:ArXiv-2409.02026v1/abs

标题：Foundations of Large Language Model Compression -- Part 1: Weight Quantization
中文标题：大型语言模型压缩基础——第一部分：权重量化
发布日期：2024-09-03T16:20:22+00:00
作者：Sean I. Young
分类：cs.LG, cs.CL
原文链接：http://arxiv.org/abs/2409.02026v1

摘要：近年来，大型语言模型（LLMs）的压缩已成为一个重要问题，以便在资源受限的设备上部署语言模型，降低计算成本，并减轻大规模人工智能基础设施对环境的影响。本文从凸优化的角度提出了LLM量化的基础，并提出了一种基于这些基础的量化方法，该方法在性能上优于之前的方法。我们的量化框架CVXQ可扩展到包含数百亿权重参数的模型，并为用户提供在训练后将模型压缩到任何指定模型大小的灵活性。CVXQ的参考实现可以从[[1]]获得。

WikiEdge:ArXiv-2409.02026v1/abs

导航菜单

搜索