WikiEdge:ArXiv-2409.02026v1/abs

来自WikiEdge
跳转到导航 跳转到搜索
编辑
  • 标题:Foundations of Large Language Model Compression -- Part 1: Weight Quantization
  • 中文标题:大型语言模型压缩基础——第一部分:权重量化
  • 发布日期:2024-09-03T16:20:22+00:00
  • 作者:Sean I. Young
  • 分类:cs.LG, cs.CL
  • 原文链接http://arxiv.org/abs/2409.02026v1

摘要:近年来,大型语言模型(LLMs)的压缩已成为一个重要问题,以便在资源受限的设备上部署语言模型,降低计算成本,并减轻大规模人工智能基础设施对环境的影响。本文从凸优化的角度提出了LLM量化的基础,并提出了一种基于这些基础的量化方法,该方法在性能上优于之前的方法。我们的量化框架CVXQ可扩展到包含数百亿权重参数的模型,并为用户提供在训练后将模型压缩到任何指定模型大小的灵活性。CVXQ的参考实现可以从[[1]]获得。