查看“WikiEdge:ArXiv-2409.02026v1/summary”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2409.02026v1/summary|action=edit}} 编辑]</div>
这篇论文是关于大型语言模型（[[LLMs]]）量化压缩的研究，主要内容包括：
# '''引言'''：介绍了大型语言模型（[[LLMs]]）在自然语言处理领域的广泛应用，以及它们面临的部署难题，即如何在资源受限的设备上部署这些模型。提出了模型压缩的必要性，包括权重剪枝、量化和降维等方法。
# '''相关工作'''：回顾了模型量化的发展历程，包括量化感知训练（[[QAT]]）和针对已训练模型的快速部署量化技术。特别提到了针对大型语言模型的量化算法，如[[GPTQ]]及其扩展。
# '''量化框架'''：详细阐述了基于凸优化理论的权重量化问题，提出了一个名为[[CVXQ]]的量化框架，该框架可以扩展到包含数千亿权重参数的模型，并允许用户在训练后将模型压缩到任何指定的模型大小。
# '''量化算法'''：提出了一种随机梯度上升型算法来精确高效地解决量化问题，该算法在确定最佳位深后，几乎不需要时间进行实际的权重量化。
# '''量化实验'''：通过在[[Meta]]的[[OPT]]和[[Llama 2]]系列语言模型上应用[[CVXQ]]算法，研究了量化模型在语言建模和数学问题解决任务上的表现。实验结果表明，[[CVXQ]]在多项指标上优于现有方法。
# '''讨论'''：讨论了将权重量化表述为凸优化问题的好处，包括明确优化目标和使用现代自动微分工具的路径。同时指出了算法的局限性和未来工作的方向，如更快的优化器和最优压缩器设计。