查看“WikiEdge:ArXiv-2409.02026v1/background”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2409.02026v1/background|action=edit}} 编辑]</div>
这篇文献的背景主要集中在以下几个方面：
# '''大型语言模型（[[Large Language Models]]，LLMs）的压缩需求'''：
#* 大型语言模型（[[LLMs]]）已成为解决[[自然语言处理]]中众多问题的一种通用框架，包括[[文本翻译]]、[[摘要]]、[[对话式人工智能]]和[[自动生成报告]]等。
#* 这些模型通常包含数十亿甚至数百亿个权重参数，使得它们在资源受限的设备上部署面临挑战，因为模型权重和激活不再适合设备内存，需要频繁地从片外存储器加载和保存。
#* 这种限制不仅严重影响了[[LLMs]]在时间敏感任务中的可用性，也加剧了大规模[[AI]]基础设施的环境影响。
#  '''模型压缩技术的发展'''：
#* 为了降低大型模型的计算和存储需求，研究者们探索了[[模型压缩]]技术，包括[[权重剪枝]]、激活和权重的[[量化]]，以及通过[[主成分分析]]（[[PCA]]）类型的降维方法。
#* 权重和激活的量化特别有用，可以将模型压缩到非常低的比特深度或任意用户指定的模型大小，同时保持模型准确性。
#  '''量化方法的挑战'''：
#* 尽管量化技术取得了进展，但在低比特深度下，当前的权重量化方法常常导致模型准确性严重下降。
#* 大多数技术专门为权重量化开发，对于推理期间的激活量化过于复杂，难以应用。
#  '''量化框架的提出'''：
#* 本文提出了一种基于[[凸优化]]视角的[[LLM]]量化框架，旨在解决现有模型压缩文献中的技术空白，并推进[[LLMs]]的准确和高效压缩方法。
#* 作者提出了一种[[随机梯度上升]]型算法，用于在训练后精确且高效地解决量化问题，该算法在确定最佳比特深度后，几乎不需要实际进行权重量化的时间。
综上所述，这篇文献的背景强调了在资源受限设备上部署大型语言模型的需求，以及现有量化技术的局限性。作者提出了一种新的量化方法，旨在提高模型压缩的效率和准确性。