查看“WikiEdge:ArXiv-2409.02026v1/questions”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2409.02026v1/questions|action=edit}} 编辑]</div>
作者面对的是大型[[语言模型]]（LLMs）的压缩问题，特别是在资源受限的设备上部署语言模型、降低计算成本以及减轻大规模[[人工智能]]基础设施的环境足迹方面的挑战。具体问题包括：
# * 模型部署的资源限制：大型语言模型通常包含数十或数百亿的权重参数，这使得它们难以部署到资源有限的设备上，因为模型权重和激活不再适合设备内存，需要频繁地从片外内存加载和保存激活，这严重影响了LLMs在时间敏感任务中的可用性。
# * 计算和存储需求的降低：通过模型权重和激活的[[量化]]来压缩模型，以实现非常低的比特深度或任意用户指定的模型大小，从而减少计算和存储需求。
# * 量化方法的准确性和效率：现有的权重量化方法在低比特深度时经常导致模型准确性严重下降，且这些技术大多是为权重量化而开发，过于复杂以至于无法在推理期间应用于激活，这影响了计算效率和预测准确性。