WikiEdge:ArXiv-2409.02026v1/questions

作者面对的是大型语言模型（LLMs）的压缩问题，特别是在资源受限的设备上部署语言模型、降低计算成本以及减轻大规模人工智能基础设施的环境足迹方面的挑战。具体问题包括：

模型部署的资源限制：大型语言模型通常包含数十或数百亿的权重参数，这使得它们难以部署到资源有限的设备上，因为模型权重和激活不再适合设备内存，需要频繁地从片外内存加载和保存激活，这严重影响了LLMs在时间敏感任务中的可用性。
计算和存储需求的降低：通过模型权重和激活的量化来压缩模型，以实现非常低的比特深度或任意用户指定的模型大小，从而减少计算和存储需求。
量化方法的准确性和效率：现有的权重量化方法在低比特深度时经常导致模型准确性严重下降，且这些技术大多是为权重量化而开发，过于复杂以至于无法在推理期间应用于激活，这影响了计算效率和预测准确性。

导航菜单