WikiEdge:ArXiv-2409.02026v1/questions

作者面對的是大型語言模型（LLMs）的壓縮問題，特別是在資源受限的設備上部署語言模型、降低計算成本以及減輕大規模人工智慧基礎設施的環境足跡方面的挑戰。具體問題包括：

模型部署的資源限制：大型語言模型通常包含數十或數百億的權重參數，這使得它們難以部署到資源有限的設備上，因為模型權重和激活不再適合設備內存，需要頻繁地從片外內存加載和保存激活，這嚴重影響了LLMs在時間敏感任務中的可用性。
計算和存儲需求的降低：通過模型權重和激活的量化來壓縮模型，以實現非常低的比特深度或任意用戶指定的模型大小，從而減少計算和存儲需求。
量化方法的準確性和效率：現有的權重量化方法在低比特深度時經常導致模型準確性嚴重下降，且這些技術大多是為權重量化而開發，過於複雜以至於無法在推理期間應用於激活，這影響了計算效率和預測準確性。

導覽選單