查看“WikiEdge:ArXiv-2409.02026v1/questions”的源代码
←
WikiEdge:ArXiv-2409.02026v1/questions
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2409.02026v1/questions|action=edit}} 编辑]</div> 作者面对的是大型[[语言模型]](LLMs)的压缩问题,特别是在资源受限的设备上部署语言模型、降低计算成本以及减轻大规模[[人工智能]]基础设施的环境足迹方面的挑战。具体问题包括: # * 模型部署的资源限制:大型语言模型通常包含数十或数百亿的权重参数,这使得它们难以部署到资源有限的设备上,因为模型权重和激活不再适合设备内存,需要频繁地从片外内存加载和保存激活,这严重影响了LLMs在时间敏感任务中的可用性。 # * 计算和存储需求的降低:通过模型权重和激活的[[量化]]来压缩模型,以实现非常低的比特深度或任意用户指定的模型大小,从而减少计算和存储需求。 # * 量化方法的准确性和效率:现有的权重量化方法在低比特深度时经常导致模型准确性严重下降,且这些技术大多是为权重量化而开发,过于复杂以至于无法在推理期间应用于激活,这影响了计算效率和预测准确性。
返回
WikiEdge:ArXiv-2409.02026v1/questions
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息