查看“WikiEdge:ArXiv速递/2025-03-06”的源代码
←
WikiEdge:ArXiv速递/2025-03-06
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
== 摘要 == * '''原文标题''':Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining * '''中文标题''':可预测的规模:第一部分——大型语言模型预训练中的最优超参数缩放规律 * '''发布日期''':2025-03-06 18:58:29+00:00 * '''作者''':Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang * '''分类''':cs.LG, cs.AI, F.2.2; I.2.7 *'''原文链接''':http://arxiv.org/abs/2503.04715v1 '''中文摘要''':[[大型语言模型]](LLMs)在各种任务中的出色能力现已得到广泛认可,但其有效部署需要仔细的[[超参数优化]]。通过在不同配置下进行广泛的[[网格搜索]]实验,我们发现了控制这些超参数的普适[[缩放规律]]:最佳[[学习率]]与[[模型参数]]和[[数据规模]]呈[[幂律关系]],而最佳[[批量大小]]主要与数据规模相关。我们的分析揭示了在固定模型和数据规模条件下,超参数的优化景观是[[凸]]的。这种凸性意味着存在一个最优超参数平台。我们为社区贡献了一个通用的即插即用最优超参数工具。其在[[测试集]]上的估计值与通过[[穷举搜索]]找到的全局最优LLM性能仅相差0.07%。这些规律在[[模型稀疏性]]、[[训练数据分布]]和[[模型形状]]的变化中表现出显著的[[鲁棒性]]。据我们所知,这是首次统一不同模型形状和结构(如[[专家混合模型]]和[[密集Transformer]])并建立跨不同数据分布的最优超参数缩放规律的工作。这一详尽的优化过程需要大量[[计算资源]],使用了近百万个[[NVIDIA H800]] [[GPU]]小时从头训练了3,700个不同规模和超参数的LLM,并消耗了约100万亿个[[token]]。为了促进[[可重复性]]和进一步研究,我们将通过指定仓库https://step-law.github.io/逐步发布所有[[损失测量值]]和[[模型检查点]]。
返回
WikiEdge:ArXiv速递/2025-03-06
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息