WikiEdge:ArXiv速遞/2025-03-06
摘要
- 原文標題:Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
- 中文標題:可預測的規模:第一部分——大型語言模型預訓練中的最優超參數縮放規律
- 發佈日期:2025-03-06 18:58:29+00:00
- 作者:Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
- 分類:cs.LG, cs.AI, F.2.2; I.2.7
- 原文連結:http://arxiv.org/abs/2503.04715v1
中文摘要:大型語言模型(LLMs)在各種任務中的出色能力現已得到廣泛認可,但其有效部署需要仔細的超參數優化。通過在不同配置下進行廣泛的網格搜索實驗,我們發現了控制這些超參數的普適縮放規律:最佳學習率與模型參數和數據規模呈冪律關係,而最佳批量大小主要與數據規模相關。我們的分析揭示了在固定模型和數據規模條件下,超參數的優化景觀是凸的。這種凸性意味着存在一個最優超參數平台。我們為社區貢獻了一個通用的即插即用最優超參數工具。其在測試集上的估計值與通過窮舉搜索找到的全局最優LLM性能僅相差0.07%。這些規律在模型稀疏性、訓練數據分佈和模型形狀的變化中表現出顯著的魯棒性。據我們所知,這是首次統一不同模型形狀和結構(如專家混合模型和密集Transformer)並建立跨不同數據分佈的最優超參數縮放規律的工作。這一詳盡的優化過程需要大量計算資源,使用了近百萬個NVIDIA H800 GPU小時從頭訓練了3,700個不同規模和超參數的LLM,並消耗了約100萬億個token。為了促進可重複性和進一步研究,我們將通過指定倉庫https://step-law.github.io/逐步發佈所有損失測量值和模型檢查點。