WikiEdge:ArXiv速遞/2025-03-06

出自WikiEdge
於 2025年3月7日 (五) 05:19 由 Carole對話 | 貢獻 所做的修訂 (Created page by Carole)
(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)
跳至導覽 跳至搜尋

摘要

  • 原文標題:Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
  • 中文標題:可預測的規模:第一部分——大型語言模型預訓練中的最優超參數縮放規律
  • 發佈日期:2025-03-06 18:58:29+00:00
  • 作者:Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
  • 分類:cs.LG, cs.AI, F.2.2; I.2.7
  • 原文連結http://arxiv.org/abs/2503.04715v1

中文摘要大型語言模型(LLMs)在各種任務中的出色能力現已得到廣泛認可,但其有效部署需要仔細的超參數優化。通過在不同配置下進行廣泛的網格搜索實驗,我們發現了控制這些超參數的普適縮放規律:最佳學習率模型參數數據規模冪律關係,而最佳批量大小主要與數據規模相關。我們的分析揭示了在固定模型和數據規模條件下,超參數的優化景觀是的。這種凸性意味着存在一個最優超參數平台。我們為社區貢獻了一個通用的即插即用最優超參數工具。其在測試集上的估計值與通過窮舉搜索找到的全局最優LLM性能僅相差0.07%。這些規律在模型稀疏性訓練數據分佈模型形狀的變化中表現出顯著的魯棒性。據我們所知,這是首次統一不同模型形狀和結構(如專家混合模型密集Transformer)並建立跨不同數據分佈的最優超參數縮放規律的工作。這一詳盡的優化過程需要大量計算資源,使用了近百萬個NVIDIA H800 GPU小時從頭訓練了3,700個不同規模和超參數的LLM,並消耗了約100萬億個token。為了促進可重複性和進一步研究,我們將通過指定倉庫https://step-law.github.io/逐步發佈所有損失測量值模型檢查點