WikiEdge:ArXiv速遞/2025-03-06
摘要
- 原文標題:Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
- 中文標題:可預測的規模:第一部分——大型語言模型預訓練中的最優超參數縮放規律
- 發布日期:2025-03-06 18:58:29+00:00
- 作者:Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
- 分類:cs.LG, cs.AI, F.2.2; I.2.7
- 原文鏈接:http://arxiv.org/abs/2503.04715v1
中文摘要:大型語言模型(LLMs)在各種任務中的出色能力現已得到廣泛認可,但其有效部署需要仔細的超參數優化。通過在不同配置下進行廣泛的網格搜索實驗,我們發現了控制這些超參數的普適縮放規律:最佳學習率與模型參數和數據規模呈冪律關係,而最佳批量大小主要與數據規模相關。我們的分析揭示了在固定模型和數據規模條件下,超參數的優化景觀是凸的。這種凸性意味着存在一個最優超參數平台。我們為社區貢獻了一個通用的即插即用最優超參數工具。其在測試集上的估計值與通過窮舉搜索找到的全局最優LLM性能僅相差0.07%。這些規律在模型稀疏性、訓練數據分布和模型形狀的變化中表現出顯著的魯棒性。據我們所知,這是首次統一不同模型形狀和結構(如專家混合模型和密集Transformer)並建立跨不同數據分布的最優超參數縮放規律的工作。這一詳盡的優化過程需要大量計算資源,使用了近百萬個NVIDIA H800 GPU小時從頭訓練了3,700個不同規模和超參數的LLM,並消耗了約100萬億個token。為了促進可重複性和進一步研究,我們將通過指定倉庫https://step-law.github.io/逐步發布所有損失測量值和模型檢查點。
摘要
- 原文標題:Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection
- 中文標題:教YOLO記住:一種用於持續目標檢測的自蒸餾方法
- 發布日期:2025-03-06 18:31:41+00:00
- 作者:Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto
- 分類:cs.CV
- 原文鏈接:http://arxiv.org/abs/2503.04688v1
中文摘要:實時目標檢測器如YOLO在大型數據集上經過多輪訓練後表現出色。然而,在數據逐步到達的現實場景中,神經網絡會遭受災難性遺忘,導致先前學到的知識丟失。為了解決這一問題,先前的研究探索了在持續目標檢測(CLOD)中進行類增量學習(CIL)的策略,大多數方法集中在兩階段目標檢測器上。然而,現有研究表明,對於像YOLO這樣的一階段無錨點檢測器,由於回歸輸出的噪聲,學習而不遺忘(LwF)可能無效,這可能導致傳遞損壞的知識。在本研究中,我們提出了YOLO LwF,一種專為基於YOLO的持續目標檢測設計的自蒸餾方法。我們證明,當與回放記憶結合時,YOLO LwF顯著減輕了遺忘。與之前的方法相比,它在VOC和COCO基準測試上分別提高了mAP +2.1%和+2.9%,達到了最先進的性能。
摘要
- 原文標題:Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
- 中文標題:基於MuJoCo的腿式機器人全身模型預測控制
- 發布日期:2025-03-06 16:59:06+00:00
- 作者:John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester
- 分類:cs.RO, cs.SY, eess.SY
- 原文鏈接:http://arxiv.org/abs/2503.04613v1
中文摘要:我們展示了一種非常簡單的全身模型預測控制(MPC)方法在四足機器人和雙足機器人上的驚人實際效果:使用MuJoCo動力學和有限差分近似導數的迭代LQR(iLQR)算法。基於之前在模擬中使用MuJoCo進行基於模型的行為合成以及運動和控制任務的成功經驗,我們展示了這些策略可以輕鬆推廣到現實世界,幾乎不需要考慮從模擬到現實的轉換。我們的基線方法在各種硬件實驗中實現了實時全身MPC,包括動態四足運動、四足機器人用兩條腿行走以及全尺寸雙足人形機器人的運動。我們希望這種易於復現的硬件基線能夠降低現實世界全身MPC研究的入門門檻,並為加速社區研究速度做出貢獻。我們的代碼和實驗視頻將在線提供:https://johnzhang3.github.io/mujoco_ilqr