WikiEdge:ArXiv速遞/2025-03-06

摘要

原文標題：Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
中文標題：可預測的規模：第一部分——大型語言模型預訓練中的最優超參數縮放規律
發布日期：2025-03-06 18:58:29+00:00
作者：Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
分類：cs.LG, cs.AI, F.2.2; I.2.7
原文鏈接：http://arxiv.org/abs/2503.04715v1

中文摘要：大型語言模型（LLMs）在各種任務中的出色能力現已得到廣泛認可，但其有效部署需要仔細的超參數優化。通過在不同配置下進行廣泛的網格搜索實驗，我們發現了控制這些超參數的普適縮放規律：最佳學習率與模型參數和數據規模呈冪律關係，而最佳批量大小主要與數據規模相關。我們的分析揭示了在固定模型和數據規模條件下，超參數的優化景觀是凸的。這種凸性意味着存在一個最優超參數平台。我們為社區貢獻了一個通用的即插即用最優超參數工具。其在測試集上的估計值與通過窮舉搜索找到的全局最優LLM性能僅相差0.07%。這些規律在模型稀疏性、訓練數據分布和模型形狀的變化中表現出顯著的魯棒性。據我們所知，這是首次統一不同模型形狀和結構（如專家混合模型和密集Transformer）並建立跨不同數據分布的最優超參數縮放規律的工作。這一詳盡的優化過程需要大量計算資源，使用了近百萬個NVIDIA H800 GPU小時從頭訓練了3,700個不同規模和超參數的LLM，並消耗了約100萬億個token。為了促進可重複性和進一步研究，我們將通過指定倉庫https://step-law.github.io/逐步發布所有損失測量值和模型檢查點。

摘要

原文標題：Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection
中文標題：教YOLO記住：一種用於持續目標檢測的自蒸餾方法
發布日期：2025-03-06 18:31:41+00:00
作者：Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto
分類：cs.CV
原文鏈接：http://arxiv.org/abs/2503.04688v1

中文摘要：實時目標檢測器如YOLO在大型數據集上經過多輪訓練後表現出色。然而，在數據逐步到達的現實場景中，神經網絡會遭受災難性遺忘，導致先前學到的知識丟失。為了解決這一問題，先前的研究探索了在持續目標檢測（CLOD）中進行類增量學習（CIL）的策略，大多數方法集中在兩階段目標檢測器上。然而，現有研究表明，對於像YOLO這樣的一階段無錨點檢測器，由於回歸輸出的噪聲，學習而不遺忘（LwF）可能無效，這可能導致傳遞損壞的知識。在本研究中，我們提出了YOLO LwF，一種專為基於YOLO的持續目標檢測設計的自蒸餾方法。我們證明，當與回放記憶結合時，YOLO LwF顯著減輕了遺忘。與之前的方法相比，它在VOC和COCO基準測試上分別提高了mAP +2.1%和+2.9%，達到了最先進的性能。

摘要

原文標題：Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
中文標題：基於MuJoCo的腿式機器人全身模型預測控制
發布日期：2025-03-06 16:59:06+00:00
作者：John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester
分類：cs.RO, cs.SY, eess.SY
原文鏈接：http://arxiv.org/abs/2503.04613v1

中文摘要：我們展示了一種非常簡單的全身模型預測控制（MPC）方法在四足機器人和雙足機器人上的驚人實際效果：使用MuJoCo動力學和有限差分近似導數的迭代LQR（iLQR）算法。基於之前在模擬中使用MuJoCo進行基於模型的行為合成以及運動和控制任務的成功經驗，我們展示了這些策略可以輕鬆推廣到現實世界，幾乎不需要考慮從模擬到現實的轉換。我們的基線方法在各種硬件實驗中實現了實時全身MPC，包括動態四足運動、四足機器人用兩條腿行走以及全尺寸雙足人形機器人的運動。我們希望這種易於復現的硬件基線能夠降低現實世界全身MPC研究的入門門檻，並為加速社區研究速度做出貢獻。我們的代碼和實驗視頻將在線提供：https://johnzhang3.github.io/mujoco_ilqr

WikiEdge:ArXiv速遞/2025-03-06

摘要

摘要

摘要

導覽選單

搜尋