WikiEdge:ArXiv速递/2025-03-06

来自WikiEdge
Carole留言 | 贡献2025年3月7日 (五) 05:23的版本 (Updated page by Carole)
跳转到导航 跳转到搜索

摘要

  • 原文标题:Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
  • 中文标题:可预测的规模:第一部分——大型语言模型预训练中的最优超参数缩放规律
  • 发布日期:2025-03-06 18:58:29+00:00
  • 作者:Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
  • 分类:cs.LG, cs.AI, F.2.2; I.2.7
  • 原文链接http://arxiv.org/abs/2503.04715v1

中文摘要大型语言模型(LLMs)在各种任务中的出色能力现已得到广泛认可,但其有效部署需要仔细的超参数优化。通过在不同配置下进行广泛的网格搜索实验,我们发现了控制这些超参数的普适缩放规律:最佳学习率模型参数数据规模幂律关系,而最佳批量大小主要与数据规模相关。我们的分析揭示了在固定模型和数据规模条件下,超参数的优化景观是的。这种凸性意味着存在一个最优超参数平台。我们为社区贡献了一个通用的即插即用最优超参数工具。其在测试集上的估计值与通过穷举搜索找到的全局最优LLM性能仅相差0.07%。这些规律在模型稀疏性训练数据分布模型形状的变化中表现出显著的鲁棒性。据我们所知,这是首次统一不同模型形状和结构(如专家混合模型密集Transformer)并建立跨不同数据分布的最优超参数缩放规律的工作。这一详尽的优化过程需要大量计算资源,使用了近百万个NVIDIA H800 GPU小时从头训练了3,700个不同规模和超参数的LLM,并消耗了约100万亿个token。为了促进可重复性和进一步研究,我们将通过指定仓库https://step-law.github.io/逐步发布所有损失测量值模型检查点

摘要

  • 原文标题:Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection
  • 中文标题:教YOLO记住:一种用于持续目标检测的自蒸馏方法
  • 发布日期:2025-03-06 18:31:41+00:00
  • 作者:Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto
  • 分类:cs.CV
  • 原文链接http://arxiv.org/abs/2503.04688v1

中文摘要:实时目标检测器如YOLO在大型数据集上经过多轮训练后表现出色。然而,在数据逐步到达的现实场景中,神经网络会遭受灾难性遗忘,导致先前学到的知识丢失。为了解决这一问题,先前的研究探索了在持续目标检测CLOD)中进行类增量学习CIL)的策略,大多数方法集中在两阶段目标检测器上。然而,现有研究表明,对于像YOLO这样的一阶段无锚点检测器,由于回归输出的噪声,学习而不遗忘LwF)可能无效,这可能导致传递损坏的知识。在本研究中,我们提出了YOLO LwF,一种专为基于YOLO的持续目标检测设计的自蒸馏方法。我们证明,当与回放记忆结合时,YOLO LwF显著减轻了遗忘。与之前的方法相比,它在VOCCOCO基准测试上分别提高了mAP +2.1%和+2.9%,达到了最先进的性能。

摘要

  • 原文标题:Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
  • 中文标题:基于MuJoCo的腿式机器人全身模型预测控制
  • 发布日期:2025-03-06 16:59:06+00:00
  • 作者:John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester
  • 分类:cs.RO, cs.SY, eess.SY
  • 原文链接http://arxiv.org/abs/2503.04613v1

中文摘要:我们展示了一种非常简单的全身模型预测控制MPC)方法在四足机器人双足机器人上的惊人实际效果:使用MuJoCo动力学和有限差分近似导数的迭代LQRiLQR)算法。基于之前在模拟中使用MuJoCo进行基于模型的行为合成以及运动和控制任务的成功经验,我们展示了这些策略可以轻松推广到现实世界,几乎不需要考虑从模拟到现实的转换。我们的基线方法在各种硬件实验中实现了实时全身MPC,包括动态四足运动、四足机器人用两条腿行走以及全尺寸双足人形机器人的运动。我们希望这种易于复现的硬件基线能够降低现实世界全身MPC研究的入门门槛,并为加速社区研究速度做出贡献。我们的代码和实验视频将在线提供:https://johnzhang3.github.io/mujoco_ilqr