WikiEdge:ArXiv速递/2025-03-06：修订间差异

2025年3月7日 (五) 05:23的版本

摘要

原文标题：Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
中文标题：可预测的规模：第一部分——大型语言模型预训练中的最优超参数缩放规律
发布日期：2025-03-06 18:58:29+00:00
作者：Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
分类：cs.LG, cs.AI, F.2.2; I.2.7
原文链接：http://arxiv.org/abs/2503.04715v1

中文摘要：大型语言模型（LLMs）在各种任务中的出色能力现已得到广泛认可，但其有效部署需要仔细的超参数优化。通过在不同配置下进行广泛的网格搜索实验，我们发现了控制这些超参数的普适缩放规律：最佳学习率与模型参数和数据规模呈幂律关系，而最佳批量大小主要与数据规模相关。我们的分析揭示了在固定模型和数据规模条件下，超参数的优化景观是凸的。这种凸性意味着存在一个最优超参数平台。我们为社区贡献了一个通用的即插即用最优超参数工具。其在测试集上的估计值与通过穷举搜索找到的全局最优LLM性能仅相差0.07%。这些规律在模型稀疏性、训练数据分布和模型形状的变化中表现出显著的鲁棒性。据我们所知，这是首次统一不同模型形状和结构（如专家混合模型和密集Transformer）并建立跨不同数据分布的最优超参数缩放规律的工作。这一详尽的优化过程需要大量计算资源，使用了近百万个NVIDIA H800 GPU小时从头训练了3,700个不同规模和超参数的LLM，并消耗了约100万亿个token。为了促进可重复性和进一步研究，我们将通过指定仓库https://step-law.github.io/逐步发布所有损失测量值和模型检查点。

摘要

原文标题：Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection
中文标题：教YOLO记住：一种用于持续目标检测的自蒸馏方法
发布日期：2025-03-06 18:31:41+00:00
作者：Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto
分类：cs.CV
原文链接：http://arxiv.org/abs/2503.04688v1

中文摘要：实时目标检测器如YOLO在大型数据集上经过多轮训练后表现出色。然而，在数据逐步到达的现实场景中，神经网络会遭受灾难性遗忘，导致先前学到的知识丢失。为了解决这一问题，先前的研究探索了在持续目标检测（CLOD）中进行类增量学习（CIL）的策略，大多数方法集中在两阶段目标检测器上。然而，现有研究表明，对于像YOLO这样的一阶段无锚点检测器，由于回归输出的噪声，学习而不遗忘（LwF）可能无效，这可能导致传递损坏的知识。在本研究中，我们提出了YOLO LwF，一种专为基于YOLO的持续目标检测设计的自蒸馏方法。我们证明，当与回放记忆结合时，YOLO LwF显著减轻了遗忘。与之前的方法相比，它在VOC和COCO基准测试上分别提高了mAP +2.1%和+2.9%，达到了最先进的性能。

摘要

原文标题：Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
中文标题：基于MuJoCo的腿式机器人全身模型预测控制
发布日期：2025-03-06 16:59:06+00:00
作者：John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester
分类：cs.RO, cs.SY, eess.SY
原文链接：http://arxiv.org/abs/2503.04613v1

中文摘要：我们展示了一种非常简单的全身模型预测控制（MPC）方法在四足机器人和双足机器人上的惊人实际效果：使用MuJoCo动力学和有限差分近似导数的迭代LQR（iLQR）算法。基于之前在模拟中使用MuJoCo进行基于模型的行为合成以及运动和控制任务的成功经验，我们展示了这些策略可以轻松推广到现实世界，几乎不需要考虑从模拟到现实的转换。我们的基线方法在各种硬件实验中实现了实时全身MPC，包括动态四足运动、四足机器人用两条腿行走以及全尺寸双足人形机器人的运动。我们希望这种易于复现的硬件基线能够降低现实世界全身MPC研究的入门门槛，并为加速社区研究速度做出贡献。我们的代码和实验视频将在线提供：https://johnzhang3.github.io/mujoco_ilqr

@@ 第16行： / 第16行： @@
 *'''原文链接'''：http://arxiv.org/abs/2503.04688v1
 '''中文摘要'''：实时目标检测器如[[YOLO]]在大型数据集上经过多轮训练后表现出色。然而，在数据逐步到达的现实场景中，神经网络会遭受[[灾难性遗忘]]，导致先前学到的知识丢失。为了解决这一问题，先前的研究探索了在[[持续目标检测]]（[[CLOD]]）中进行[[类增量学习]]（[[CIL]]）的策略，大多数方法集中在两阶段目标检测器上。然而，现有研究表明，对于像[[YOLO]]这样的一阶段无锚点检测器，由于回归输出的噪声，[[学习而不遗忘]]（[[LwF]]）可能无效，这可能导致传递损坏的知识。在本研究中，我们提出了[[YOLO LwF]]，一种专为基于[[YOLO]]的持续目标检测设计的自蒸馏方法。我们证明，当与[[回放记忆]]结合时，[[YOLO LwF]]显著减轻了遗忘。与之前的方法相比，它在[[VOC]]和[[COCO]]基准测试上分别提高了[[mAP]] +2.1%和+2.9%，达到了最先进的性能。
+== 摘要 ==
+* '''原文标题'''：Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
+* '''中文标题'''：基于MuJoCo的腿式机器人全身模型预测控制
+* '''发布日期'''：2025-03-06 16:59:06+00:00
+* '''作者'''：John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester
+* '''分类'''：cs.RO, cs.SY, eess.SY
+*'''原文链接'''：http://arxiv.org/abs/2503.04613v1
+'''中文摘要'''：我们展示了一种非常简单的全身[[模型预测控制]]（[[MPC]]）方法在[[四足机器人]]和[[双足机器人]]上的惊人实际效果：使用[[MuJoCo]]动力学和有限差分近似导数的迭代[[LQR]]（[[iLQR]]）算法。基于之前在模拟中使用[[MuJoCo]]进行基于模型的行为合成以及运动和控制任务的成功经验，我们展示了这些策略可以轻松推广到现实世界，几乎不需要考虑从模拟到现实的转换。我们的基线方法在各种硬件实验中实现了实时全身[[MPC]]，包括动态四足运动、四足机器人用两条腿行走以及全尺寸双足人形机器人的运动。我们希望这种易于复现的硬件基线能够降低现实世界全身[[MPC]]研究的入门门槛，并为加速社区研究速度做出贡献。我们的代码和实验视频将在线提供：https://johnzhang3.github.io/mujoco_ilqr

WikiEdge:ArXiv速递/2025-03-06：修订间差异

2025年3月7日 (五) 05:23的版本

摘要

摘要

摘要

导航菜单

搜索