WikiEdge:ArXiv速递/2025-03-06
摘要
- 原文标题:Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
- 中文标题:可预测的规模:第一部分——大型语言模型预训练中的最优超参数缩放规律
- 发布日期:2025-03-06 18:58:29+00:00
- 作者:Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
- 分类:cs.LG, cs.AI, F.2.2; I.2.7
- 原文链接:http://arxiv.org/abs/2503.04715v1
中文摘要:大型语言模型(LLMs)在各种任务中的出色能力现已得到广泛认可,但其有效部署需要仔细的超参数优化。通过在不同配置下进行广泛的网格搜索实验,我们发现了控制这些超参数的普适缩放规律:最佳学习率与模型参数和数据规模呈幂律关系,而最佳批量大小主要与数据规模相关。我们的分析揭示了在固定模型和数据规模条件下,超参数的优化景观是凸的。这种凸性意味着存在一个最优超参数平台。我们为社区贡献了一个通用的即插即用最优超参数工具。其在测试集上的估计值与通过穷举搜索找到的全局最优LLM性能仅相差0.07%。这些规律在模型稀疏性、训练数据分布和模型形状的变化中表现出显著的鲁棒性。据我们所知,这是首次统一不同模型形状和结构(如专家混合模型和密集Transformer)并建立跨不同数据分布的最优超参数缩放规律的工作。这一详尽的优化过程需要大量计算资源,使用了近百万个NVIDIA H800 GPU小时从头训练了3,700个不同规模和超参数的LLM,并消耗了约100万亿个token。为了促进可重复性和进一步研究,我们将通过指定仓库https://step-law.github.io/逐步发布所有损失测量值和模型检查点。
摘要
- 原文标题:Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection
- 中文标题:教YOLO记住:一种用于持续目标检测的自蒸馏方法
- 发布日期:2025-03-06 18:31:41+00:00
- 作者:Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto
- 分类:cs.CV
- 原文链接:http://arxiv.org/abs/2503.04688v1
中文摘要:实时目标检测器如YOLO在大型数据集上经过多轮训练后表现出色。然而,在数据逐步到达的现实场景中,神经网络会遭受灾难性遗忘,导致先前学到的知识丢失。为了解决这一问题,先前的研究探索了在持续目标检测(CLOD)中进行类增量学习(CIL)的策略,大多数方法集中在两阶段目标检测器上。然而,现有研究表明,对于像YOLO这样的一阶段无锚点检测器,由于回归输出的噪声,学习而不遗忘(LwF)可能无效,这可能导致传递损坏的知识。在本研究中,我们提出了YOLO LwF,一种专为基于YOLO的持续目标检测设计的自蒸馏方法。我们证明,当与回放记忆结合时,YOLO LwF显著减轻了遗忘。与之前的方法相比,它在VOC和COCO基准测试上分别提高了mAP +2.1%和+2.9%,达到了最先进的性能。