WikiEdge:ArXiv速递/2025-03-06：修订间差异

2025年3月7日 (五) 05:29的版本

摘要

原文标题：Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
中文标题：可预测的规模：第一部分——大型语言模型预训练中的最优超参数缩放规律
发布日期：2025-03-06 18:58:29+00:00
作者：Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
分类：cs.LG, cs.AI, F.2.2; I.2.7
原文链接：http://arxiv.org/abs/2503.04715v1

中文摘要：大型语言模型（LLMs）在各种任务中的出色能力现已得到广泛认可，但其有效部署需要仔细的超参数优化。通过在不同配置下进行广泛的网格搜索实验，我们发现了控制这些超参数的普适缩放规律：最佳学习率与模型参数和数据规模呈幂律关系，而最佳批量大小主要与数据规模相关。我们的分析揭示了在固定模型和数据规模条件下，超参数的优化景观是凸的。这种凸性意味着存在一个最优超参数平台。我们为社区贡献了一个通用的即插即用最优超参数工具。其在测试集上的估计值与通过穷举搜索找到的全局最优LLM性能仅相差0.07%。这些规律在模型稀疏性、训练数据分布和模型形状的变化中表现出显著的鲁棒性。据我们所知，这是首次统一不同模型形状和结构（如专家混合模型和密集Transformer）并建立跨不同数据分布的最优超参数缩放规律的工作。这一详尽的优化过程需要大量计算资源，使用了近百万个NVIDIA H800 GPU小时从头训练了3,700个不同规模和超参数的LLM，并消耗了约100万亿个token。为了促进可重复性和进一步研究，我们将通过指定仓库https://step-law.github.io/逐步发布所有损失测量值和模型检查点。

摘要

原文标题：Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection
中文标题：教YOLO记住：一种用于持续目标检测的自蒸馏方法
发布日期：2025-03-06 18:31:41+00:00
作者：Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto
分类：cs.CV
原文链接：http://arxiv.org/abs/2503.04688v1

中文摘要：实时目标检测器如YOLO在大型数据集上经过多轮训练后表现出色。然而，在数据逐步到达的现实场景中，神经网络会遭受灾难性遗忘，导致先前学到的知识丢失。为了解决这一问题，先前的研究探索了在持续目标检测（CLOD）中进行类增量学习（CIL）的策略，大多数方法集中在两阶段目标检测器上。然而，现有研究表明，对于像YOLO这样的一阶段无锚点检测器，由于回归输出的噪声，学习而不遗忘（LwF）可能无效，这可能导致传递损坏的知识。在本研究中，我们提出了YOLO LwF，一种专为基于YOLO的持续目标检测设计的自蒸馏方法。我们证明，当与回放记忆结合时，YOLO LwF显著减轻了遗忘。与之前的方法相比，它在VOC和COCO基准测试上分别提高了mAP +2.1%和+2.9%，达到了最先进的性能。

摘要

原文标题：Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
中文标题：基于MuJoCo的腿式机器人全身模型预测控制
发布日期：2025-03-06 16:59:06+00:00
作者：John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester
分类：cs.RO, cs.SY, eess.SY
原文链接：http://arxiv.org/abs/2503.04613v1

中文摘要：我们展示了一种非常简单的全身模型预测控制（MPC）方法在四足机器人和双足机器人上的惊人实际效果：使用MuJoCo动力学和有限差分近似导数的迭代LQR（iLQR）算法。基于之前在模拟中使用MuJoCo进行基于模型的行为合成以及运动和控制任务的成功经验，我们展示了这些策略可以轻松推广到现实世界，几乎不需要考虑从模拟到现实的转换。我们的基线方法在各种硬件实验中实现了实时全身MPC，包括动态四足运动、四足机器人用两条腿行走以及全尺寸双足人形机器人的运动。我们希望这种易于复现的硬件基线能够降低现实世界全身MPC研究的入门门槛，并为加速社区研究速度做出贡献。我们的代码和实验视频将在线提供：https://johnzhang3.github.io/mujoco_ilqr

摘要

原文标题：TAIL: Text-Audio Incremental Learning
中文标题：TAIL：文本-音频增量学习
发布日期：2025-03-06 09:39:36+00:00
作者：Yingfei Sun, Xu Gu, Wei Ji, Hanbin Zhao, Hao Fei, Yifang Yin, Roger Zimmermann
分类：cs.SD, cs.AI, cs.CV, eess.AS, I.2
原文链接：http://arxiv.org/abs/2503.04258v1

中文摘要：许多研究结合文本和音频来捕捉多模态信息，但它们忽视了模型在新数据集上的泛化能力。引入新数据集可能会影响原始数据集的特征空间，导致灾难性遗忘。同时，大模型参数会显著影响训练性能。为了解决这些限制，我们引入了一种称为文本-音频增量学习（TAIL）任务的新任务，用于文本-音频检索，并提出了一种新方法PTAT，即用于音频-文本增量学习的提示调优。该方法利用提示调优来优化模型参数，同时结合音频-文本相似性和特征蒸馏模块，有效缓解灾难性遗忘。我们在AudioCaps、Clotho、BBC Sound Effects和Audioset数据集上对我们的方法和之前的增量学习方法进行了基准测试，我们的方法显著优于之前的方法，特别是在旧数据集上表现出更强的抗遗忘能力。与全参数微调（顺序）方法相比，我们的模型仅需要其参数的2.42%，性能提高了4.46%。

摘要

原文标题：UniNet: A Unified Multi-granular Traffic Modeling Framework for Network Security
中文标题：UniNet：一种统一的网络流量多粒度建模框架
发布日期：2025-03-06 07:39:37+00:00
作者：Binghui Wu, Dinil Mon Divakaran, Mohan Gurusamy
分类：cs.CR, cs.LG, cs.NI
原文链接：http://arxiv.org/abs/2503.04174v1

中文摘要：随着现代网络因多样化设备、加密协议和不断演变的威胁而变得越来越复杂，网络流量分析变得至关重要。现有的机器学习模型通常仅依赖于数据包或流的单一表示，限制了其捕捉对稳健分析至关重要的上下文关系的能力。此外，针对监督学习、半监督学习和无监督学习的任务特定架构导致在适应不同数据格式和安全任务时效率低下。为了解决这些问题，我们提出了UniNet，一个统一的框架，引入了一种新颖的多粒度流量表示（T-Matrix），集成了会话、流和数据包级别的特征，以提供全面的上下文信息。结合T-Attent，一个轻量级的基于注意力机制的模型，UniNet能够高效地学习适用于多种安全任务的潜在嵌入。通过对四个关键网络安全和隐私问题——异常检测、攻击分类、物联网设备识别和加密网站指纹识别——的广泛评估，UniNet在性能上显著优于现有方法，实现了更高的准确性、更低的误报率和更好的可扩展性。通过解决单级模型的局限性并统一流量分析范式，UniNet为现代网络安全设定了新的基准。

@@ 第34行： / 第34行： @@
 *'''原文链接'''：http://arxiv.org/abs/2503.04258v1
 '''中文摘要'''：许多研究结合[[文本]]和[[音频]]来捕捉[[多模态信息]]，但它们忽视了[[模型]]在新[[数据集]]上的[[泛化能力]]。引入新数据集可能会影响原始数据集的特征空间，导致[[灾难性遗忘]]。同时，[[大模型]]参数会显著影响[[训练]]性能。为了解决这些限制，我们引入了一种称为[[文本-音频增量学习]]（TAIL）任务的新任务，用于[[文本-音频检索]]，并提出了一种新方法[[PTAT]]，即用于[[音频-文本增量学习]]的[[提示调优]]。该方法利用提示调优来优化模型参数，同时结合[[音频-文本相似性]]和[[特征蒸馏]]模块，有效缓解灾难性遗忘。我们在[[AudioCaps]]、[[Clotho]]、[[BBC Sound Effects]]和[[Audioset]]数据集上对我们的方法和之前的[[增量学习]]方法进行了[[基准测试]]，我们的方法显著优于之前的方法，特别是在旧数据集上表现出更强的抗遗忘能力。与[[全参数微调]]（顺序）方法相比，我们的模型仅需要其参数的2.42%，性能提高了4.46%。
+== 摘要 ==
+* '''原文标题'''：UniNet: A Unified Multi-granular Traffic Modeling Framework for Network Security
+* '''中文标题'''：UniNet：一种统一的网络流量多粒度建模框架
+* '''发布日期'''：2025-03-06 07:39:37+00:00
+* '''作者'''：Binghui Wu, Dinil Mon Divakaran, Mohan Gurusamy
+* '''分类'''：cs.CR, cs.LG, cs.NI
+*'''原文链接'''：http://arxiv.org/abs/2503.04174v1
+'''中文摘要'''：随着现代[[网络]]因多样化[[设备]]、[[加密协议]]和不断演变的[[威胁]]而变得越来越复杂，[[网络流量分析]]变得至关重要。现有的[[机器学习模型]]通常仅依赖于[[数据包]]或[[流]]的单一表示，限制了其捕捉对稳健分析至关重要的上下文关系的能力。此外，针对[[监督学习]]、[[半监督学习]]和[[无监督学习]]的任务特定架构导致在适应不同[[数据格式]]和[[安全任务]]时效率低下。为了解决这些问题，我们提出了[[UniNet]]，一个统一的框架，引入了一种新颖的多粒度[[流量表示]]（[[T-Matrix]]），集成了[[会话]]、[[流]]和[[数据包]]级别的特征，以提供全面的上下文信息。结合[[T-Attent]]，一个轻量级的基于[[注意力机制]]的模型，[[UniNet]]能够高效地学习适用于多种[[安全任务]]的潜在嵌入。通过对四个关键[[网络安全]]和[[隐私问题]]——[[异常检测]]、[[攻击分类]]、[[物联网设备识别]]和[[加密网站指纹识别]]——的广泛评估，[[UniNet]]在性能上显著优于现有方法，实现了更高的[[准确性]]、更低的[[误报率]]和更好的[[可扩展性]]。通过解决单级模型的局限性并统一[[流量分析]]范式，[[UniNet]]为现代[[网络安全]]设定了新的基准。

WikiEdge:ArXiv速递/2025-03-06：修订间差异

2025年3月7日 (五) 05:29的版本

目录

摘要

摘要

摘要

摘要

摘要

导航菜单