查看“WikiEdge:ArXiv速递/2025-03-06”的源代码

== 摘要 ==
* '''原文标题'''：Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
* '''中文标题'''：可预测的规模：第一部分——大型语言模型预训练中的最优超参数缩放规律
* '''发布日期'''：2025-03-06 18:58:29+00:00
* '''作者'''：Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
* '''分类'''：cs.LG, cs.AI, F.2.2; I.2.7
*'''原文链接'''：http://arxiv.org/abs/2503.04715v1
'''中文摘要'''：[[大型语言模型]]（LLMs）在各种任务中的出色能力现已得到广泛认可，但其有效部署需要仔细的[[超参数优化]]。通过在不同配置下进行广泛的[[网格搜索]]实验，我们发现了控制这些超参数的普适[[缩放规律]]：最佳[[学习率]]与[[模型参数]]和[[数据规模]]呈[[幂律关系]]，而最佳[[批量大小]]主要与数据规模相关。我们的分析揭示了在固定模型和数据规模条件下，超参数的优化景观是[[凸]]的。这种凸性意味着存在一个最优超参数平台。我们为社区贡献了一个通用的即插即用最优超参数工具。其在[[测试集]]上的估计值与通过[[穷举搜索]]找到的全局最优LLM性能仅相差0.07%。这些规律在[[模型稀疏性]]、[[训练数据分布]]和[[模型形状]]的变化中表现出显著的[[鲁棒性]]。据我们所知，这是首次统一不同模型形状和结构（如[[专家混合模型]]和[[密集Transformer]]）并建立跨不同数据分布的最优超参数缩放规律的工作。这一详尽的优化过程需要大量[[计算资源]]，使用了近百万个[[NVIDIA H800]] [[GPU]]小时从头训练了3,700个不同规模和超参数的LLM，并消耗了约100万亿个[[token]]。为了促进[[可重复性]]和进一步研究，我们将通过指定仓库https://step-law.github.io/逐步发布所有[[损失测量值]]和[[模型检查点]]。

== 摘要 ==
* '''原文标题'''：Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection
* '''中文标题'''：教YOLO记住：一种用于持续目标检测的自蒸馏方法
* '''发布日期'''：2025-03-06 18:31:41+00:00
* '''作者'''：Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto
* '''分类'''：cs.CV
*'''原文链接'''：http://arxiv.org/abs/2503.04688v1
'''中文摘要'''：实时目标检测器如[[YOLO]]在大型数据集上经过多轮训练后表现出色。然而，在数据逐步到达的现实场景中，神经网络会遭受[[灾难性遗忘]]，导致先前学到的知识丢失。为了解决这一问题，先前的研究探索了在[[持续目标检测]]（[[CLOD]]）中进行[[类增量学习]]（[[CIL]]）的策略，大多数方法集中在两阶段目标检测器上。然而，现有研究表明，对于像[[YOLO]]这样的一阶段无锚点检测器，由于回归输出的噪声，[[学习而不遗忘]]（[[LwF]]）可能无效，这可能导致传递损坏的知识。在本研究中，我们提出了[[YOLO LwF]]，一种专为基于[[YOLO]]的持续目标检测设计的自蒸馏方法。我们证明，当与[[回放记忆]]结合时，[[YOLO LwF]]显著减轻了遗忘。与之前的方法相比，它在[[VOC]]和[[COCO]]基准测试上分别提高了[[mAP]] +2.1%和+2.9%，达到了最先进的性能。

== 摘要 ==
* '''原文标题'''：Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
* '''中文标题'''：基于MuJoCo的腿式机器人全身模型预测控制
* '''发布日期'''：2025-03-06 16:59:06+00:00
* '''作者'''：John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester
* '''分类'''：cs.RO, cs.SY, eess.SY
*'''原文链接'''：http://arxiv.org/abs/2503.04613v1
'''中文摘要'''：我们展示了一种非常简单的全身[[模型预测控制]]（[[MPC]]）方法在[[四足机器人]]和[[双足机器人]]上的惊人实际效果：使用[[MuJoCo]]动力学和有限差分近似导数的迭代[[LQR]]（[[iLQR]]）算法。基于之前在模拟中使用[[MuJoCo]]进行基于模型的行为合成以及运动和控制任务的成功经验，我们展示了这些策略可以轻松推广到现实世界，几乎不需要考虑从模拟到现实的转换。我们的基线方法在各种硬件实验中实现了实时全身[[MPC]]，包括动态四足运动、四足机器人用两条腿行走以及全尺寸双足人形机器人的运动。我们希望这种易于复现的硬件基线能够降低现实世界全身[[MPC]]研究的入门门槛，并为加速社区研究速度做出贡献。我们的代码和实验视频将在线提供：https://johnzhang3.github.io/mujoco_ilqr

== 摘要 ==
* '''原文标题'''：TAIL: Text-Audio Incremental Learning
* '''中文标题'''：TAIL：文本-音频增量学习
* '''发布日期'''：2025-03-06 09:39:36+00:00
* '''作者'''：Yingfei Sun, Xu Gu, Wei Ji, Hanbin Zhao, Hao Fei, Yifang Yin, Roger Zimmermann
* '''分类'''：cs.SD, cs.AI, cs.CV, eess.AS, I.2
*'''原文链接'''：http://arxiv.org/abs/2503.04258v1
'''中文摘要'''：许多研究结合[[文本]]和[[音频]]来捕捉[[多模态信息]]，但它们忽视了[[模型]]在新[[数据集]]上的[[泛化能力]]。引入新数据集可能会影响原始数据集的特征空间，导致[[灾难性遗忘]]。同时，[[大模型]]参数会显著影响[[训练]]性能。为了解决这些限制，我们引入了一种称为[[文本-音频增量学习]]（TAIL）任务的新任务，用于[[文本-音频检索]]，并提出了一种新方法[[PTAT]]，即用于[[音频-文本增量学习]]的[[提示调优]]。该方法利用提示调优来优化模型参数，同时结合[[音频-文本相似性]]和[[特征蒸馏]]模块，有效缓解灾难性遗忘。我们在[[AudioCaps]]、[[Clotho]]、[[BBC Sound Effects]]和[[Audioset]]数据集上对我们的方法和之前的[[增量学习]]方法进行了[[基准测试]]，我们的方法显著优于之前的方法，特别是在旧数据集上表现出更强的抗遗忘能力。与[[全参数微调]]（顺序）方法相比，我们的模型仅需要其参数的2.42%，性能提高了4.46%。

== 摘要 ==
* '''原文标题'''：UniNet: A Unified Multi-granular Traffic Modeling Framework for Network Security
* '''中文标题'''：UniNet：一种统一的网络流量多粒度建模框架
* '''发布日期'''：2025-03-06 07:39:37+00:00
* '''作者'''：Binghui Wu, Dinil Mon Divakaran, Mohan Gurusamy
* '''分类'''：cs.CR, cs.LG, cs.NI
*'''原文链接'''：http://arxiv.org/abs/2503.04174v1
'''中文摘要'''：随着现代[[网络]]因多样化[[设备]]、[[加密协议]]和不断演变的[[威胁]]而变得越来越复杂，[[网络流量分析]]变得至关重要。现有的[[机器学习模型]]通常仅依赖于[[数据包]]或[[流]]的单一表示，限制了其捕捉对稳健分析至关重要的上下文关系的能力。此外，针对[[监督学习]]、[[半监督学习]]和[[无监督学习]]的任务特定架构导致在适应不同[[数据格式]]和[[安全任务]]时效率低下。为了解决这些问题，我们提出了[[UniNet]]，一个统一的框架，引入了一种新颖的多粒度[[流量表示]]（[[T-Matrix]]），集成了[[会话]]、[[流]]和[[数据包]]级别的特征，以提供全面的上下文信息。结合[[T-Attent]]，一个轻量级的基于[[注意力机制]]的模型，[[UniNet]]能够高效地学习适用于多种[[安全任务]]的潜在嵌入。通过对四个关键[[网络安全]]和[[隐私问题]]——[[异常检测]]、[[攻击分类]]、[[物联网设备识别]]和[[加密网站指纹识别]]——的广泛评估，[[UniNet]]在性能上显著优于现有方法，实现了更高的[[准确性]]、更低的[[误报率]]和更好的[[可扩展性]]。通过解决单级模型的局限性并统一[[流量分析]]范式，[[UniNet]]为现代[[网络安全]]设定了新的基准。

== 摘要 ==
* '''原文标题'''：Mapping bipartite networks into multidimensional hyperbolic spaces
* '''中文标题'''：将二分网络映射到多维双曲空间
* '''发布日期'''：2025-03-06 10:59:26+00:00
* '''作者'''：Robert Jankowski, Roya Aliakbarisani, M. Ángeles Serrano, Marián Boguñá
* '''分类'''：physics.soc-ph, cs.SI
*'''原文链接'''：http://arxiv.org/abs/2503.04316v1
'''中文摘要'''：[[二分网络]]出现在许多现实世界的场景中，连接两个不同集合的实体。它们通常通过[[单模投影]]进行分析，但这种投影可能会引入人为的相关性和夸大的聚类，掩盖真实的底层结构。在本文中，我们提出了一种二分网络的几何模型，利用高水平的[[二分四环]]作为聚类度量，将两种节点类型放置在同一个相似性空间中，其中链接概率随距离减小。此外，我们引入了[[B-Mercator算法]]，该算法从二分结构中推断节点位置。我们在多个数据集上评估其性能，展示了生成的嵌入如何改进[[机器学习]]中的[[节点分类]]和基于距离的[[链接预测]]等下游任务。这些[[双曲嵌入]]还能够生成节点特征与现实世界非常相似的[[合成网络]]，从而在允许安全数据共享的同时保护敏感信息。此外，我们展示了如何通过保留二分结构避免基于投影技术的缺陷，从而获得更准确的描述和更好的性能。我们的方法为揭示复杂二分系统中的隐藏几何提供了一个稳健的框架。

== 摘要 ==
* '''原文标题'''：Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size
* '''中文标题'''：超越模型架构和大小的层级熵加权量化的普适性
* '''发布日期'''：2025-03-06 18:54:32+00:00
* '''作者'''：Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison
* '''分类'''：cs.LG, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2503.04704v1
'''中文摘要'''：我们提出了一种新颖的选择性模型量化方法，该方法超越了针对[[大型语言模型]]（LLMs）的架构特定和大小依赖的压缩方法的限制，使用[[熵加权量化]]（EWQ）。通过分析跨[[变压器块]]的熵分布，EWQ确定哪些块可以安全地量化而不会导致显著的性能下降，且独立于模型架构或大小。我们的方法优于[[均匀量化]]方法，在保持[[大规模多任务语言理解]]（MMLU）准确率得分在未量化模型的0.5%以内的同时，将内存使用量减少了高达18%。我们在多个架构（从1.6B到70B参数）上展示了EWQ的有效性，展示了无论模型规模或架构设计如何，在质量-压缩权衡方面的一致改进。EWQ的一个令人惊讶的发现是，与未量化模型相比，它能够降低[[困惑度]]，这表明通过选择性精度降低存在有益的规范化。这一改进在不同模型家族中都成立，表明层级熵与最佳精度要求之间存在基本关系。此外，我们引入了[[FastEWQ]]，一种用于熵分布分析的快速方法，无需加载模型权重。该技术利用了跨各种架构和规模的熵分布的普遍特征，能够在保持80%分类准确率的同时，实现近乎即时的量化决策。我们的结果表明，有效的量化策略可以独立于特定的架构选择或模型大小而开发，为高效的LLM部署开辟了新的可能性。