WikiEdge:ArXiv速递/2025-03-06:修订间差异

来自WikiEdge
跳转到导航 跳转到搜索
Carole留言 | 贡献
Updated page by Carole
第60行: 第60行:
* '''分类''':cs.LG, cs.AI
* '''分类''':cs.LG, cs.AI
*'''原文链接''':http://arxiv.org/abs/2503.04704v1
*'''原文链接''':http://arxiv.org/abs/2503.04704v1
'''中文摘要''':我们提出了一种新颖的选择性模型量化方法,该方法超越了针对[[大型语言模型]](LLMs)的架构特定和大小依赖的压缩方法的限制,使用[[熵加权量化]](EWQ)。通过分析跨[[变压器]]的熵分布,EWQ确定哪些块可以安全地量化而不会导致显著的性能下降,且独立于模型架构或大小。我们的方法优于[[均匀量化]]方法,在保持[[大规模多任务语言理解]](MMLU)准确率得分在未量化模型的0.5%以内的同时,将内存使用量减少了高达18%。我们在多个架构(从1.6B到70B参数)上展示了EWQ的有效性,展示了无论模型规模或架构设计如何,在质量-压缩权衡方面的一致改进。EWQ的一个令人惊讶的发现是,与未量化模型相比,它能够降低[[困惑度]],这表明通过选择性精度降低存在有益的规范化。这一改进在不同模型家族中都成立,表明层级熵与最佳精度要求之间存在基本关系。此外,我们引入了[[FastEWQ]],一种用于熵分布分析的快速方法,无需加载模型权重。该技术利用了跨各种架构和规模的熵分布的普遍特征,能够在保持80%分类准确率的同时,实现近乎即时的量化决策。我们的结果表明,有效的量化策略可以独立于特定的架构选择或模型大小而开发,为高效的LLM部署开辟了新的可能性。
'''中文摘要''':我们提出了一种新颖的选择性模型量化方法,该方法超越了针对[[大型语言模型]](LLMs)的架构特定和大小依赖的压缩方法的限制,使用[[熵加权量化]](EWQ)。通过分析跨 Transformer 块的熵分布,EWQ确定哪些块可以安全地量化而不会导致显著的性能下降,且独立于模型架构或大小。我们的方法优于[[均匀量化]]方法,在保持[[大规模多任务语言理解]](MMLU)准确率得分在未量化模型的0.5%以内的同时,将内存使用量减少了高达18%。我们在多个架构(从1.6B到70B参数)上展示了EWQ的有效性,展示了无论模型规模或架构设计如何,在质量-压缩权衡方面的一致改进。EWQ的一个令人惊讶的发现是,与未量化模型相比,它能够降低[[困惑度]],这表明通过选择性精度降低存在有益的规范化。这一改进在不同模型家族中都成立,表明层级熵与最佳精度要求之间存在基本关系。此外,我们引入了[[FastEWQ]],一种用于熵分布分析的快速方法,无需加载模型权重。该技术利用了跨各种架构和规模的熵分布的普遍特征,能够在保持80%分类准确率的同时,实现近乎即时的量化决策。我们的结果表明,有效的量化策略可以独立于特定的架构选择或模型大小而开发,为高效的LLM部署开辟了新的可能性。

2025年3月7日 (五) 07:36的版本

摘要

  • 原文标题:Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
  • 中文标题:可预测的规模:第一部分——大型语言模型预训练中的最优超参数缩放规律
  • 发布日期:2025-03-06 18:58:29+00:00
  • 作者:Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
  • 分类:cs.LG, cs.AI, F.2.2; I.2.7
  • 原文链接http://arxiv.org/abs/2503.04715v1

中文摘要大型语言模型(LLMs)在各种任务中的出色能力现已得到广泛认可,但其有效部署需要仔细的超参数优化。通过在不同配置下进行广泛的网格搜索实验,我们发现了控制这些超参数的普适缩放规律:最佳学习率模型参数数据规模幂律关系,而最佳批量大小主要与数据规模相关。我们的分析揭示了在固定模型和数据规模条件下,超参数的优化景观是的。这种凸性意味着存在一个最优超参数平台。我们为社区贡献了一个通用的即插即用最优超参数工具。其在测试集上的估计值与通过穷举搜索找到的全局最优LLM性能仅相差0.07%。这些规律在模型稀疏性训练数据分布模型形状的变化中表现出显著的鲁棒性。据我们所知,这是首次统一不同模型形状和结构(如专家混合模型密集Transformer)并建立跨不同数据分布的最优超参数缩放规律的工作。这一详尽的优化过程需要大量计算资源,使用了近百万个NVIDIA H800 GPU小时从头训练了3,700个不同规模和超参数的LLM,并消耗了约100万亿个token。为了促进可重复性和进一步研究,我们将通过指定仓库https://step-law.github.io/逐步发布所有损失测量值模型检查点

摘要

  • 原文标题:Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection
  • 中文标题:教YOLO记住:一种用于持续目标检测的自蒸馏方法
  • 发布日期:2025-03-06 18:31:41+00:00
  • 作者:Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto
  • 分类:cs.CV
  • 原文链接http://arxiv.org/abs/2503.04688v1

中文摘要:实时目标检测器如YOLO在大型数据集上经过多轮训练后表现出色。然而,在数据逐步到达的现实场景中,神经网络会遭受灾难性遗忘,导致先前学到的知识丢失。为了解决这一问题,先前的研究探索了在持续目标检测CLOD)中进行类增量学习CIL)的策略,大多数方法集中在两阶段目标检测器上。然而,现有研究表明,对于像YOLO这样的一阶段无锚点检测器,由于回归输出的噪声,学习而不遗忘LwF)可能无效,这可能导致传递损坏的知识。在本研究中,我们提出了YOLO LwF,一种专为基于YOLO的持续目标检测设计的自蒸馏方法。我们证明,当与回放记忆结合时,YOLO LwF显著减轻了遗忘。与之前的方法相比,它在VOCCOCO基准测试上分别提高了mAP +2.1%和+2.9%,达到了最先进的性能。

摘要

  • 原文标题:Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
  • 中文标题:基于MuJoCo的腿式机器人全身模型预测控制
  • 发布日期:2025-03-06 16:59:06+00:00
  • 作者:John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester
  • 分类:cs.RO, cs.SY, eess.SY
  • 原文链接http://arxiv.org/abs/2503.04613v1

中文摘要:我们展示了一种非常简单的全身模型预测控制MPC)方法在四足机器人双足机器人上的惊人实际效果:使用MuJoCo动力学和有限差分近似导数的迭代LQRiLQR)算法。基于之前在模拟中使用MuJoCo进行基于模型的行为合成以及运动和控制任务的成功经验,我们展示了这些策略可以轻松推广到现实世界,几乎不需要考虑从模拟到现实的转换。我们的基线方法在各种硬件实验中实现了实时全身MPC,包括动态四足运动、四足机器人用两条腿行走以及全尺寸双足人形机器人的运动。我们希望这种易于复现的硬件基线能够降低现实世界全身MPC研究的入门门槛,并为加速社区研究速度做出贡献。我们的代码和实验视频将在线提供:https://johnzhang3.github.io/mujoco_ilqr

摘要

  • 原文标题:TAIL: Text-Audio Incremental Learning
  • 中文标题:TAIL:文本-音频增量学习
  • 发布日期:2025-03-06 09:39:36+00:00
  • 作者:Yingfei Sun, Xu Gu, Wei Ji, Hanbin Zhao, Hao Fei, Yifang Yin, Roger Zimmermann
  • 分类:cs.SD, cs.AI, cs.CV, eess.AS, I.2
  • 原文链接http://arxiv.org/abs/2503.04258v1

中文摘要:许多研究结合文本音频来捕捉多模态信息,但它们忽视了模型在新数据集上的泛化能力。引入新数据集可能会影响原始数据集的特征空间,导致灾难性遗忘。同时,大模型参数会显著影响训练性能。为了解决这些限制,我们引入了一种称为文本-音频增量学习(TAIL)任务的新任务,用于文本-音频检索,并提出了一种新方法PTAT,即用于音频-文本增量学习提示调优。该方法利用提示调优来优化模型参数,同时结合音频-文本相似性特征蒸馏模块,有效缓解灾难性遗忘。我们在AudioCapsClothoBBC Sound EffectsAudioset数据集上对我们的方法和之前的增量学习方法进行了基准测试,我们的方法显著优于之前的方法,特别是在旧数据集上表现出更强的抗遗忘能力。与全参数微调(顺序)方法相比,我们的模型仅需要其参数的2.42%,性能提高了4.46%。

摘要

  • 原文标题:UniNet: A Unified Multi-granular Traffic Modeling Framework for Network Security
  • 中文标题:UniNet:一种统一的网络流量多粒度建模框架
  • 发布日期:2025-03-06 07:39:37+00:00
  • 作者:Binghui Wu, Dinil Mon Divakaran, Mohan Gurusamy
  • 分类:cs.CR, cs.LG, cs.NI
  • 原文链接http://arxiv.org/abs/2503.04174v1

中文摘要:随着现代网络因多样化设备加密协议和不断演变的威胁而变得越来越复杂,网络流量分析变得至关重要。现有的机器学习模型通常仅依赖于数据包的单一表示,限制了其捕捉对稳健分析至关重要的上下文关系的能力。此外,针对监督学习半监督学习无监督学习的任务特定架构导致在适应不同数据格式安全任务时效率低下。为了解决这些问题,我们提出了UniNet,一个统一的框架,引入了一种新颖的多粒度流量表示T-Matrix),集成了会话数据包级别的特征,以提供全面的上下文信息。结合T-Attent,一个轻量级的基于注意力机制的模型,UniNet能够高效地学习适用于多种安全任务的潜在嵌入。通过对四个关键网络安全隐私问题——异常检测攻击分类物联网设备识别加密网站指纹识别——的广泛评估,UniNet在性能上显著优于现有方法,实现了更高的准确性、更低的误报率和更好的可扩展性。通过解决单级模型的局限性并统一流量分析范式,UniNet为现代网络安全设定了新的基准。

摘要

  • 原文标题:Mapping bipartite networks into multidimensional hyperbolic spaces
  • 中文标题:将二分网络映射到多维双曲空间
  • 发布日期:2025-03-06 10:59:26+00:00
  • 作者:Robert Jankowski, Roya Aliakbarisani, M. Ángeles Serrano, Marián Boguñá
  • 分类:physics.soc-ph, cs.SI
  • 原文链接http://arxiv.org/abs/2503.04316v1

中文摘要二分网络出现在许多现实世界的场景中,连接两个不同集合的实体。它们通常通过单模投影进行分析,但这种投影可能会引入人为的相关性和夸大的聚类,掩盖真实的底层结构。在本文中,我们提出了一种二分网络的几何模型,利用高水平的二分四环作为聚类度量,将两种节点类型放置在同一个相似性空间中,其中链接概率随距离减小。此外,我们引入了B-Mercator算法,该算法从二分结构中推断节点位置。我们在多个数据集上评估其性能,展示了生成的嵌入如何改进机器学习中的节点分类和基于距离的链接预测等下游任务。这些双曲嵌入还能够生成节点特征与现实世界非常相似的合成网络,从而在允许安全数据共享的同时保护敏感信息。此外,我们展示了如何通过保留二分结构避免基于投影技术的缺陷,从而获得更准确的描述和更好的性能。我们的方法为揭示复杂二分系统中的隐藏几何提供了一个稳健的框架。

摘要

  • 原文标题:Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size
  • 中文标题:超越模型架构和大小的层级熵加权量化的普适性
  • 发布日期:2025-03-06 18:54:32+00:00
  • 作者:Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison
  • 分类:cs.LG, cs.AI
  • 原文链接http://arxiv.org/abs/2503.04704v1

中文摘要:我们提出了一种新颖的选择性模型量化方法,该方法超越了针对大型语言模型(LLMs)的架构特定和大小依赖的压缩方法的限制,使用熵加权量化(EWQ)。通过分析跨 Transformer 块的熵分布,EWQ确定哪些块可以安全地量化而不会导致显著的性能下降,且独立于模型架构或大小。我们的方法优于均匀量化方法,在保持大规模多任务语言理解(MMLU)准确率得分在未量化模型的0.5%以内的同时,将内存使用量减少了高达18%。我们在多个架构(从1.6B到70B参数)上展示了EWQ的有效性,展示了无论模型规模或架构设计如何,在质量-压缩权衡方面的一致改进。EWQ的一个令人惊讶的发现是,与未量化模型相比,它能够降低困惑度,这表明通过选择性精度降低存在有益的规范化。这一改进在不同模型家族中都成立,表明层级熵与最佳精度要求之间存在基本关系。此外,我们引入了FastEWQ,一种用于熵分布分析的快速方法,无需加载模型权重。该技术利用了跨各种架构和规模的熵分布的普遍特征,能够在保持80%分类准确率的同时,实现近乎即时的量化决策。我们的结果表明,有效的量化策略可以独立于特定的架构选择或模型大小而开发,为高效的LLM部署开辟了新的可能性。