WikiEdge:ArXiv速遞/2025-03-06
摘要
- 原文標題:Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
- 中文標題:可預測的規模:第一部分——大型語言模型預訓練中的最優超參數縮放規律
- 發佈日期:2025-03-06 18:58:29+00:00
- 作者:Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
- 分類:cs.LG, cs.AI, F.2.2; I.2.7
- 原文連結:http://arxiv.org/abs/2503.04715v1
中文摘要:大型語言模型(LLMs)在各種任務中的出色能力現已得到廣泛認可,但其有效部署需要仔細的超參數優化。通過在不同配置下進行廣泛的網格搜索實驗,我們發現了控制這些超參數的普適縮放規律:最佳學習率與模型參數和數據規模呈冪律關係,而最佳批量大小主要與數據規模相關。我們的分析揭示了在固定模型和數據規模條件下,超參數的優化景觀是凸的。這種凸性意味着存在一個最優超參數平台。我們為社區貢獻了一個通用的即插即用最優超參數工具。其在測試集上的估計值與通過窮舉搜索找到的全局最優LLM性能僅相差0.07%。這些規律在模型稀疏性、訓練數據分佈和模型形狀的變化中表現出顯著的魯棒性。據我們所知,這是首次統一不同模型形狀和結構(如專家混合模型和密集Transformer)並建立跨不同數據分佈的最優超參數縮放規律的工作。這一詳盡的優化過程需要大量計算資源,使用了近百萬個NVIDIA H800 GPU小時從頭訓練了3,700個不同規模和超參數的LLM,並消耗了約100萬億個token。為了促進可重複性和進一步研究,我們將通過指定倉庫https://step-law.github.io/逐步發佈所有損失測量值和模型檢查點。
摘要
- 原文標題:Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection
- 中文標題:教YOLO記住:一種用於持續目標檢測的自蒸餾方法
- 發佈日期:2025-03-06 18:31:41+00:00
- 作者:Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto
- 分類:cs.CV
- 原文連結:http://arxiv.org/abs/2503.04688v1
中文摘要:實時目標檢測器如YOLO在大型數據集上經過多輪訓練後表現出色。然而,在數據逐步到達的現實場景中,神經網絡會遭受災難性遺忘,導致先前學到的知識丟失。為了解決這一問題,先前的研究探索了在持續目標檢測(CLOD)中進行類增量學習(CIL)的策略,大多數方法集中在兩階段目標檢測器上。然而,現有研究表明,對於像YOLO這樣的一階段無錨點檢測器,由於回歸輸出的噪聲,學習而不遺忘(LwF)可能無效,這可能導致傳遞損壞的知識。在本研究中,我們提出了YOLO LwF,一種專為基於YOLO的持續目標檢測設計的自蒸餾方法。我們證明,當與回放記憶結合時,YOLO LwF顯著減輕了遺忘。與之前的方法相比,它在VOC和COCO基準測試上分別提高了mAP +2.1%和+2.9%,達到了最先進的性能。
摘要
- 原文標題:Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
- 中文標題:基於MuJoCo的腿式機械人全身模型預測控制
- 發佈日期:2025-03-06 16:59:06+00:00
- 作者:John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester
- 分類:cs.RO, cs.SY, eess.SY
- 原文連結:http://arxiv.org/abs/2503.04613v1
中文摘要:我們展示了一種非常簡單的全身模型預測控制(MPC)方法在四足機械人和雙足機械人上的驚人實際效果:使用MuJoCo動力學和有限差分近似導數的迭代LQR(iLQR)算法。基於之前在模擬中使用MuJoCo進行基於模型的行為合成以及運動和控制任務的成功經驗,我們展示了這些策略可以輕鬆推廣到現實世界,幾乎不需要考慮從模擬到現實的轉換。我們的基線方法在各種硬件實驗中實現了實時全身MPC,包括動態四足運動、四足機械人用兩條腿行走以及全尺寸雙足人形機械人的運動。我們希望這種易於復現的硬件基線能夠降低現實世界全身MPC研究的入門門檻,並為加速社區研究速度做出貢獻。我們的代碼和實驗視頻將在線提供:https://johnzhang3.github.io/mujoco_ilqr
摘要
- 原文標題:TAIL: Text-Audio Incremental Learning
- 中文標題:TAIL:文本-音頻增量學習
- 發佈日期:2025-03-06 09:39:36+00:00
- 作者:Yingfei Sun, Xu Gu, Wei Ji, Hanbin Zhao, Hao Fei, Yifang Yin, Roger Zimmermann
- 分類:cs.SD, cs.AI, cs.CV, eess.AS, I.2
- 原文連結:http://arxiv.org/abs/2503.04258v1
中文摘要:許多研究結合文本和音頻來捕捉多模態信息,但它們忽視了模型在新數據集上的泛化能力。引入新數據集可能會影響原始數據集的特徵空間,導致災難性遺忘。同時,大模型參數會顯著影響訓練性能。為了解決這些限制,我們引入了一種稱為文本-音頻增量學習(TAIL)任務的新任務,用於文本-音頻檢索,並提出了一種新方法PTAT,即用於音頻-文本增量學習的提示調優。該方法利用提示調優來優化模型參數,同時結合音頻-文本相似性和特徵蒸餾模塊,有效緩解災難性遺忘。我們在AudioCaps、Clotho、BBC Sound Effects和Audioset數據集上對我們的方法和之前的增量學習方法進行了基準測試,我們的方法顯著優於之前的方法,特別是在舊數據集上表現出更強的抗遺忘能力。與全參數微調(順序)方法相比,我們的模型僅需要其參數的2.42%,性能提高了4.46%。
摘要
- 原文標題:UniNet: A Unified Multi-granular Traffic Modeling Framework for Network Security
- 中文標題:UniNet:一種統一的網絡流量多粒度建模框架
- 發佈日期:2025-03-06 07:39:37+00:00
- 作者:Binghui Wu, Dinil Mon Divakaran, Mohan Gurusamy
- 分類:cs.CR, cs.LG, cs.NI
- 原文連結:http://arxiv.org/abs/2503.04174v1
中文摘要:隨着現代網絡因多樣化設備、加密協議和不斷演變的威脅而變得越來越複雜,網絡流量分析變得至關重要。現有的機器學習模型通常僅依賴於數據包或流的單一表示,限制了其捕捉對穩健分析至關重要的上下文關係的能力。此外,針對監督學習、半監督學習和無監督學習的任務特定架構導致在適應不同數據格式和安全任務時效率低下。為了解決這些問題,我們提出了UniNet,一個統一的框架,引入了一種新穎的多粒度流量表示(T-Matrix),集成了會話、流和數據包級別的特徵,以提供全面的上下文信息。結合T-Attent,一個輕量級的基於注意力機制的模型,UniNet能夠高效地學習適用於多種安全任務的潛在嵌入。通過對四個關鍵網絡安全和私隱問題——異常檢測、攻擊分類、物聯網設備識別和加密網站指紋識別——的廣泛評估,UniNet在性能上顯著優於現有方法,實現了更高的準確性、更低的誤報率和更好的可擴展性。通過解決單級模型的局限性並統一流量分析範式,UniNet為現代網絡安全設定了新的基準。
摘要
- 原文標題:Mapping bipartite networks into multidimensional hyperbolic spaces
- 中文標題:將二分網絡映射到多維雙曲空間
- 發佈日期:2025-03-06 10:59:26+00:00
- 作者:Robert Jankowski, Roya Aliakbarisani, M. Ángeles Serrano, Marián Boguñá
- 分類:physics.soc-ph, cs.SI
- 原文連結:http://arxiv.org/abs/2503.04316v1
中文摘要:二分網絡出現在許多現實世界的場景中,連接兩個不同集合的實體。它們通常通過單模投影進行分析,但這種投影可能會引入人為的相關性和誇大的聚類,掩蓋真實的底層結構。在本文中,我們提出了一種二分網絡的幾何模型,利用高水平的二分四環作為聚類度量,將兩種節點類型放置在同一個相似性空間中,其中連結概率隨距離減小。此外,我們引入了B-Mercator算法,該算法從二分結構中推斷節點位置。我們在多個數據集上評估其性能,展示了生成的嵌入如何改進機器學習中的節點分類和基於距離的連結預測等下游任務。這些雙曲嵌入還能夠生成節點特徵與現實世界非常相似的合成網絡,從而在允許安全數據共享的同時保護敏感信息。此外,我們展示了如何通過保留二分結構避免基於投影技術的缺陷,從而獲得更準確的描述和更好的性能。我們的方法為揭示複雜二分系統中的隱藏幾何提供了一個穩健的框架。
摘要
- 原文標題:Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size
- 中文標題:超越模型架構和大小的層級熵加權量化的普適性
- 發佈日期:2025-03-06 18:54:32+00:00
- 作者:Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison
- 分類:cs.LG, cs.AI
- 原文連結:http://arxiv.org/abs/2503.04704v1
中文摘要:我們提出了一種新穎的選擇性模型量化方法,該方法超越了針對大型語言模型(LLMs)的架構特定和大小依賴的壓縮方法的限制,使用熵加權量化(EWQ)。通過分析跨 Transformer 塊的熵分佈,EWQ確定哪些塊可以安全地量化而不會導致顯著的性能下降,且獨立於模型架構或大小。我們的方法優於均勻量化方法,在保持大規模多任務語言理解(MMLU)準確率得分在未量化模型的0.5%以內的同時,將內存使用量減少了高達18%。我們在多個架構(從1.6B到70B參數)上展示了EWQ的有效性,展示了無論模型規模或架構設計如何,在質量-壓縮權衡方面的一致改進。EWQ的一個令人驚訝的發現是,與未量化模型相比,它能夠降低困惑度,這表明通過選擇性精度降低存在有益的規範化。這一改進在不同模型家族中都成立,表明層級熵與最佳精度要求之間存在基本關係。此外,我們引入了FastEWQ,一種用於熵分佈分析的快速方法,無需加載模型權重。該技術利用了跨各種架構和規模的熵分佈的普遍特徵,能夠在保持80%分類準確率的同時,實現近乎即時的量化決策。我們的結果表明,有效的量化策略可以獨立於特定的架構選擇或模型大小而開發,為高效的LLM部署開闢了新的可能性。