WikiEdge:ArXiv速遞/2025-03-06
摘要
- 原文標題:Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
- 中文標題:可預測的規模:第一部分——大型語言模型預訓練中的最優超參數縮放規律
- 發佈日期:2025-03-06 18:58:29+00:00
- 作者:Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang
- 分類:cs.LG, cs.AI, F.2.2; I.2.7
- 原文連結:http://arxiv.org/abs/2503.04715v1
中文摘要:大型語言模型(LLMs)在各種任務中的出色能力現已得到廣泛認可,但其有效部署需要仔細的超參數優化。通過在不同配置下進行廣泛的網格搜索實驗,我們發現了控制這些超參數的普適縮放規律:最佳學習率與模型參數和數據規模呈冪律關係,而最佳批量大小主要與數據規模相關。我們的分析揭示了在固定模型和數據規模條件下,超參數的優化景觀是凸的。這種凸性意味着存在一個最優超參數平台。我們為社區貢獻了一個通用的即插即用最優超參數工具。其在測試集上的估計值與通過窮舉搜索找到的全局最優LLM性能僅相差0.07%。這些規律在模型稀疏性、訓練數據分佈和模型形狀的變化中表現出顯著的魯棒性。據我們所知,這是首次統一不同模型形狀和結構(如專家混合模型和密集Transformer)並建立跨不同數據分佈的最優超參數縮放規律的工作。這一詳盡的優化過程需要大量計算資源,使用了近百萬個NVIDIA H800 GPU小時從頭訓練了3,700個不同規模和超參數的LLM,並消耗了約100萬億個token。為了促進可重複性和進一步研究,我們將通過指定倉庫https://step-law.github.io/逐步發佈所有損失測量值和模型檢查點。
摘要
- 原文標題:Teach YOLO to Remember: A Self-Distillation Approach for Continual Object Detection
- 中文標題:教YOLO記住:一種用於持續目標檢測的自蒸餾方法
- 發佈日期:2025-03-06 18:31:41+00:00
- 作者:Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto
- 分類:cs.CV
- 原文連結:http://arxiv.org/abs/2503.04688v1
中文摘要:實時目標檢測器如YOLO在大型數據集上經過多輪訓練後表現出色。然而,在數據逐步到達的現實場景中,神經網絡會遭受災難性遺忘,導致先前學到的知識丟失。為了解決這一問題,先前的研究探索了在持續目標檢測(CLOD)中進行類增量學習(CIL)的策略,大多數方法集中在兩階段目標檢測器上。然而,現有研究表明,對於像YOLO這樣的一階段無錨點檢測器,由於回歸輸出的噪聲,學習而不遺忘(LwF)可能無效,這可能導致傳遞損壞的知識。在本研究中,我們提出了YOLO LwF,一種專為基於YOLO的持續目標檢測設計的自蒸餾方法。我們證明,當與回放記憶結合時,YOLO LwF顯著減輕了遺忘。與之前的方法相比,它在VOC和COCO基準測試上分別提高了mAP +2.1%和+2.9%,達到了最先進的性能。
摘要
- 原文標題:Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
- 中文標題:基於MuJoCo的腿式機械人全身模型預測控制
- 發佈日期:2025-03-06 16:59:06+00:00
- 作者:John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester
- 分類:cs.RO, cs.SY, eess.SY
- 原文連結:http://arxiv.org/abs/2503.04613v1
中文摘要:我們展示了一種非常簡單的全身模型預測控制(MPC)方法在四足機械人和雙足機械人上的驚人實際效果:使用MuJoCo動力學和有限差分近似導數的迭代LQR(iLQR)算法。基於之前在模擬中使用MuJoCo進行基於模型的行為合成以及運動和控制任務的成功經驗,我們展示了這些策略可以輕鬆推廣到現實世界,幾乎不需要考慮從模擬到現實的轉換。我們的基線方法在各種硬件實驗中實現了實時全身MPC,包括動態四足運動、四足機械人用兩條腿行走以及全尺寸雙足人形機械人的運動。我們希望這種易於復現的硬件基線能夠降低現實世界全身MPC研究的入門門檻,並為加速社區研究速度做出貢獻。我們的代碼和實驗視頻將在線提供:https://johnzhang3.github.io/mujoco_ilqr
摘要
- 原文標題:TAIL: Text-Audio Incremental Learning
- 中文標題:TAIL:文本-音頻增量學習
- 發佈日期:2025-03-06 09:39:36+00:00
- 作者:Yingfei Sun, Xu Gu, Wei Ji, Hanbin Zhao, Hao Fei, Yifang Yin, Roger Zimmermann
- 分類:cs.SD, cs.AI, cs.CV, eess.AS, I.2
- 原文連結:http://arxiv.org/abs/2503.04258v1
中文摘要:許多研究結合文本和音頻來捕捉多模態信息,但它們忽視了模型在新數據集上的泛化能力。引入新數據集可能會影響原始數據集的特徵空間,導致災難性遺忘。同時,大模型參數會顯著影響訓練性能。為了解決這些限制,我們引入了一種稱為文本-音頻增量學習(TAIL)任務的新任務,用於文本-音頻檢索,並提出了一種新方法PTAT,即用於音頻-文本增量學習的提示調優。該方法利用提示調優來優化模型參數,同時結合音頻-文本相似性和特徵蒸餾模塊,有效緩解災難性遺忘。我們在AudioCaps、Clotho、BBC Sound Effects和Audioset數據集上對我們的方法和之前的增量學習方法進行了基準測試,我們的方法顯著優於之前的方法,特別是在舊數據集上表現出更強的抗遺忘能力。與全參數微調(順序)方法相比,我們的模型僅需要其參數的2.42%,性能提高了4.46%。
摘要
- 原文標題:UniNet: A Unified Multi-granular Traffic Modeling Framework for Network Security
- 中文標題:UniNet:一種統一的網絡流量多粒度建模框架
- 發佈日期:2025-03-06 07:39:37+00:00
- 作者:Binghui Wu, Dinil Mon Divakaran, Mohan Gurusamy
- 分類:cs.CR, cs.LG, cs.NI
- 原文連結:http://arxiv.org/abs/2503.04174v1
中文摘要:隨着現代網絡因多樣化設備、加密協議和不斷演變的威脅而變得越來越複雜,網絡流量分析變得至關重要。現有的機器學習模型通常僅依賴於數據包或流的單一表示,限制了其捕捉對穩健分析至關重要的上下文關係的能力。此外,針對監督學習、半監督學習和無監督學習的任務特定架構導致在適應不同數據格式和安全任務時效率低下。為了解決這些問題,我們提出了UniNet,一個統一的框架,引入了一種新穎的多粒度流量表示(T-Matrix),集成了會話、流和數據包級別的特徵,以提供全面的上下文信息。結合T-Attent,一個輕量級的基於注意力機制的模型,UniNet能夠高效地學習適用於多種安全任務的潛在嵌入。通過對四個關鍵網絡安全和私隱問題——異常檢測、攻擊分類、物聯網設備識別和加密網站指紋識別——的廣泛評估,UniNet在性能上顯著優於現有方法,實現了更高的準確性、更低的誤報率和更好的可擴展性。通過解決單級模型的局限性並統一流量分析範式,UniNet為現代網絡安全設定了新的基準。
摘要
- 原文標題:Mapping bipartite networks into multidimensional hyperbolic spaces
- 中文標題:將二分網絡映射到多維雙曲空間
- 發佈日期:2025-03-06 10:59:26+00:00
- 作者:Robert Jankowski, Roya Aliakbarisani, M. Ángeles Serrano, Marián Boguñá
- 分類:physics.soc-ph, cs.SI
- 原文連結:http://arxiv.org/abs/2503.04316v1
中文摘要:二分網絡出現在許多現實世界的場景中,連接兩個不同集合的實體。它們通常通過單模投影進行分析,但這種投影可能會引入人為的相關性和誇大的聚類,掩蓋真實的底層結構。在本文中,我們提出了一種二分網絡的幾何模型,利用高水平的二分四環作為聚類度量,將兩種節點類型放置在同一個相似性空間中,其中連結概率隨距離減小。此外,我們引入了B-Mercator算法,該算法從二分結構中推斷節點位置。我們在多個數據集上評估其性能,展示了生成的嵌入如何改進機器學習中的節點分類和基於距離的連結預測等下游任務。這些雙曲嵌入還能夠生成節點特徵與現實世界非常相似的合成網絡,從而在允許安全數據共享的同時保護敏感信息。此外,我們展示了如何通過保留二分結構避免基於投影技術的缺陷,從而獲得更準確的描述和更好的性能。我們的方法為揭示複雜二分系統中的隱藏幾何提供了一個穩健的框架。
摘要
- 原文標題:Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size
- 中文標題:超越模型架構和大小的層級熵加權量化的普適性
- 發佈日期:2025-03-06 18:54:32+00:00
- 作者:Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison
- 分類:cs.LG, cs.AI
- 原文連結:http://arxiv.org/abs/2503.04704v1
中文摘要:我們提出了一種新穎的選擇性模型量化方法,該方法超越了針對大型語言模型(LLMs)的架構特定和大小依賴的壓縮方法的限制,使用熵加權量化(EWQ)。通過分析跨 Transformer 塊的熵分佈,EWQ確定哪些塊可以安全地量化而不會導致顯著的性能下降,且獨立於模型架構或大小。我們的方法優於均勻量化方法,在保持大規模多任務語言理解(MMLU)準確率得分在未量化模型的0.5%以內的同時,將內存使用量減少了高達18%。我們在多個架構(從1.6B到70B參數)上展示了EWQ的有效性,展示了無論模型規模或架構設計如何,在質量-壓縮權衡方面的一致改進。EWQ的一個令人驚訝的發現是,與未量化模型相比,它能夠降低困惑度,這表明通過選擇性精度降低存在有益的規範化。這一改進在不同模型家族中都成立,表明層級熵與最佳精度要求之間存在基本關係。此外,我們引入了FastEWQ,一種用於熵分佈分析的快速方法,無需加載模型權重。該技術利用了跨各種架構和規模的熵分佈的普遍特徵,能夠在保持80%分類準確率的同時,實現近乎即時的量化決策。我們的結果表明,有效的量化策略可以獨立於特定的架構選擇或模型大小而開發,為高效的LLM部署開闢了新的可能性。
摘要
- 原文標題:Non-parametric kernel density estimation of magnitude distribution for the analysis of seismic hazard posed by anthropogenic seismicity
- 中文標題:非參數核密度估計在人為地震活動震級分佈分析中的應用
- 發佈日期:2025-03-06 12:43:18+00:00
- 作者:Francis Tong, Stanisław Lasocki, Beata Orlecka-Sikora
- 分類:physics.geo-ph, stat.AP
- 原文連結:http://arxiv.org/abs/2503.04393v1
中文摘要:頻繁觀察到的人為地震震級分佈與古登堡-里希特關係的顯著偏差,要求採用替代的估計方法進行概率地震危險性評估。我們評估了五種非參數核密度估計(KDE)方法,這些方法應用於從四種震級分佈模型中抽取的模擬樣本:指數分佈、凹雙指數分佈、凸雙指數分佈以及指數-高斯分佈。後三種分佈代表了由於地殼厚度有限和特徵地震效應導致的與古登堡-里希特關係的偏差。假設的與指數分佈的偏差從未超過實際中遇到的偏差。研究的KDE方法包括Silverman和Scott規則(結合Abramson帶寬調整)、兩種基於擴散的方法(ISJ和diffKDE)以及adaptiveKDE,後者將帶寬估計表述為一個優化問題。我們評估了這些方法在震級2到6、樣本量400到5000的情況下的表現,使用了100,000次模擬的平均積分平方誤差(MISE)。通過樣本量為1000的平均重現周期(MRP)說明了它們在危險性評估中的適用性。在測試的方法中,diffKDE為較大震級提供了最準確的累積分佈函數估計。即使數據來自指數分佈,當樣本量至少為1000時,diffKDE的表現與最大似然估計相當。鑑於人為地震通常偏離指數模型,我們建議在樣本量足夠的情況下,使用diffKDE進行概率地震危險性評估。
摘要
- 原文標題:Measurement of the Branching Fraction of $Λ_c^+ \to p K_S^0 π^0$ at Belle
- 中文標題:Belle實驗中對$Λ_c^+ \to p K_S^0 π^0$分支比的測量
- 發佈日期:2025-03-06 12:16:01+00:00
- 作者:The Belle, Belle II Collaborations, :, I. Adachi, L. Aggarwal, H. Ahmed, J. K. Ahn, H. Aihara, N. Akopov, M. Alhakami, A. Aloisio, N. Althubiti, M. Angelsmark, N. Anh Ky, D. M. Asner, H. Atmacan, T. Aushev, V. Aushev, M. Aversano, R. Ayad, V. Babu, H. Bae, N. K. Baghel, S. Bahinipati, P. Bambade, Sw. Banerjee, M. Barrett, M. Bartl, J. Baudot, A. Baur, A. Beaubien, F. Becherer, J. Becker, J. V. Bennett, F. U. Bernlochner, V. Bertacchi, M. Bertemes, E. Bertholet, M. Bessner, S. Bettarini, V. Bhardwaj, B. Bhuyan, F. Bianchi, T. Bilka, D. Biswas, A. Bobrov, D. Bodrov, A. Bolz, A. Bondar, J. Borah, A. Boschetti, A. Bozek, M. Bračko, P. Branchini, R. A. Briere, T. E. Browder, A. Budano, S. Bussino, Q. Campagna, M. Campajola, L. Cao, G. Casarosa, C. Cecchi, J. Cerasoli, M. -C. Chang, P. Chang, P. Cheema, B. G. Cheon, K. Chilikin, K. Chirapatpimol, H. -E. Cho, K. Cho, S. -J. Cho, S. -K. Choi, S. Choudhury, J. Cochran, L. Corona, J. X. Cui, E. De La Cruz-Burelo, S. A. De La Motte, G. De Nardo, G. De Pietro, R. de Sangro, M. Destefanis, S. Dey, R. Dhamija, A. Di Canto, F. Di Capua, J. Dingfelder, Z. Doležal, I. Domínguez Jiménez, T. V. Dong, D. Dossett, S. Dubey, K. Dugic, G. Dujany, P. Ecker, D. Epifanov, J. Eppelt, P. Feichtinger, T. Ferber, T. Fillinger, C. Finck, G. Finocchiaro, F. Forti, A. Frey, B. G. Fulsom, A. Gabrielli, E. Ganiev, M. Garcia-Hernandez, G. Gaudino, V. Gaur, A. Gaz, A. Gellrich, G. Ghevondyan, D. Ghosh, H. Ghumaryan, G. Giakoustidis, R. Giordano, A. Giri, P. Gironella Gironell, A. Glazov, B. Gobbo, R. Godang, O. Gogota, P. Goldenzweig, E. Graziani, D. Greenwald, Z. Gruberová, Y. Guan, K. Gudkova, I. Haide, S. Halder, Y. Han, C. Harris, K. Hayasaka, H. Hayashii, S. Hazra, M. T. Hedges, A. Heidelbach, I. Heredia de la Cruz, M. Hernández Villanueva, T. Higuchi, M. Hoek, M. Hohmann, R. Hoppe, P. Horak, C. -L. Hsu, T. Humair, T. Iijima, K. Inami, N. Ipsita, A. Ishikawa, R. Itoh, M. Iwasaki, P. Jackson, D. Jacobi, W. W. Jacobs, E. -J. Jang, S. Jia, Y. Jin, A. Johnson, K. K. Joo, H. Junkerkalefeld, M. Kaleta, J. Kandra, K. H. Kang, G. Karyan, T. Kawasaki, F. Keil, C. Ketter, C. Kiesling, C. -H. Kim, D. Y. Kim, J. -Y. Kim, K. -H. Kim, Y. -K. Kim, Y. J. Kim, H. Kindo, K. Kinoshita, P. Kodyš, T. Koga, S. Kohani, K. Kojima, A. Korobov, S. Korpar, E. Kovalenko, P. Križan, P. Krokovny, T. Kuhr, Y. Kulii, D. Kumar, M. Kumar, R. Kumar, K. Kumara, T. Kunigo, A. Kuzmin, Y. -J. Kwon, S. Lacaprara, Y. -T. Lai, K. Lalwani, T. Lam, J. S. Lange, T. S. Lau, M. Laurenza, R. Leboucher, F. R. Le Diberder, M. J. Lee, C. Lemettais, P. Leo, C. Li, L. K. Li, Q. M. Li, W. Z. Li, Y. Li, Y. B. Li, Y. P. Liao, J. Libby, J. Lin, S. Lin, M. H. Liu, Q. Y. Liu, Y. Liu, Z. Q. Liu, D. Liventsev, S. Longo, C. Lyu, Y. Ma, C. Madaan, M. Maggiora, S. P. Maharana, R. Maiti, G. Mancinelli, R. Manfredi, E. Manoni, M. Mantovano, D. Marcantonio, S. Marcello, C. Marinas, C. Martellini, A. Martens, A. Martini, T. Martinov, L. Massaccesi, M. Masuda, D. Matvienko, S. K. Maurya, M. Maushart, J. A. McKenna, R. Mehta, F. Meier, D. Meleshko, M. Merola, C. Miller, M. Mirra, S. Mitra, K. Miyabayashi, H. Miyake, R. Mizuk, G. B. Mohanty, S. Mondal, S. Moneta, H. -G. Moser, R. Mussa, I. Nakamura, M. Nakao, H. Nakazawa, Y. Nakazawa, M. Naruki, Z. Natkaniec, A. Natochii, M. Nayak, G. Nazaryan, M. Neu, S. Nishida, S. Ogawa, H. Ono, Y. Onuki, F. Otani, P. Pakhlov, G. Pakhlova, E. Paoloni, S. Pardi, K. Parham, H. Park, J. Park, K. Park, S. -H. Park, B. Paschen, A. Passeri, S. Patra, T. K. Pedlar, I. Peruzzi, R. Peschke, R. Pestotnik, M. Piccolo, L. E. Piilonen, P. L. M. Podesta-Lerma, T. Podobnik, S. Pokharel, C. Praz, S. Prell, E. Prencipe, M. T. Prim, I. Prudiiev, H. Purwar, P. Rados, G. Raeuber, S. Raiz, N. Rauls, K. Ravindran, J. U. Rehman, M. Reif, S. Reiter, M. Remnev, L. Reuter, D. Ricalde Herrmann, I. Ripp-Baudot, G. Rizzo, M. Roehrken, J. M. Roney, A. Rostomyan, N. Rout, D. A. Sanders, S. Sandilya, L. Santelj, Y. Sato, V. Savinov, B. Scavino, J. Schmitz, S. Schneider, G. Schnell, M. Schnepf, K. Schoenning, C. Schwanda, A. J. Schwartz, Y. Seino, A. Selce, K. Senyo, J. Serrano, M. E. Sevior, C. Sfienti, W. Shan, C. Sharma, X. D. Shi, T. Shillington, T. Shimasaki, J. -G. Shiu, D. Shtol, A. Sibidanov, F. Simon, J. B. Singh, J. Skorupa, M. Sobotzik, A. Soffer, A. Sokolov, E. Solovieva, S. Spataro, B. Spruck, W. Song, M. Starič, P. Stavroulakis, S. Stefkova, R. Stroili, J. Strube, Y. Sue, M. Sumihama, K. Sumisawa, W. Sutcliffe, N. Suwonjandee, H. Svidras, M. Takahashi, M. Takizawa, U. Tamponi, K. Tanida, F. Tenchini, A. Thaller, O. Tittel, R. Tiwary, E. Torassa, K. Trabelsi, I. Tsaklidis, M. Uchida, I. Ueda, T. Uglov, K. Unger, Y. Unno, K. Uno, S. Uno, P. Urquijo, Y. Ushiroda, S. E. Vahsen, R. van Tonder, M. Veronesi, A. Vinokurova, V. S. Vismaya, L. Vitale, V. Vobbilisetti, R. Volpe, A. Vossen, M. Wakai, S. Wallner, M. -Z. Wang, X. L. Wang, Z. Wang, A. Warburton, M. Watanabe, S. Watanuki, C. Wessel, E. Won, X. P. Xu, B. D. Yabsley, S. Yamada, W. Yan, S. B. Yang, J. Yelton, J. H. Yin, K. Yoshihara, C. Z. Yuan, J. Yuan, L. Zani, F. Zeng, B. Zhang, V. Zhilich, J. S. Zhou, Q. D. Zhou, L. Zhu, V. I. Zhukova, R. Žlebčík
- 分類:hep-ex
- 原文連結:http://arxiv.org/abs/2503.04371v1
中文摘要:我們報告了使用Belle實驗的980 fb$^{-1}$的$e^+e^-$數據對分支比$\mathcal{B}(\Lambda_c^+\to p K_S^0 \pi^0)/\mathcal{B}(\Lambda_c^+\to p K^- \pi^+)$的精確測量。我們得到的值為$\mathcal{B}(\Lambda_c^+\to p K_S^0 \pi^0)/\mathcal{B}(\Lambda_c^+\to p K^- \pi^+)=0.339\pm 0.002\pm 0.009$,其中第一和第二不確定性分別為統計和系統不確定性。這一Belle結果與之前CLEO實驗的測量結果一致,但精度提高了五倍。通過將我們的結果與世界平均$\mathcal{B}(\Lambda_c^+\to p K^- \pi^+)$結合,我們得到了絕對分支比$\mathcal{B}(\Lambda_c^+\to p K_S^0 \pi^0)=(2.12\pm 0.01\pm 0.05 \pm 0.10)\%$,其中不確定性分別為統計、系統以及絕對分支比尺度$\mathcal{B}(\Lambda_c^+\to p K^- \pi^+)$的不確定性。這一測量可以為重子衰變中的強子衰變機制提供新的見解。
摘要
- 原文標題:Preference for evolving dark energy in light of the galaxy bispectrum
- 中文標題:基於星系雙譜的演化暗能量偏好
- 發佈日期:2025-03-06 16:45:49+00:00
- 作者:Zhiyu Lu, Théo Simon, Pierre Zhang
- 分類:astro-ph.CO, gr-qc, hep-ph, hep-th
- 原文連結:http://arxiv.org/abs/2503.04602v1
中文摘要:我們使用由$(w_0, w_a)$參數化的暗能量狀態方程$w(z)$分析了DESI之前的聚類數據,發現當與來自Planck的宇宙微波背景數據和來自Pantheon+、Union3或DESY5的超新星數據結合時,相較於宇宙常數$\Lambda$,存在$2.8-3.9\sigma$的偏好支持演化的暗能量。我們的約束與DESI Y1結果一致,是基於SDSS/BOSS星系功率譜和雙譜,使用大尺度結構有效場論(EFTofLSS)在一環水平上推導的。證據在不同分析變化中保持穩健,但若沒有一環雙譜則消失。當將DESI重子聲學振盪與BOSS全形狀數據結合時,同時對後者中的聲速視界進行邊緣化以防止未考慮的關聯,顯著性增加到$3.7-4.4\sigma$,具體取決於超新星數據集。使用數據驅動的$w(z)$重建,我們展示了證據來源於多個紅移處對$\Lambda$的偏離。此外,我們的發現在暗能量有效場論(EFTofDE)框架內進行了解釋,從中我們明確追蹤了EFTofLSS預測中的非標準時間演化。對於$w < -1$區域內的微擾穩定理論,當存在高階導數修正時,證據在聚類極限$(c_s^2 \rightarrow 0)$中持續存在,並且在考慮額外的EFTofDE參數時,在准靜態極限$(c_s^2 \rightarrow 1)$中也存在。
摘要
- 原文標題:Numerical Study On Temperature Variations Of Superheated Steam Flowing Through A Regulation Valve
- 中文標題:過熱蒸汽流經調節閥的溫度變化數值研究
- 發佈日期:2025-03-06 08:37:41+00:00
- 作者:Zhe-hui Ma, Hang-ye Zhang, Chuang Liu, Ming Zhang, Jin-yuan Qian
- 分類:physics.flu-dyn
- 原文連結:http://arxiv.org/abs/2503.04209v1
中文摘要:過熱蒸汽廣泛應用於各種能源系統中,特別是在發電廠、化工行業以及其他需要高溫高壓蒸汽以實現高效能量轉換和過程控制的應用中。在這些系統中,調節閥是控制蒸汽流動、調節其壓力和溫度以確保安全高效運行的關鍵組件。準確理解和預測調節閥內的溫度變化對於優化其性能和提高整體系統效率至關重要。本研究通過計算流體動力學(CFD)模擬結合本徵正交分解(POD)技術,研究了過熱蒸汽流經調節閥時的溫度變化。分析首先檢查了內部流場參數,包括溫度和壓力,以了解閥門內的整體流體動力學。POD用於降低CFD結果的維度,奇異值分解(SVD)用於提取捕捉傳熱和溫度波動關鍵流動結構的主導模態。POD分析表明,最具影響力的模態與高湍流強度和顯著溫度梯度區域相關,這些區域對蒸汽流經調節閥的熱性能至關重要。將POD應用於3D CFD結果是一種新穎的方法,特別是對於複雜流體流動模型(如蒸汽流經調節閥)而言。本研究的見解對能源系統中溫度和壓力調節閥的設計和優化具有實際意義,為提高這些系統的效率和可靠性提供了理論基礎。
摘要
- 原文標題:The JARVIS Infrastructure is All You Need for Materials Design
- 中文標題:JARVIS 基礎設施是材料設計所需的一切
- 發佈日期:2025-03-06 06:26:32+00:00
- 作者:Kamal Choudhary
- 分類:cond-mat.mtrl-sci, physics.comp-ph
- 原文連結:http://arxiv.org/abs/2503.04133v1
中文摘要:聯合自動化多種集成模擬資源庫(JARVIS)是一個綜合性的基礎設施,提供數據庫、工具、教程和基準,用於多尺度、多模態、正向和逆向材料設計。它強調開放獲取原則和可重複性,整合了理論和實驗方法,如密度泛函理論、量子蒙特卡羅、緊束縛模型、經典力場以及機器學習方法——包括指紋識別、圖神經網絡和變壓器模型。其實驗數據收集涵蓋了低溫學、顯微鏡和衍射,覆蓋了金屬、半導體、絕緣體、超導體、碳捕獲系統、高強度化合物、低維材料、異質結構和缺陷等材料。JARVIS通過開放數據集、網絡應用程式、可執行腳本和同行評審的出版物傳播資源,確保廣泛的訪問性和可重複性。它在全球範圍內被廣泛採用,促進了數百萬數據和工具的下載。通過將多種方法和數據統一在一個平台下,JARVIS推動了基礎發現和現實世界的創新,推進了傳統和數據驅動的材料設計。
摘要
- 原文標題:HERACLES++: a multi-dimensional Eulerian code for exascale computing
- 中文標題:HERACLES++:面向百億億次計算的多維歐拉代碼
- 發佈日期:2025-03-06 13:37:50+00:00
- 作者:Lou Roussel-Hard, Edouard Audit, Luc Dessart, Thomas Padioleau, Yushan Wang
- 分類:astro-ph.SR, astro-ph.GA, astro-ph.HE, astro-ph.IM, physics.comp-ph
- 原文連結:http://arxiv.org/abs/2503.04428v1
中文摘要:多維天體物理流體的數值模擬面臨着巨大的挑戰。然而,百億億次計算的發展顯著提升了計算能力,推動了能夠充分利用這些資源的新代碼的開發。在本文中,我們介紹了HERACLES++,這是一種具有高可移植性的新型流體動力學代碼,針對不同架構的百億億次計算機進行了優化,能夠在CPU和GPU上高效運行。該代碼採用歐拉方法,並使用Godunov有限體積法來求解流體動力學方程,從而確保在捕捉激波和不連續性時的準確性。它包含不同的黎曼求解器、狀態方程和重力求解器。它可以在笛卡爾坐標系和球坐標系中工作,支持1維、2維或3維模擬,並使用被動標量來處理多種氣體。該代碼允許用戶提供加熱或冷卻項,以處理各種天體物理場景。除了常規的基準測試系列外,我們還使用HERACLES++模擬了超新星激波在紅超巨星包層中的傳播,從核心坍縮後的幾分鐘直到激波出現。在1維情況下,HERACLES++的結果與相同配置下的V1D結果一致。在3維情況下,瑞利-泰勒不穩定性的發展通過引入密度和成分波動以及湍流,修改了1維圖像。通過聚焦於一個楔形區域而不是整個立體角,以及能夠在大量GPU上運行HERACLES++,使得我們能夠以亞度解像度對3維超新星拋射物進行長期模擬。未來的發展目標是將HERACLES++擴展為輻射流體動力學代碼。
摘要
- 原文標題:Matrix Factorization for Inferring Associations and Missing Links
- 中文標題:矩陣分解用於推斷關聯和缺失連結
- 發佈日期:2025-03-06 18:22:46+00:00
- 作者:Ryan Barron, Maksim E. Eren, Duc P. Truong, Cynthia Matuszek, James Wendelberger, Mary F. Dorn, Boian Alexandrov
- 分類:cs.LG, cs.AI, cs.LO
- 原文連結:http://arxiv.org/abs/2503.04680v1
中文摘要:缺失連結預測是一種網絡分析方法,應用於推薦系統、生物學、社會科學、網絡安全、信息檢索以及知識圖譜中的人工智能(AI)推理。缺失連結預測通過分析觀察到的模式和關係,識別網絡中未觀察到但可能存在的連接。在擴散檢測中,這有助於識別和描述國家與非國家行為者獲取核武器或相關技術的企圖——這是全球安全中一項極具挑戰性但至關重要的任務。非負矩陣分解(NMF)和邏輯矩陣分解(LMF)等降維技術雖然有效,但需要選擇矩陣秩參數,即隱藏特徵的數量k,以避免過擬合或欠擬合。我們引入了新的加權(WNMFk)、布爾(BNMFk)和推薦(RNMFk)矩陣分解方法,並結合邏輯分解的集成變體,用於連結預測。我們的方法通過使用改進的自舉方法和不確定性量化(UQ)評估穩定性和準確性,自動確定模型秩估計,評估隨機擾動下的預測可靠性。我們結合Otsu閾值選擇和k-means聚類進行布爾矩陣分解,並將其與基於坐標下降的布爾閾值方法進行比較。我們的實驗突出了秩k選擇的影響,評估了不同測試集大小下的模型性能,並展示了UQ在可靠預測中的優勢。我們在三個合成數據集(布爾和均勻分佈)上驗證了我們的方法,並在五個真實世界的蛋白質-蛋白質相互作用網絡上與LMF和對稱LMF(symLMF)進行了基準測試,展示了改進的預測性能。
摘要
- 原文標題:Computer-Assisted Proofs of Solitons in Bose-Einstein Condensates
- 中文標題:計算機輔助證明玻色-愛因斯坦凝聚體中的孤子
- 發佈日期:2025-03-06 18:49:04+00:00
- 作者:Miguel Ayala, Carlos García Azpeitia, Jean-Philippe Lessard
- 分類:math.DS, math.AP
- 原文連結:http://arxiv.org/abs/2503.04701v1
中文摘要:我們嚴格證明了在一維Gross-Pitaevskii方程(GP方程)中具有周期勢的間隙孤子的存在性。這些非線性局域解出現在譜隙中,並在理解玻色-愛因斯坦凝聚體(BECs)中起着關鍵作用。為了證明它們,我們將問題重新表述為在高維動力系統中尋找同宿軌道。然後,我們使用計算機輔助證明技術,結合泛函分析框架,嚴格驗證數值近似的同宿軌道。這項工作將計算證據與形式數學證明相結合,為研究GP方程中的孤子提供了堅實的基礎。
摘要
- 原文標題:A Short Survey of the Well-posedness of the Two-dimensional Burgers' Equation
- 中文標題:二維Burgers方程適定性研究簡評
- 發佈日期:2025-03-06 14:19:14+00:00
- 作者:Xiang Zhang, Shuhan Xie, Yule Sun
- 分類:math.AP
- 原文連結:http://arxiv.org/abs/2503.04467v1
中文摘要:在本文中,我們利用無限維動力系統的框架,建立了二維Burgers方程解的存在性和唯一性。二維Burgers方程模擬了非線性平流和粘性耗散之間的相互作用,其形式為:$$ u_{t} + u \cdot \nabla u = \nu \Delta u + f, $$ 其中 $ u = (u_1, u_2) $ 是速度場,$ \nu > 0 $ 是粘性係數,$ f $ 表示外力。我們主要採用Galerkin方法將偏微分方程轉化為常微分方程。此外,通過使用Sobolev空間、能量估計和緊性論證,我們嚴格證明了在適當的初始條件和邊界條件下全局解的存在性及其唯一性。
摘要
- 原文標題:Faster Distributed $Δ$-Coloring via Ruling Subgraphs
- 中文標題:通過支配子圖實現更快的分佈式 $Δ$-着色
- 發佈日期:2025-03-06 11:07:15+00:00
- 作者:Yann Bourreau, Sebastian Brandt, Alexandre Nolin
- 分類:cs.DC, cs.DS
- 原文連結:http://arxiv.org/abs/2503.04320v1
中文摘要:布魯克斯定理指出,除了奇環和團之外,所有連通圖都可以用 $\Delta$ 種顏色着色,其中 $\Delta$ 是圖的最大度數。這種着色已被證明允許非平凡的分佈式算法 [Panconesi 和 Srinivasan, Combinatorica 1995],並在分佈式計算文獻中得到了深入研究。特別是,已知任何計算 $\Delta$-着色的確定性算法在 LOCAL 模型中需要 $\Omega(\log n)$ 輪 [Chang, Kopelowitz, 和 Pettie, FOCS 2016],並且這個下界已經在常數度圖上成立。相比之下,在這種情況下的最佳上界是由一個 $O(\log^2 n)$ 輪的確定性算法給出的,該算法可以從大約三十年前的 [Awerbuch, Goldberg, Luby, 和 Plotkin, FOCS 1989] 和 [Panconesi 和 Srinivasan, Combinatorica 1995] 的工作中推斷出來,這引發了關於常數度設置中 $\Delta$-着色的真實複雜性的基本問題。我們通過提供一個幾乎最優的確定性 $O(\log n \log^* n)$ 輪算法來幾乎完全回答這個長期存在的問題,該算法與下界匹配,僅相差一個 $\log^* n$ 因子。類似地,在隨機化 LOCAL 模型中,我們提供了一個 $O(\log \log n \log^* n)$ 輪的算法,改進了現有的 $O(\log^2 \log n)$ 輪的上界 [Ghaffari, Hirvonen, Kuhn, 和 Maus, Distributed Computing 2021],並且幾乎匹配了 $\Omega(\log \log n)$ 輪的下界 [BFHKLRSU, STOC 2016]。我們的結果在幾個重要的開放問題和猜想上取得了進展。獲得我們結果的一個關鍵因素是引入了統治子圖族作為一種新穎的工具,用於打破圖子結構之間的對稱性,我們預計這將具有獨立的意義。
摘要
- 原文標題:Influence of elastic deformations on body-wave velocity in solids: a case study considering shear deformations in concrete
- 中文標題:彈性變形對固體中體波速度的影響:以混凝土剪切變形為例
- 發佈日期:2025-03-06 11:57:49+00:00
- 作者:Hao Cheng, Cornelis Weemstra, Katrin Löer, Max A. N. Hendriks, Yuguang Yang
- 分類:physics.class-ph, physics.app-ph
- 原文連結:http://arxiv.org/abs/2503.04354v1
中文摘要:本文利用聲彈性理論框架研究了彈性變形對可壓縮各向同性材料中體波速度的影響。具體而言,它研究了在波傳播方向定義的坐標系中,與主變形軸成一定角度傳播的體波,其中剪切變形和法向變形同時存在。儘管已有許多研究涉及這一主題,但理論推導尚未就波速對施加的剪切應力和應變的響應得出明確結論。為了得出混凝土中體波的具體結論,我們以混凝土為介質分析了三個例子。主要發現是,在混凝土材料中,當體波在剪切變形平面上傳播時,縱波速度的變化主要歸因於法向應變的變化,而橫波速度則顯著受到法向應變和剪切應變的共同影響。這一發現可以增強聲彈性理論在平面應力狀態下檢測主應力大小和方向的應用。
摘要
- 原文標題:Assessing Student Adoption of Generative Artificial Intelligence across Engineering Education from 2023 to 2024
- 中文標題:評估2023年至2024年工程教育中學生對生成式人工智能的採用情況
- 發佈日期:2025-03-06 18:42:36+00:00
- 作者:Jesan Ahammed Ovi, Gabe Fierro, C. Estelle Smith
- 分類:cs.HC
- 原文連結:http://arxiv.org/abs/2503.04696v1
中文摘要:生成式人工智能(GenAI)工具和模型有潛力重塑工程教育各個領域的教育需求、規範、實踐和政策。關於工程學生如何採用GenAI的實證數據,而非軼事和假設,對於在學術培訓期間建立對學生GenAI相關行為和需求的基礎理解至關重要。這些數據還將幫助學術機構和工業僱主制定有效的GenAI應對策略。我們在2023年5月($n_1=601$)和2024年9月($n_2=862$)於美國科羅拉多礦業學院(一所小型工程類R-1大學)收集了兩個具有代表性的調查樣本,以解決以下研究問題:(RQ1)工程學生如何採用GenAI,包括促成GenAI使用的動機和人口統計因素;(RQ2)學生對GenAI的倫理擔憂;(RQ3)學生對GenAI對自身、科學和社會的感知利益與危害。分析顯示,從2023年到2024年,GenAI的採用率顯著上升。學生主要利用GenAI工具來加深理解、提高工作質量並了解新興技術。儘管大多數學生認為自己對GenAI的使用是合乎道德且有益的,但他們仍然對GenAI及其對社會的影響表達了重大擔憂。我們收集了學生對「P(doom)」的估計,並發現了一個雙峰分佈。因此,我們表明,儘管隨着時間的推移,礦業學院的學生越來越願意探索GenAI,但他們對GenAI未來對工程勞動力和社會的影響持兩極分化態度。我們討論了這些發現對未來研究以及將GenAI整合到工程教育中的影響。
摘要
- 原文標題:Pervasive protonation of perovskite membranes made by the water-soluble sacrificial layer method
- 中文標題:通過水溶性犧牲層方法製備的鈣鈦礦膜的普遍質子化
- 發佈日期:2025-03-06 08:21:09+00:00
- 作者:Umair Saeed, Felip Sandiumenge, Kumara Cordero-Edwards, Jessica Padilla-Pantoja, José Manuel Caicedo Roque, David Pesquera, José Santiso, Gustau Catalan
- 分類:cond-mat.mtrl-sci, physics.app-ph
- 原文連結:http://arxiv.org/abs/2503.04197v1
中文摘要:通過使用水溶性犧牲層的剝離方法製備鈣鈦礦氧化物自支撐薄膜(膜)具有吸引力,因為這些膜相對於傳統的外延薄膜具有新的機械自由度。然而,關於其製備過程,特別是在蝕刻步驟中暴露於水對其性質的影響,知之甚少。在這裏,我們研究了兩種鈣鈦礦原型——反鐵電PbZrO3和順電SrTiO3的膜在水基蝕刻步驟中的影響。通過拉曼光譜和X射線衍射,我們發現氫滲透到鈣鈦礦結構中的證據。伴隨着這種質子化,功能性質也發生了變化,兩種材料在室溫下都表現出類似鐵電的行為,這在塊體陶瓷或無氫薄膜中是不存在的。我們還發現,熱退火可以用來將氫從膜中排出,從而恢復塊體性質。這項工作的兩個主要結論是:(i)任何通過犧牲層水解製備的鈣鈦礦膜都容易受到氫滲透(質子化)的影響,這可能導致功能性質發生重要但外在的變化;(ii)氫可以通過退火排出,並且應該通過退火排出以恢復內在行為。
摘要
- 原文標題:A Foundational Potential Energy Surface Dataset for Materials
- 中文標題:材料的基礎勢能面數據集
- 發佈日期:2025-03-06 04:06:59+00:00
- 作者:Aaron D. Kaplan, Runze Liu, Ji Qi, Tsz Wai Ko, Bowen Deng, Janosh Riebesell, Gerbrand Ceder, Kristin A. Persson, Shyue Ping Ong
- 分類:cond-mat.mtrl-sci, physics.comp-ph
- 原文連結:http://arxiv.org/abs/2503.04070v1
中文摘要:準確的勢能面(PES)描述對於材料的原子模擬至關重要。通用機器學習原子間勢(UMLIPs)$^{1-3}$為周期表中PES建模提供了一種計算效率高的替代方案,相較於密度泛函理論(DFT)$^4$。然而,由於依賴於DFT弛豫數據$^{5,6}$,其準確性目前受到根本性限制。在此,我們引入了MatPES,這是一個基礎的PES數據集,包含從281億個分子動力學快照中精心採樣的$\sim 400,000$個結構,涵蓋了160億個原子環境。我們展示了在適度規模的MatPES數據集上訓練的UMLIPs可以在廣泛的平衡、近平衡和分子動力學性質基準測試中與甚至超越先前在更大數據集上訓練的模型。我們還引入了首個基於修訂的正則化強約束和適當歸一化(r$^2$SCAN)泛函$^7$的高保真PES數據集,顯著改進了原子間鍵合的描述。開源的MatPES計劃強調了材料科學中數據質量的重要性,並推動了社區驅動的廣泛進展,以實現更可靠、可推廣和高效的UMLIPs,用於大規模材料發現和設計。
摘要
- 原文標題:Ultrahigh free-electron Kerr nonlinearity in all-semiconductor waveguides for all-optical nonlinear modulation of mid-infrared light
- 中文標題:全半導體波導中的超高自由電子克爾非線性用於中紅外光的全光非線性調製
- 發佈日期:2025-03-06 18:57:25+00:00
- 作者:Gonzalo Álvarez-Pérez, Huatian Hu, Fangcheng Huang, Tadele Orbula Otomalo, Michele Ortolani, Cristian Ciracì
- 分類:physics.optics, quant-ph
- 原文連結:http://arxiv.org/abs/2503.04711v1
中文摘要:非線性光學波導,特別是那些利用光學克爾效應的波導,在推動下一代光子技術方面具有廣闊前景。儘管克爾效應具有超快響應特性,但其固有的弱非線性限制了實際應用。本文研究了全半導體波導中的自由電子誘導克爾非線性,揭示了縱向體等離子體(固有的非局域激發)可以產生異常強的克爾非線性。我們特別開發了一種結合半經典流體動力學理論的非線性本徵模分析方法,用於計算重摻雜半導體中自由電子量子行為引起的線性和非線性光學響應。這些波導實現了超過10$^7$ W$^{-1}$km$^{-1}$的超高非線性係數,並支持傳播距離超過100 $\mu$m的長傳播模式。此外,通過考慮粘彈性和非線性阻尼機制,我們驗證了在實際條件下非線性響應的魯棒性。最後,我們在馬赫-曾德爾干涉儀中實現了全半導體波導,展示了通過自由電子克爾效應實現的高效非線性調製透射光譜。這項工作證明了重摻雜半導體中自由電子非線性在光子集成電路中的變革潛力,為可擴展的片上非線性納米光子系統鋪平了道路。
摘要
- 原文標題:Enhancing DUNE Physics Sensitivity with Light and Charge Calorimetry
- 中文標題:利用光和電荷量熱法增強DUNE物理靈敏度
- 發佈日期:2025-03-06 13:44:31+00:00
- 作者:Jogesh Rout, Suchismita Sahoo
- 分類:physics.ins-det, hep-ex, hep-ph
- 原文連結:http://arxiv.org/abs/2503.04432v1
中文摘要:我們研究了液態氬時間投影室中光量熱法的潛力及其固有的自補償特性,強調了其與傳統的電荷量熱法相比的優勢。先前的研究表明,光量熱法可以實現與先進的基於電荷的技術相當的能量解像度,特別是對於GeV級中微子。在這項工作中,我們探索了光量熱法與電荷量熱法在DUNE中關鍵物理參數(包括CP破壞(CPV)和質量層次確定)的精確測量中的互補性。雖然電荷量熱法在CP相位測量中提供了更高的解像度,但光量熱法獨立地為CPV和質量層次敏感性提供了重要的見解。此外,我們的曝光與CPV敏感性研究表明,使用光量熱法和電荷量熱法比傳統的基於TDR的重建方法更快地達到$5\sigma$的發現潛力。這些發現突出了光量熱法作為一種簡單而有效的重建方法的潛力,作為增強DUNE物理能力的補充方法。
摘要
- 原文標題:Capacitive response of biological membranes
- 中文標題:生物膜的電容響應
- 發佈日期:2025-03-06 18:16:39+00:00
- 作者:Jafar Farhadi, Joshua B. Fernandes, Karthik Shekhar, Kranthi K. Mandadapu
- 分類:cond-mat.soft, physics.bio-ph, q-bio.SC
- 原文連結:http://arxiv.org/abs/2503.04677v1
中文摘要:我們提出了一個最小模型,用於分析通過阻塞電極施加階躍電壓時生物膜的電容響應。通過對基礎電解質輸運方程的微擾分析,我們表明跨膜電位的主導階弛豫由電容時間尺度 ${\tau_{\rm C} =\dfrac{\lambda_{\rm D}L}{D}\left(\dfrac{2+\Gamma\delta^{\rm M}/L}{4+\Gamma\delta^{\rm M}/\lambda_{\rm D}}\right)}$ 控制,其中 $\lambda_{\rm D}$ 是德拜屏蔽長度,$L$ 是電解質寬度,$\Gamma$ 是電解質與膜的介電常數之比,$\delta^{\rm M}$ 是膜厚度,$D$ 是離子擴散係數。由於膜的低介電常數和有限厚度,該時間尺度明顯短於裸電解質的傳統 RC 時間尺度 ${\lambda_{\rm D} L / D}$。然而,在線性範圍之外,體電解質中的鹽擴散驅動了跨膜電位的二次非線性弛豫過程,其時間尺度為 ${\tau_{\rm L} =L^2/4\pi^2 D}$。一個簡單的等效電路模型準確地捕捉了線性行為,並且微擾展開在整個觀察到的生理跨膜電位範圍內仍然適用。這些發現共同強調了更快的電容時間尺度和非線性效應對體擴散時間尺度在確定一系列生物系統的跨膜電位動態中的重要性。
摘要
- 原文標題:Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases
- 中文標題:量化大語言模型在真實世界臨床案例中的推理能力
- 發佈日期:2025-03-06 18:35:39+00:00
- 作者:Pengcheng Qiu, Chaoyi Wu, Shuyu Liu, Weike Zhao, Ya Zhang, Yanfeng Wang, Weidi Xie
- 分類:cs.CL
- 原文連結:http://arxiv.org/abs/2503.04691v1
中文摘要:最新的推理增強型大語言模型(reasoning LLMs),如 DeepSeek-R1 和 OpenAI-o3,已經展示了顯著的成功。然而,這種推理增強在高度專業的醫學領域的應用尚未得到明確評估,特別是在不僅評估最終生成結果,還檢查其推理過程質量方面。在本研究中,我們提出了 MedR-Bench,一個以推理為重點的醫學評估基準,包含 1,453 個結構化患者案例,其推理參考來自病例報告。我們的基準涵蓋了 13 個身體系統和 10 種專科疾病,包括常見和罕見疾病。在我們的評估中,我們引入了一個多功能框架,包含三個關鍵的臨床階段:評估建議、診斷決策和治療計劃,全面捕捉 LLMs 在整個患者醫療旅程中的表現。在指標方面,我們提出了一種新穎的代理系統,稱為推理評估器(Reasoning Evaluator),旨在通過動態搜索和執行交叉引用檢查,從效率、事實性和完整性的角度,以可擴展的方式自動化和客觀量化自由文本推理響應。最終,我們評估了五種最先進的推理 LLMs,包括 DeepSeek-R1、OpenAI-o3-mini 等。我們的結果表明,當前的 LLMs 能夠處理相對簡單的診斷任務,並提供足夠的關鍵評估結果,準確率通常超過 85%。然而,它們在更複雜的任務(如評估建議和治療計劃)上仍然存在困難。在推理方面,它們的推理過程通常是可靠的,事實性得分超過 90%,但常常忽略關鍵的推理步驟。我們的研究明確揭示了當前臨床 LLMs 的進一步發展方向。
摘要
- 原文標題:Privacy Preserving and Robust Aggregation for Cross-Silo Federated Learning in Non-IID Settings
- 中文標題:非獨立同分佈設置下跨孤島聯邦學習的私隱保護和魯棒聚合
- 發佈日期:2025-03-06 14:06:20+00:00
- 作者:Marco Arazzi, Mert Cihangiroglu, Antonino Nocera
- 分類:cs.LG, cs.AI, cs.CR
- 原文連結:http://arxiv.org/abs/2503.04451v1
中文摘要:聯邦平均(Federated Averaging)由於其簡單性和可擴展性,仍然是聯邦學習中最廣泛使用的聚合策略。然而,在非獨立同分佈(non-IID)數據設置中,其性能顯著下降,尤其是在客戶端數據分佈高度不平衡或偏斜的情況下。此外,它依賴於客戶端傳輸元數據,特別是訓練樣本的數量,這引入了私隱風險,並可能與歐洲《通用數據保護條例》(GDPR)等監管框架產生衝突。在本文中,我們提出了一種新的聚合策略,通過引入類感知梯度掩碼來解決這些挑戰。與傳統方法不同,我們的方法僅依賴於梯度更新,消除了對任何額外客戶端元數據的需求,從而增強了私隱保護。此外,我們的方法基於類特定重要性驗證並動態加權客戶端的貢獻,確保了對非獨立同分佈數據的魯棒性、防止收斂失敗以及抵禦後門攻擊。在基準數據集上的大量實驗表明,我們的方法不僅在非獨立同分佈設置中優於聯邦平均和其他廣泛接受的聚合策略,而且在對抗性場景中保持了模型的完整性。我們的結果證明了梯度掩碼作為一種實用且安全的聯邦學習解決方案的有效性。