WikiEdge:ArXiv速遞/2025-04-02

出自WikiEdge
於 2025年6月9日 (一) 20:45 由 Carole留言 | 貢獻 所做的修訂 (Updated page by Carole)
跳至導覽 跳至搜尋

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間位置幾何形態屬性特徵要素關聯演化過程運作機制七個維度,最終生成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定以提升檢索精度;(4)GeoPrompt模板動態整合用戶查詢檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義

摘要

  • 原文標題:A Unified Approach to Analysis and Design of Denoising Markov Models
  • 中文標題:去噪馬爾可夫模型分析與設計的統一方法
  • 發布日期:2025-04-02 17:46:43+00:00
  • 作者:Yinuo Ren, Grant M. Rotskoff, Lexing Ying
  • 分類:cs.LG, cs.NA, math.NA, stat.ML
  • 原文連結http://arxiv.org/abs/2504.01938v1

中文摘要:基於測度傳輸概率生成模型(如擴散模型和基於的模型)通常採用馬爾可夫隨機動力學語言進行表述,其中底層過程的選擇同時影響算法設計決策和理論分析。本文旨在為去噪馬爾可夫模型建立嚴格的數學基礎——這類生成模型假設存在從前向過程(從目標分布過渡到簡單易採樣分布)與特別構建的後向過程(實現逆向高效採樣)。通過與非平衡統計力學及廣義Doob's h-變換的深層聯繫,我們提出一組最小假設條件以確保:(1) 後向生成算子的顯式構造,(2) 直接最小化測度傳輸差異的統一變分目標,(3) 經典分數匹配方法在不同動力學中的適應性實現。本框架統一了連續/離散擴散模型的現有表述,在正向生成算子滿足特定正則性假設下識別出去噪馬爾可夫模型的最一般形式,並為任意Lévy型過程驅動的去噪模型設計提供了系統化方案。我們通過採用幾何布朗運動跳躍過程作為前向動力學的新型去噪模型,展示了該框架在複雜分布建模中的潛在靈活性與效能。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)的計算中,我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以評估這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(包括5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)構建包含22個數據集的大規模基準測試集(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼。通過公開代碼數據文檔,本研究支持學界以更科學的方式復現實驗並推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程導致計算成本顯著更高——分別比傳統方法和SLMs平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLMs調優成本的場景選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選用RobertaSLMs

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具仍較為匱乏。本文提出了一種基於高維數據集的新型材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取逐漸增加針尖-樣品距離時的50個相位值,最終形成50×50×50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建用於納米尺度光學分析的精細化預測工具。

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件下氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及電場分布。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構在溝道面電荷密度為1.27×1013 cm-2時,擊穿電壓超過1 kV。有效峰值電場與平均擊穿場強分別估計為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:Study of scaling laws in language families
  • 中文標題:語言家族中的標度律研究
  • 發布日期:2025-04-02 12:28:59+00:00
  • 作者:Maelyson R. F. Santos, Marcelo A. F. Gomes
  • 分類:physics.soc-ph, cs.CL
  • 原文連結http://arxiv.org/abs/2504.01681v1

中文摘要:本文利用來自六千多種語言的數據,通過分析齊普夫式分類圖中湧現的模式,研究語言家族中的標度律現象。研究從宏觀(基於各語系包含的語言數量)和微觀(基於語系中各語言的使用者數量)兩個維度考察了這些分類特徵。尤其值得注意的是,在排除亞非語系尼羅-撒哈拉語系後,研究發現當代十四大語系存在明顯分化現象——這些語系分布在三個語系四重奏組中,每組在齊普夫圖中均表現出顯著不同的指數特徵。該發現揭示了主要語系的底層結構與組織方式,為理解語言多樣性和分布的本質提供了新的見解。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:基於地理視角的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答系統(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等缺陷,阻礙了精準信息獲取。本研究提出GeoRAG——一個整合領域微調提示工程檢索增強生成(RAG)技術的知識增強型問答框架,旨在提升地理知識檢索精度與用戶交互體驗。該框架包含四個核心組件:(1)基於3267份語料(研究論文專著技術報告)構建的結構化知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程作用機制七個維度,最終形成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據評估查詢-文檔相關性檢索評估模塊,優化檢索精度;(4)GeoPrompt模板引擎,動態整合用戶查詢檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域特定場景下部署大語言模型的新範式,推動地理人工智慧發展,對提升現實應用中GeoQA系統的可擴展性準確性具有重要價值。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,以基於Transformer架構小型及大型語言模型SLMsLLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i) 對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii) 發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),提供基於摺疊交叉驗證數據劃分方案、完整文檔代碼代碼數據文檔的公開將助力學界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,平均速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1) 對效果要求極致且能承擔成本的場景選用LLMs;(2) 資源受限或無法承擔LLM調優成本的場景選用邏輯回歸/SVM等傳統方法;(3) 追求效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:基於第一性原理計算展示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主導作用。通過比較MBPT(3)與RCC結果的差異,我們發現PC與CP效應之間的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集和自動化分析工具較為匱乏。本文提出了一種利用高維數據集進行材料識別的新方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取50個在探針-樣品間距遞增時的相位值,最終形成50×50×50體素圖像以表徵不同深度的相位變化。基於此數據集,我們比較了K近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建納米級光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性電場分布。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流橫向金屬-半導體-絕緣體測試結構中,在1.27×1013 cm-2的溝道面電荷密度下實現了超過1 kV的擊穿電壓。有效峰值電場和平均擊穿場強分別估計為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答系統(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等缺陷,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程運行機制七個維度,最終形成145234條分類條目和875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定;(4)GeoPrompt模板動態整合用戶查詢檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域特定場景下大語言模型部署新範式,推動地理人工智慧發展,對提升現實應用中GeoQA系統的可擴展性準確性具有重要價值。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,其中以基於Transformer架構小型及大型語言模型SLMsLLMs)最為典型。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的主要貢獻包括:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)構建包含22個數據集的大規模基準測試集(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的發布使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,平均速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLM調優成本的場景選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選用RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:本研究採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),通過第一性原理計算探究了銫原子(Cs)中多個偶宇稱奇宇稱標量張量靜態電偶極極化率($\alpha_d$)的電子關聯效應高階相對論效應。為處理奇宇稱E1算子原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主導作用。通過對比MBPT(3)與RCC結果,我們發現PC與CP效應間的關聯效應以及雙CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米級材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具較為匱乏。本文提出一種基於高維數據集的新材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取50個隨探針-樣品距離遞增的相位值,最終形成50×50×50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明FNN具有最高的準確率F1分數,優於傳統方法。最後通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像,我們驗證了這些分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建用於納米級光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬帶隙(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件下氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及內部電場金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。在橫向金屬-半導體-絕緣體測試結構中,當溝道電荷密度為1.27×1013 cm-2時,擊穿電壓超過1 kV。有效峰值電場與平均擊穿場強分別估算為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域的自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程運作機制七個維度,最終生成145234條分類條目及875432組多維問答對;(2)基於BERT-Base-Chinese訓練的多標籤文本分類器,通過地理維度分類解析查詢類型;(3)利用問答對數據評估查詢-文檔相關性的檢索評估器,優化檢索精度;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實應用中GeoQA系統的可擴展性準確性具有重要價值。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻在於:(i)對12種傳統與新興ATC方案(含5個開源LLMs)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLMs;(2)資源受限或無法承擔LLMs調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:An Explainable Reconfiguration-Based Optimization Algorithm for Industrial and Reliability-Redundancy Allocation Problems
  • 中文標題:面向工業與可靠性冗餘分配問題的可解釋重構優化算法
  • 發布日期:2025-04-02 03:33:48+00:00
  • 作者:Dikshit Chauhan, Nitin Gupta, Anupam Yadav
  • 分類:cs.AI, cs.NE
  • 原文連結http://arxiv.org/abs/2504.01331v1

中文摘要工業可靠性優化問題通常涉及複雜約束條件,並需要高效、可解釋的解決方案。本文提出AI-AEFA算法——一種基於參數重構高級元啟發式算法,專為解決大規模工業優化可靠性-冗餘分配問題而設計。該算法通過創新的對數S型參數自適應機制混沌映射策略,顯著提升了搜索空間探索能力與收斂效率。研究在28個IEEE CEC 2017約束基準問題、15個大規模工業優化問題及7個可靠性-冗餘分配問題上驗證了算法性能,結果表明其在可行性計算效率收斂速度方面均優於現有最先進優化技術。本工作的另一關鍵貢獻是集成SHAPShapley加性解釋)方法以增強AI-AEFA可解釋性,通過分析庫侖常數電荷量加速度靜電力等關鍵參數的影響機制,為優化過程中的決策行為提供透明化解讀。實驗證實AI-AEFA是一種兼具魯棒性可擴展性可解釋性優化工具,具有重要的實際應用價值

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:本研究採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),通過第一性原理計算探究了銫原子(Cs)中多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)的電子關聯效應高階相對論效應。為處理奇宇稱E1算子對原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值(含估計不確定度)與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子極化率測定中,對關聯(PC)效應比核心極化(CP)效應起更主導作用。通過對比MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具仍較為有限。本文提出了一種基於高維數據集的新型材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取50個隨探針-樣品距離遞增的相位值,最終形成50x50x50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建納米級光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介電-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介電/界面特性電場分布。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構溝道面電荷密度為1.27×1013 cm-2時,擊穿電壓超過1 kV。有效峰值電場與平均擊穿場強分別估算為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:基於地理視角的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統結合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為七個維度:語義理解空間位置幾何形態屬性特徵要素關聯演化過程作用機制,最終生成145234條分類條目及875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定以提升檢索精度;(4)GeoPrompt模板動態整合用戶查詢檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的主要貢獻包括:(i)對12種傳統與新興ATC方案(含5個開源LLMs)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將使學界能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLMs;(2)資源受限或無法承擔LLMs調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選用RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:本研究採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),通過第一性原理計算探討了銫原子(Cs)中若干偶宇稱奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)的電子關聯效應高階相對論效應。為處理奇宇稱E1算子原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明:在銫原子極化率測定中,電子對關聯效應(PC)比核心極化效應(CP)起更主導作用。通過對比MBPT(3)RCC結果,我們發現PCCP效應間的關聯效應以及雙CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具較為匱乏。本文提出了一種基於高維數據集的新穎材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取50個隨探針-樣品距離遞增的相位值,最終形成50×50×50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建用於納米級光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介質界面特性及內部電場。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏洩漏電流。在橫向金屬-半導體-絕緣體測試結構中,當溝道面電荷密度為1.27×1013 cm-2時,擊穿電壓超過1 kV。有效峰值電場和平均擊穿場強分別估計為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域的自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統結合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程運作機制七個維度,最終生成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定以提升檢索精度;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,其中以基於Transformer架構的小型及大型語言模型SLMsLLMs)最為典型。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的兩項主要貢獻為:(i)對12種傳統與新型ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLMs;(2)資源受限或無法承擔LLMs調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時可選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:基於第一性原理計算展示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:本研究採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),系統探究了銫原子(Cs)中若干偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算符對原子軌道的微擾影響,計算採用線性響應理論框架。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子極化率測定中,電子對關聯(PC)效應比核心極化(CP)效應起更主導作用。通過對比MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米級材料表徵方面具有重要潛力,但現有魯棒數據集和自動化分析工具較為有限。本文提出了一種基於高維數據集的新型材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取逐漸增加針尖-樣品距離時的50個相位值,最終形成50x50x50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了K近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率和F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡(s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建納米級光學分析的精細化預測工具。

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件下氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及內部電場。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構在1.27×1013 cm-2溝道面電荷密度下實現了超過1 kV的擊穿電壓,有效峰值電場與平均擊穿場強分別估算為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域的自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統結合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程運作機制七個維度,最終生成145234條分類條目及875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定以提升檢索精度;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的主要貢獻包括:(i)對12種傳統與新型ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於交叉驗證流程,並配套文檔代碼代碼數據文檔的開放將使學界能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程導致計算成本激增,分別比傳統方法和SLM平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLM;(2)資源受限或無法承擔LLM調優成本的場景選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選用Roberta等SLM。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起更主要作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具較為匱乏。本文提出了一種基於高維數據集的新型材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取逐漸增加針尖-樣品距離時的50個相位值,最終形成50x50x50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建納米尺度光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件下氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及電場分布。金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。在橫向金屬-半導體-絕緣體測試結構中,當溝道電荷密度為1.27×1013 cm-2時,擊穿電壓超過1 kV。有效峰值電場與平均擊穿場強分別估算為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:基於地理視角的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程運作機制七個維度,最終生成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統可擴展性準確性具有重要價值。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMs和LLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的兩項主要貢獻為:(i)對12種傳統與新型ATC方案(包括5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布一個包含22個數據集(涵蓋情感分析主題分類任務)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並附有完整文檔和代碼。代碼、數據及文檔的公開將使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程導致計算成本顯著更高——分別比傳統方法和SLM平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時選用RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)的計算中,我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),探究了電子關聯效應高階相對論效應的影響。為考慮奇宇稱E1算符原子軌道的微擾作用,計算採用線性響應方法進行。我們最終獲得的$\alpha_d$值及其估計不確定度與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主要的作用。通過比較MBPT(3)與RCC結果發現,PC與CP效應間的關聯以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻相當可觀。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米級材料表徵方面具有重要潛力,但現有魯棒數據集和自動化分析工具仍較為有限。本文提出了一種基於高維數據集的新材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取逐漸增加針尖-樣品距離時的50個相位值,最終形成50×50×50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了K近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率和F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建用於納米級光學分析的精細化預測工具。

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件下氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及內部電場。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏洩漏電流。橫向金屬-半導體-絕緣體測試結構溝道面電荷密度1.27×1013 cm-2時實現了超過1 kV的擊穿電壓,有效峰值電場與平均擊穿場強分別估算為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精確信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統結合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程運作機制七個維度,最終生成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定以提升檢索精度;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,其中以基於Transformer架構小型及大型語言模型SLMsLLMs)最為典型。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。針對此,本研究的兩項主要貢獻為:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試集(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套完整文檔代碼代碼數據文檔的公開將使學界能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程導致計算成本激增,分別比傳統方法和SLMs平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子極化率測定中,電子對關聯(PC)效應比核心極化(CP)效應起更主導作用。通過對比MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM方法數據集
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具仍較為匱乏。本文提出了一種基於高維數據集的新型材料識別方法,該數據集包含從二氧化矽五種不同材料採集的AFM相位趨近曲線。每次測量獲取50個在探針-樣品間距遞增時的相位值,最終形成50x50x50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建用於納米尺度光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性電場強度金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏洩漏電流。在橫向金屬-半導體-絕緣體測試結構中,當溝道面電荷密度為1.27×1013 cm-2時,擊穿電壓超過1 kV。有效峰值電場和平均擊穿場強分別估計為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對於提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答系統(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程運作機制七個維度,最終形成145234條分類條目和875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器優化查詢-文檔相關性判定;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實應用中GeoQA系統的可擴展性準確性具有重要價值。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,其中以基於Transformer架構小型及大型語言模型SLMsLLMs)最為典型。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的性能提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i) 對12種傳統與新型ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii) 發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),提供基於摺疊交叉驗證數據劃分方案、完整文檔代碼。通過公開代碼數據文檔,本研究支持學界以更科學的方式復現實驗並推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程導致計算成本激增,分別比傳統方法和SLMs平均慢590倍和8.5倍。由此提出建議:(1) 對效果要求極致且能承擔成本的場景選用LLMs;(2) 資源受限或無法承擔LLM調優成本時選擇邏輯回歸/SVM等傳統方法;(3) 追求效果-效率平衡時選用RobertaSLMs

摘要

  • 原文標題:A Truncated Newton Method for Optimal Transport
  • 中文標題:最優傳輸的截斷牛頓法
  • 發布日期:2025-04-02 19:00:24+00:00
  • 作者:Mete Kemertas, Amir-massoud Farahmand, Allan D. Jepson
  • 分類:cs.LG, cs.MS, math.OC, G.3; G.4; I.4.0
  • 原文連結http://arxiv.org/abs/2504.02067v1

中文摘要:摘要:開發現代最優傳輸(OT)求解器需要權衡多個關鍵需求:GPU並行化能力、高維問題的可擴展性、理論收斂保證精度運行時的實證性能,以及實際應用中的數值穩定性。針對這些挑戰,我們提出了一種專門用於熵正則化OT截斷牛頓算法。除了證明在無需假設Hessian矩陣Lipschitz連續的情況下仍可能實現局部二次收斂外,我們還提供了在實踐中最大限度利用高局部收斂速率的策略。我們的GPU並行算法展現出極其優越的運行時性能,以比現有方案快數個數量級的速度實現高精度計算,這通過24個問題集(12個數據集×2種成本函數)的掛鐘時間實驗得到驗證。該算法的可擴展性在一個超大規模OT問題上得到展示(n≈10^6),在弱熵正則化條件下實現了近似求解。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:基於第一性原理計算展示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更重要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM方法數據集
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具較為匱乏。本文提出了一種基於高維數據集的新材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取50個在探針-樣品間距遞增時記錄的相位值,最終形成50x50x50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率F1分數,優於傳統方法。最後,通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像,我們驗證了這些分割圖的實際應用價值,揭示了如何利用AFM相位趨近曲線構建用於納米級光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件下氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及電場分布。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構在1.27×1013 cm-2溝道面電荷密度下實現了超過1 kV的擊穿電壓。有效峰值電場與平均擊穿場強分別估計為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答系統(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等缺陷,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程作用機制七個維度,最終形成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定;(4)GeoPrompt模板動態整合用戶查詢檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實應用中GeoQA系統的可擴展性準確性具有重要價值。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,其中以基於Transformer架構的小型及大型語言模型SLMsLLMs)最為典型。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的主要貢獻包括:(i)對12種傳統與新型ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程導致計算成本顯著更高——分別比傳統方法和SLMs平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2)三階微擾理論(MBPT(3)隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了銫原子(Cs)中若干偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算及現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更重要的作用。通過比較MBPT(3)RCC結果,我們發現PCCP效應之間的關聯性以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具仍較為匱乏。本文提出了一種基於高維數據集的新材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取50個隨探針-樣品距離遞增的相位值,最終形成50×50×50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建用於納米級光學分析的精細化預測工具

摘要

  • 原文標題:Automatic Estimation of Pedestrian Gait Features using a single camera recording: Algorithm and Statistical Analysis for Gender Difference and Obstacle Interactions
  • 中文標題:基於單攝像頭記錄的步態特徵自動估計算法及性別差異與障礙物交互的統計分析
  • 發布日期:2025-04-02 11:06:23+00:00
  • 作者:Kanika Jain, Abhishek Gupta, Indranil Saha Dalal, Anurag Tripathi, Shankar Prawesh
  • 分類:physics.soc-ph
  • 原文連結http://arxiv.org/abs/2504.01600v1

中文摘要行人步態特徵(包括身體擺動頻率幅度步長速度)以及行人個人空間方向偏好,是各類行人動力學研究中的重要參數步態特徵測量在從醫療領域到橋梁設計的廣泛應用中至關重要,而個人空間方向選擇(方向偏好)在人群模擬中起著關鍵作用。本研究提出了一種自動算法,用於計算從建築物屋頂單攝像頭拍攝視頻中提取軌跡的步態特徵。研究發現:與男性相比,女性擺動幅度小28.64%,步長短8.68%,速度慢8.14%,但頻率無顯著差異;進一步研究表明,主導步態特徵的主要變量身體參數而非性別。我們進行了三組實驗志願者在a)無障礙物、b)路徑中央放置靜態非生命障礙物、c)路徑中央站立人的情況下走向目的地。綜合統計分析顯示:步態特徵無顯著性別差異;有無障礙物時步態特徵無顯著差異;在性別匹配舒適度前提下,行人對待靜態人類與靜態障礙物的方式相同;受印度左行交通規則影響,行人普遍存在向左的方向偏好。

摘要

  • 原文標題:Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries
  • 中文標題:加速車聯網入侵檢測:基於GPU加速與CPU的機器學習庫性能對比
  • 發布日期:2025-04-02 17:04:53+00:00
  • 作者:Furkan Çolhak, Hasan Coşkun, Tsafac Nkombong Regine Cyrille, Tedi Hoxa, Mert İlhan Ecevit, Mehmet Nafiz Aydın
  • 分類:cs.LG, cs.AI, cs.CR
  • 原文連結http://arxiv.org/abs/2504.01905v2

中文摘要車聯網IoV)可能面臨具有挑戰性的網絡安全攻擊,這需要複雜的入侵檢測系統以及快速的開發和響應機制。本研究比較了GPU加速庫(cuML)與傳統基於CPU的實現(scikit-learn)在性能上的優勢,重點關注車聯網威脅檢測環境中機器學習模型所需的速度和效率。通過使用四種機器學習方法(隨機森林KNN邏輯回歸XGBoost)在三個不同的車聯網安全數據集(OTIDSGIDSCICIoV2024)上進行全面評估,我們的研究結果表明:與傳統的CPU處理相比,GPU加速實現顯著提高了計算效率——訓練時間最高縮短至1/159,預測速度最高提升95倍,同時保持了檢測精度。這一顯著的性能突破使研究人員和安全專家能夠利用GPU加速,構建更快、更有效的威脅檢測系統,以滿足當今互聯車輛網絡對實時安全性的迫切需求。

摘要

  • 原文標題:Nonlinear interactions between the Amazon River basin and the Tropical North Atlantic at interannual timescales
  • 中文標題:亞馬遜河流域與熱帶北大西洋在年際尺度上的非線性相互作用
  • 發布日期:2025-04-02 20:05:54+00:00
  • 作者:Alejandro Builes-Jaramillo, Norbert Marwan, Germán Poveda, Jürgen Kurths
  • 分類:physics.ao-ph, nlin.CD, physics.data-an
  • 原文連結http://arxiv.org/abs/2504.02102v1

中文摘要:我們通過分析亞馬遜流域(AM)降水指數(P-E)時間序列、兩區域間地表氣壓梯度熱帶北大西洋(TNA)海表溫度(SST),研究了年際尺度上亞馬遜水文氣候熱帶北大西洋海溫的潛在影響機制。採用基於遞歸聯合概率的分析方法,該方法能捕捉時間序列間的滯後非線性依賴關係,並通過遞歸分析孿生替代技術量化統計顯著性非線性依賴分析表明:在年際尺度上,亞馬遜水文對0-2個月後的TNA海溫狀態具有90%-95%統計置信度的影響,同時揭示了各變量間的雙向反饋機制:(i)AM降水領先TNA-AM氣壓梯度0-2個月;(ii)氣壓梯度領先TNA信風帶0-3個月及7-12個月;(iii)信風帶領先SST變化0-3個月;(iv)SST變化領先AM降水1個月。研究涵蓋1979-2008年時間序列,特別分析了1999、2005、2009和2010年AM極端降水事件,以及1963、1980、1983、1997、1998、2005和2010年極端乾旱與1989、1999和2009年洪水期間相關變量的月均狀況。結果證實亞馬遜流域作為陸-氣橋梁,在年際尺度上連接了熱帶太平洋與TNA海溫變化。

摘要

  • 原文標題:Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries
  • 中文標題:加速車聯網入侵檢測:GPU加速與基於CPU的機器學習庫性能對比
  • 發布日期:2025-04-02 17:04:53+00:00
  • 作者:Furkan Çolhak, Hasan Coşkun, Tsafac Nkombong Regine Cyrille, Tedi Hoxa, Mert İlhan Ecevit, Mehmet Nafiz Aydın
  • 分類:cs.LG, cs.AI, cs.CR
  • 原文連結http://arxiv.org/abs/2504.01905v1

中文摘要車聯網IoV)可能面臨嚴峻的網絡安全攻擊,這需要複雜的入侵檢測系統以及快速開發和響應機制。本研究比較了GPU加速庫(cuML)與傳統基於CPU的實現(scikit-learn)的性能優勢,重點關注車聯網威脅檢測環境中機器學習模型所需的速度和效率。通過使用四種機器學習方法(隨機森林KNN邏輯回歸XGBoost)在三個不同的車聯網安全數據集(OTIDSGIDSCICIoV2024)上進行全面評估,我們的研究結果表明:在保持檢測精度的前提下,GPU加速實現顯著提升了計算效率——與傳統CPU處理相比,訓練時間最高縮短至1/159,預測速度最高提升95倍。這一顯著的性能突破使研究人員和安全專家能夠利用GPU加速,構建更快、更有效的威脅檢測系統,以滿足當今互聯車輛網絡對實時安全性的迫切需求。

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性電場分布。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構溝道電荷密度1.27×1013 cm-2時實現了超過1 kV的擊穿電壓,有效峰值電場與平均擊穿場強分別達到>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期方法在效能上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效能提升是否足以抵消其高昂成本。對此,本研究的主要貢獻包括:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將幫助研究社區復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效能上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,平均速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)追求最佳效能且能承擔成本時選用LLM;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要接近最優的效能-效率平衡時選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)的計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為考慮奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更重要的作用。通過比較MBPT(3)和RCC結果,我們發現PC與CP效應的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻相當可觀。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答系統(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等缺陷,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個核心組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間位置幾何形態屬性特徵要素關聯演化過程作用機制七個維度,最終形成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定精度;(4)GeoPrompt模板動態整合用戶查詢檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有重要價值。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具較為匱乏。本文提出了一種基於高維數據集的新穎材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取逐漸增加針尖-樣品距離時的50個相位值,最終形成50×50×50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建用於納米級光學分析的精細化預測工具

摘要

  • 原文標題:Automatic Estimation of Pedestrian Gait Features using a single camera recording: Algorithm and Statistical Analysis for Gender Difference and Obstacle Interactions
  • 中文標題:基於單攝像頭記錄的行人步態特徵自動估計算法及性別差異與障礙物交互的統計分析
  • 發布日期:2025-04-02 11:06:23+00:00
  • 作者:Kanika Jain, Abhishek Gupta, Indranil Saha Dalal, Anurag Tripathi, Shankar Prawesh
  • 分類:physics.soc-ph
  • 原文連結http://arxiv.org/abs/2504.01600v1

中文摘要行人步態特徵(包括身體擺動頻率、幅度、步長速度)以及行人個人空間方向偏好,是各類行人動力學研究中的重要參數。步態特徵測量在從醫療領域橋梁設計等廣泛應用中具有關鍵作用,而個人空間方向選擇(方向偏好)在人群模擬中扮演重要角色。本研究提出了一種自動算法,用於計算通過安裝在建築物頂部的單攝像頭所錄製視頻中提取軌跡的步態特徵。研究發現:與男性相比,女性擺動幅度小28.64%,步長短8.68%,速度慢8.14%,但頻率無顯著差異;進一步研究表明,主導步態特徵的主要變量是身體參數而非性別。我們進行了三項實驗:志願者分別走向目的地時 a) 無任何障礙物 b) 路徑中央存在靜止非生物障礙物 c) 路徑中央站立人類。綜合統計分析顯示:步態特徵無顯著性別差異;有無障礙物時步態特徵無顯著差異;在性別匹配舒適度的前提下,行人對待靜止人類與靜止障礙物的方式相同;受印度左行交通規則影響,行人表現出向左的方向偏好。

摘要

  • 原文標題:Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries
  • 中文標題:加速車聯網入侵檢測:GPU加速與基於CPU的機器學習庫性能對比
  • 發布日期:2025-04-02 17:04:53+00:00
  • 作者:Furkan Çolhak, Hasan Coşkun, Tsafac Nkombong Regine Cyrille, Tedi Hoxa, Mert İlhan Ecevit, Mehmet Nafiz Aydın
  • 分類:cs.LG, cs.AI, cs.CR
  • 原文連結http://arxiv.org/abs/2504.01905v2

中文摘要車聯網(IoV)可能面臨嚴峻的網絡安全攻擊,這需要複雜的入侵檢測系統以及快速開發和響應機制。本研究比較了GPU加速庫(cuML)與傳統CPU實現(scikit-learn)的性能優勢,重點關注車聯網威脅檢測環境中機器學習模型所需的速度和效率。通過使用四種機器學習方法(隨機森林K近鄰邏輯回歸XGBoost)在三個不同的車聯網安全數據集(OTIDSGIDSCICIoV2024)上進行全面評估,我們發現:在保持檢測精度的前提下,GPU加速實現的訓練時間最高可縮短至CPU處理的1/159,預測速度最高提升95倍。這一顯著的性能突破使研究人員和安全專家能夠利用GPU加速技術,構建更快、更有效的威脅檢測系統,以滿足當今互聯車輛網絡對實時安全性的迫切需求。

摘要

  • 原文標題:Nonlinear interactions between the Amazon River basin and the Tropical North Atlantic at interannual timescales
  • 中文標題:亞馬遜河流域與熱帶北大西洋在年際尺度上的非線性相互作用
  • 發布日期:2025-04-02 20:05:54+00:00
  • 作者:Alejandro Builes-Jaramillo, Norbert Marwan, Germán Poveda, Jürgen Kurths
  • 分類:physics.ao-ph, nlin.CD, physics.data-an
  • 原文連結http://arxiv.org/abs/2504.02102v1

中文摘要:我們通過分析亞馬遜地區(AM)降水指數(P-E)時間序列、兩區域間地表氣壓梯度熱帶北大西洋(TNA)海表溫度(SST),研究了年際尺度上亞馬遜水文氣候熱帶北大西洋海溫的潛在影響機制。採用基於遞歸聯合概率的分析方法,該方法能捕捉時間序列間的滯後非線性依賴關係,並通過遞歸分析孿生替代物技術量化統計顯著性非線性依賴分析表明:在年際尺度上,亞馬遜水文對0-2個月後的TNA海溫狀態具有90%-95%統計置信度的影響,同時揭示了各變量間的雙向反饋機制:(i)AM降水領先TNA-AM氣壓梯度0-2個月;(ii)氣壓梯度領先TNA信風帶0-3個月及7-12個月;(iii)信風帶領先SST變化0-3個月;(iv)SST變化領先AM降水1個月。研究基於1979-2008年時間序列,並特別分析了1999、2005、2009和2010年AM極端降水事件,以及1963、1980、1983、1997、1998、2005和2010年極端乾旱與1989、1999和2009年洪水期間相關變量的月均狀況。結果證實亞馬遜流域作為陸-氣橋梁,在年際尺度上連接了熱帶太平洋與TNA海溫變化。

摘要

  • 原文標題:Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries
  • 中文標題:加速車聯網入侵檢測:GPU加速與基於CPU的機器學習庫性能對比
  • 發布日期:2025-04-02 17:04:53+00:00
  • 作者:Furkan Çolhak, Hasan Coşkun, Tsafac Nkombong Regine Cyrille, Tedi Hoxa, Mert İlhan Ecevit, Mehmet Nafiz Aydın
  • 分類:cs.LG, cs.AI, cs.CR
  • 原文連結http://arxiv.org/abs/2504.01905v1

中文摘要車聯網(IoV)可能面臨嚴峻的網絡安全攻擊,這需要複雜的入侵檢測系統以及快速開發和響應機制。本研究對比了GPU加速庫(cuML)與傳統基於CPU的實現(scikit-learn)的性能優勢,重點關注車聯網威脅檢測環境中機器學習模型所需的速度和效率。通過在三組不同的車聯網安全數據集(OTIDSGIDSCICIoV2024)上對四種機器學習方法(隨機森林KNN邏輯回歸XGBoost)進行全面評估,我們發現:在保持檢測精度的前提下,GPU加速實現的訓練時間最高可縮短至CPU處理的1/159,預測速度最高提升95倍。這一顯著的性能突破使研究人員和安全專家能夠利用GPU加速技術,構建更快、更有效的威脅檢測系統,以滿足當今互聯車輛網絡對實時安全性的迫切需求。

摘要

  • 原文標題:A Truncated Newton Method for Optimal Transport
  • 中文標題:最優運輸的截斷牛頓法
  • 發布日期:2025-04-02 19:00:24+00:00
  • 作者:Mete Kemertas, Amir-massoud Farahmand, Allan D. Jepson
  • 分類:cs.LG, cs.MS, math.OC, G.3; G.4; I.4.0
  • 原文連結http://arxiv.org/abs/2504.02067v1

中文摘要:摘要:開發現代最優傳輸(OT)求解器需要權衡多個關鍵需求:GPU並行化能力、高維問題的可擴展性、理論收斂保證、精度運行時的實證性能,以及實際應用中的數值穩定性。針對這些挑戰,我們提出了一種專門用於熵正則化OT截斷牛頓算法。除了證明在無需假設Hessian矩陣Lipschitz連續的情況下仍可能實現局部二次收斂外,我們還提供了在實踐中最大限度利用高局部收斂速率的策略。我們的GPU並行算法展現出極其優越的運行時性能,以比現有方案快數個數量級的速度實現高精度計算,這通過24個問題集(12個數據集×2種成本函數)的掛鐘時間實驗得到驗證。該算法的可擴展性在一個超大規模OT問題(n≈10^6)上得到展示,該問題在弱熵正則化條件下被近似求解。

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及內部電場。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構在1.27×1013 cm-2溝道面電荷密度下實現了超過1 kV的擊穿電壓,有效峰值電場與平均擊穿場強分別估算為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大型語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,其中以基於Transformer架構小型及大型語言模型SLMsLLMs)最為典型。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的性能提升是否足以抵消其高昂成本。對此,本研究的兩項主要貢獻為:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套完整文檔代碼代碼數據文檔的公開將幫助研究社區復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLMs調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起更主導作用。通過對比MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為七個維度:語義理解空間位置幾何形態屬性特徵要素關係演化過程作用機制,最終生成145234條分類條目及875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定以提升檢索精度;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米級材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具較為有限。本文提出了一種利用高維數據集進行材料識別的新方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取50個隨探針-樣品距離遞增的相位值,最終形成50×50×50體素圖像以表徵不同深度的相位變化。基於此數據集,我們比較了K近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建納米級光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件下氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性電場分布。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構溝道面電荷密度1.27×1013 cm-2時實現了超過1 kV的擊穿電壓,有效峰值電場與平均擊穿場強分別達到>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),提供基於摺疊交叉驗證流程的數據劃分方案、完整文檔及代碼。代碼、數據和文檔的公開將幫助研究界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,平均速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLM;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要接近最優效果-效率平衡時選用Roberta等SLM。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:基於第一性原理計算展示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量及張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值(含估計不確定度)與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值測定中,電子對關聯(PC)效應比核心極化(CP)效應起更主導作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中同樣顯著。在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域的自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化知識庫,通過多智能體方法歸類為語義理解空間位置幾何形態屬性特徵要素關係演化過程運作機制七個維度,最終形成145234條分類條目及875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定以提升檢索精度;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM數據集及方法學
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具仍較為有限。本文提出了一種基於高維數據集的新型材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取逐漸增加針尖-樣品距離時的50個相位值,最終形成50x50x50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了K近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建用於納米級光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件下氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及內部電場。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構在1.27×1013 cm-2溝道面電荷密度下實現了超過1 kV的擊穿電壓。有效峰值電場與平均擊穿場強分別估算為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,其中以基於Transformer架構的小型及大型語言模型(SLMsLLMs)最為典型。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的公開將幫助研究界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,平均速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLMs調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子極化率測定中,對關聯效應(PC)比核心極化效應(CP)起更主導作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為顯著。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間位置幾何形態屬性特徵要素關聯演化過程運行機制七個維度,最終形成145234條分類條目和875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器優化查詢-文檔相關性判定;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升實際應用中GeoQA系統的可擴展性準確性具有重要意義。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位逼近曲線的材料識別與虛擬s-SNOM方法數據集
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具仍較為有限。本文提出了一種基於高維數據集的新型材料識別方法,該數據集包含從二氧化矽五種不同材料採集的AFM相位趨近曲線。每次測量獲取50個在探針-樣品間距遞增時的相位值,最終形成50x50x50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN能提供最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線開發用於納米級光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬帶隙AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介質界面特性及內部電場。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏洩漏電流。在橫向金屬-半導體-絕緣體測試結構中,當溝道面電荷密度為1.27×1013 cm-2時,擊穿電壓超過1 kV。有效峰值電場與平均擊穿場強分別估計為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMs和LLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的公開將使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM平均慢590倍和8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLM;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要接近最優效果-效率平衡時選用RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了銫原子(Cs)中若干偶宇稱和奇宇稱態在標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算符對原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子極化率測定中,對關聯效應(PC)比核心極化效應(CP)起著更主導作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯性以及雙重CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域的自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程作用機制七個維度,最終形成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據評估查詢-文檔相關性的檢索評估器,優化檢索精度;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有重要價值。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM方法數據集
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米級材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具仍較為匱乏。本文提出了一種基於高維數據集的新方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取50個隨探針-樣品距離遞增的相位值,最終形成50x50x50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,證明AFM相位趨近曲線可轉化為納米級光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及內部電場。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構溝道面電荷密度為1.27×1013 cm-2時,擊穿電壓超過1 kV。有效峰值電場與平均擊穿場強分別估計為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMsLLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的開放將使學界能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,平均速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLMs;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時選用RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:基於第一性原理計算揭示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:本研究採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),通過第一性原理計算探究了銫原子(Cs)中若干偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)的電子關聯效應高階相對論效應。為處理奇宇稱E1算符對原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子極化率測定中,電子對關聯效應(PC)比核心極化效應(CP)起更主導作用。通過對比MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中同樣具有顯著影響。此外,Breit相互作用對高激發態的貢獻尤為突出。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程運作機制七個維度,最終生成145234條分類條目及875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定;(4)GeoPrompt模板動態整合用戶查詢檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有重要價值。

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位趨近曲線的材料識別與虛擬s-SNOM方法數據集
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具較為匱乏。本文提出了一種基於高維數據集的新材料識別方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取50個隨探針-樣品距離遞增的相位值,最終形成50x50x50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了k近鄰KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建納米級光學分析的精細化預測工具

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及電場分布。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構在1.27×1013 cm-2溝道面電荷密度下實現了超過1 kV的擊穿電壓。有效峰值電場和平均擊穿場強分別估計為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMs和LLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔和代碼。代碼、數據及文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗對比結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLM;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:基於第一性原理計算展示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量及張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起更主要作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻相當可觀。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統結合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間位置幾何形態屬性特徵要素關聯演化過程作用機制七個維度,最終生成145234條分類條目和875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據評估查詢-文檔相關性檢索評估器,優化檢索精度;(4)GeoPrompt模板動態整合用戶查詢檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義

摘要

  • 原文標題:Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
  • 中文標題:基於原子力顯微鏡相位逼近曲線的材料識別與虛擬s-SNOM方法數據集
  • 發布日期:2025-04-02 11:42:03+00:00
  • 作者:Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
  • 分類:physics.optics
  • 原文連結http://arxiv.org/abs/2504.01636v1

中文摘要原子力顯微鏡AFM)相位趨近曲線在納米尺度材料表徵方面具有重要潛力,但現有魯棒數據集自動化分析工具較為匱乏。本文提出了一種基於高維數據集的新方法,該數據集包含從二氧化矽五種材料採集的AFM相位趨近曲線。每次測量獲取50個隨探針-樣品距離遞增的相位值,最終形成50×50×50體素圖像以表徵不同深度的相位變化。利用該數據集,我們比較了K近鄰算法KNN)、隨機森林RF)和前饋神經網絡FNN)在材料分割中的表現。結果表明,FNN具有最高的準確率F1分數,優於傳統方法。最後,我們通過生成虛擬散射型掃描近場光學顯微鏡s-SNOM)圖像驗證了分割圖的實際價值,揭示了如何利用AFM相位趨近曲線構建納米尺度光學分析的精細化預測工具。

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及內部電場。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏電流。橫向金屬-半導體-絕緣體測試結構溝道面電荷密度為1.27×1013 cm-2時,擊穿電壓超過1 kV。有效峰值電場和平均擊穿場強分別估算為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的主要貢獻包括:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時選用RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:基於第一性原理計算展示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算子原子軌道的微擾影響,計算採用線性響應方法進行。我們最終獲得的$\alpha_d$值及其不確定度估計,與先前理論計算和現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明,在原子$\alpha_d$值確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起更主要作用。通過比較MBPT(3)RCC結果差異,我們發現PCCP效應間的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為顯著。

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介質-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件氧化物中的固定電荷密度(> 1013 cm-2)、介質/界面特性及內部電場。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏洩漏電流。橫向金屬-半導體-絕緣體測試結構在1.27×1013 cm-2溝道面電荷密度下實現了超過1 kV的擊穿電壓,有效峰值電場與平均擊穿場強分別估計為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域的自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間位置幾何形態屬性特徵要素關聯演化過程作用機制七個維度,最終生成145234條分類條目及875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據評估查詢-文檔相關性的檢索評估器,優化檢索精度;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的主要貢獻包括:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的開放使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸等傳統方法;(3)追求效果-效率平衡的近優解時選用RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明:在原子$\alpha_d$值確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更重要作用。通過比較MBPT(3)RCC結果,我們發現PCCP效應間的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
  • 中文標題:Al2O3/超寬禁帶AlGaN異質結構中的能帶與擊穿特性
  • 發布日期:2025-04-02 01:49:58+00:00
  • 作者:Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
  • 分類:cond-mat.mtrl-sci, physics.app-ph
  • 原文連結http://arxiv.org/abs/2504.01291v1

中文摘要:我們報導了超寬禁帶(UWBG) AlGaN異質結構Al2O3介質能帶擊穿特性。金屬-介電-半導體結構對於維持未來高性能UWBG電晶體所需的高電場至關重要。通過系統實驗,我們測定了半導體平帶條件下氧化物中的固定電荷密度(> 1013 cm-2)、介電/界面特性及電場分布。在金屬-氧化物-半導體結構中獲得了低至5×10-7 A/cm2的柵漏洩漏電流。橫向金屬-半導體-絕緣體測試結構在1.27×1013 cm-2溝道面電荷密度下實現了超過1 kV的擊穿電壓。有效峰值電場與平均擊穿場強分別估計為>4.27 MV/cm和1.99 MV/cm。這些發現證明了Al2O3集成對提升UWBGAlGaNHEMTs擊穿性能的潛力。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:基於地理視角的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v1

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間位置幾何形態屬性特徵要素關聯演化過程作用機制七個維度,最終形成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定精度;(4)GeoPrompt模板動態整合用戶查詢檢索信息,通過維度特異性提示提升響應質量對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升實際應用中GeoQA系統的可擴展性準確性具有重要價值。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套完整文檔代碼代碼數據文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLM;(2)資源受限或無法負擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要效果-效率平衡時選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:在(Cs)原子多個偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)的計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算子原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更主要的作用。通過比較MBPT(3)與RCC結果發現,PC與CP效應間的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A Unified Approach to Analysis and Design of Denoising Markov Models
  • 中文標題:去噪馬爾可夫模型分析與設計的統一方法
  • 發布日期:2025-04-02 17:46:43+00:00
  • 作者:Yinuo Ren, Grant M. Rotskoff, Lexing Ying
  • 分類:cs.LG, cs.NA, math.NA, stat.ML
  • 原文連結http://arxiv.org/abs/2504.01938v1

中文摘要:基於測度傳輸概率生成模型(如擴散模型和基於的模型)通常採用馬爾可夫隨機動力學語言進行表述,其中底層過程的選擇同時影響算法設計決策和理論分析。本文旨在為去噪馬爾可夫模型建立嚴格的數學基礎——這是一類假設前向過程從目標分布過渡到簡單易採樣分布,並特別構建反向過程以實現高效逆向採樣的生成模型。通過與非平衡統計力學和廣義Doob's h變換的深層聯繫,我們提出一組最小假設條件以確保:(1)反向生成算子的顯式構造,(2)直接最小化測度傳輸差異的統一變分目標,(3)經典分數匹配方法在不同動力學中的適應性。該框架統一了連續與離散擴散模型的現有表述,在正向生成算子滿足特定正則性假設下識別出去噪馬爾可夫模型的最一般形式,並為設計任意Lévy型過程驅動的去噪馬爾可夫模型提供了系統化方案。我們通過採用幾何布朗運動跳躍過程作為前向動力學的新型去噪馬爾可夫模型,展示了該框架在複雜分布建模中的潛在靈活性與效能。

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zeng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v2

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間定位幾何形態屬性特徵要素關聯演化過程作用機制七個維度,最終形成145234條分類條目及875432組多維問答對;(2)基於BERT-Base-Chinese多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定;(4)GeoPrompt模板動態整合用戶查詢檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(含5個開源LLMs)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLMs;(2)資源受限或無法承擔LLMs調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選用RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算揭示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),研究了銫原子(Cs)中若干偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為考慮奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子極化率測定中,對關聯效應(PC)比核心極化效應(CP)起著更重要作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應間的關聯以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A Unified Approach to Analysis and Design of Denoising Markov Models
  • 中文標題:去噪馬爾可夫模型分析與設計的統一方法
  • 發布日期:2025-04-02 17:46:43+00:00
  • 作者:Yinuo Ren, Grant M. Rotskoff, Lexing Ying
  • 分類:cs.LG, cs.NA, math.NA, stat.ML
  • 原文連結http://arxiv.org/abs/2504.01938v1

中文摘要:基於測度傳輸概率生成模型(如擴散模型和基於的模型)通常採用馬爾可夫隨機動力學語言進行表述,其中底層過程的選擇同時影響算法設計決策和理論分析。本文旨在為去噪馬爾可夫模型建立嚴格的數學基礎——這是一類假設存在從目標分布向易採樣簡單分布過渡的正向過程,以及專門構建以實現逆向高效採樣的反向過程的生成模型。通過與非平衡統計力學廣義Doob's h-變換的深層聯繫,我們提出一組最小假設條件以確保:(1) 反向生成算子的顯式構造,(2) 直接最小化測度傳輸差異的統一變分目標,(3) 經典分數匹配方法在不同動力學中的適應性。該框架統一了連續離散擴散模型的現有表述,在正向生成算子滿足特定正則性假設條件下識別出去噪馬爾可夫模型的最一般形式,並為設計由任意Lévy型過程驅動的去噪馬爾可夫模型提供了系統化方案。我們通過採用幾何布朗運動跳躍過程作為正向動力學的新型去噪馬爾可夫模型,展示了該框架在複雜分布建模中的多功能性及實際有效性,凸顯其潛在的靈活性強大能力

摘要

  • 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
  • 中文標題:GeoRAG:地理視角下的問答方法
  • 發布日期:2025-04-02 08:11:05+00:00
  • 作者:Jian Wang, Zhuo Zhao, Zeng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2504.01458v2

中文摘要地理問答(GeoQA)通過處理地理領域自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統結合領域微調提示工程檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文專著技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解空間位置幾何形態屬性特徵要素關聯演化過程運作機制七個維度,最終生成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese訓練的多標籤文本分類器,通過地理維度分類解析查詢類型;(3)利用問答對數據評估查詢-文檔相關性的檢索評估器,優化檢索精度;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智慧發展,對提升現實場景中GeoQA系統的可擴展性準確性具有實踐意義。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年取得了顯著進展,以基於Transformer架構小型及大型語言模型SLMsLLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLMs;(2)資源受限或無法承擔LLMs調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要接近最優效果-效率平衡時選用RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過使用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,我們研究了(Cs)中若干偶宇稱和奇宇稱態的標量和張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為考慮奇宇稱E1算符對原子軌道的微擾影響,計算採用線性響應方法進行。我們最終獲得的$\alpha_d$值(含估計不確定度)與先前計算結果和現有實驗數據展現出良好的一致性。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫的$\alpha_d$值確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更主要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應之間的關聯性以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A Unified Approach to Analysis and Design of Denoising Markov Models
  • 中文標題:去噪馬爾可夫模型分析與設計的統一方法
  • 發布日期:2025-04-02 17:46:43+00:00
  • 作者:Yinuo Ren, Grant M. Rotskoff, Lexing Ying
  • 分類:cs.LG, cs.NA, math.NA, stat.ML
  • 原文連結http://arxiv.org/abs/2504.01938v1

中文摘要:基於測度傳輸概率生成模型(如擴散模型和基於的模型)通常採用馬爾可夫隨機動力學的語言進行表述,其中底層過程的選擇同時影響算法設計決策和理論分析。本文旨在為去噪馬爾可夫模型建立嚴格的數學基礎——這是一類假設存在從目標分布向簡單易採樣分布過渡的正向過程,並特別構建反向過程以實現高效逆向採樣生成模型。通過與非平衡統計力學和廣義Doob's h-變換的深層聯繫,我們提出一組最小假設條件以確保:(1) 反向生成算子的顯式構造,(2) 直接最小化測度傳輸差異統一變分目標,(3) 經典分數匹配方法在不同動力學中的適應性實現。該框架統一了連續與離散擴散模型的現有表述,在正向生成算子滿足特定正則性假設條件下識別出去噪馬爾可夫模型的最一般形式,並為設計由任意Lévy型過程驅動的去噪馬爾可夫模型提供了系統化方案。我們通過採用幾何布朗運動跳躍過程作為正向動力學的新型去噪馬爾可夫模型,展示了該方法在複雜分布建模中的多功能性和實際有效性,凸顯了框架潛在的靈活性與強大能力。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的兩項主要貢獻為:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗對比結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLMs平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLMs調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了銫原子(Cs)中多個偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算及現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更主要的作用。通過比較MBPT(3)RCC結果,我們發現PCCP效應的關聯效應以及雙重CP效應在這些計算中同樣具有顯著影響。此外,Breit相互作用高激發態的貢獻尤為突出。

摘要

  • 原文標題:A Unified Approach to Analysis and Design of Denoising Markov Models
  • 中文標題:去噪馬爾可夫模型分析與設計的統一方法
  • 發布日期:2025-04-02 17:46:43+00:00
  • 作者:Yinuo Ren, Grant M. Rotskoff, Lexing Ying
  • 分類:cs.LG, cs.NA, math.NA, stat.ML
  • 原文連結http://arxiv.org/abs/2504.01938v1

中文摘要:基於測度傳輸概率生成模型(如擴散模型和基於的模型)通常採用馬爾可夫隨機動力學的語言進行表述,其中底層過程的選擇同時影響算法設計決策和理論分析。本文旨在為去噪馬爾可夫模型建立嚴格的數學基礎——這類生成模型假設存在一個從目標分布過渡到簡單易採樣分布的前向過程,以及一個專門構建以實現逆向高效採樣的後向過程。通過與非平衡統計力學和廣義Doob's $h$-變換的深層聯繫,我們提出一組最小假設條件以確保:(1) 逆向生成器的顯式構造,(2) 直接最小化測度傳輸差異的統一變分目標,(3) 經典分數匹配方法在不同動力學中的適應性實現。該框架統一了連續與離散擴散模型的現有表述,在正向生成器滿足特定正則性假設條件下識別出去噪馬爾可夫模型的最一般形式,並為設計由任意Lévy型過程驅動的去噪馬爾可夫模型提供了系統化方案。我們通過採用幾何布朗運動跳躍過程作為前向動力學的新型去噪馬爾可夫模型,展示了該框架在複雜分布建模中的潛在靈活性與效能。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的開放將使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均耗時分別為傳統方法的590倍和SLMs的8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLMs;(2)資源受限或無法承擔LLM調優成本時採用邏輯回歸/SVM等傳統方法;(3)需要接近最優效果-效率平衡時選擇Roberta等SLMs。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明:在原子$\alpha_d$值的確定過程中,配對關聯(PC)效應比核心極化(CP)效應起更主要作用。通過比較MBPT(3)RCC結果,我們發現PCCP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的兩項主要貢獻為:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選用Roberta等SLM。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),研究了(Cs)中若干偶宇稱奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為考慮奇宇稱E1算子原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主要的作用。通過比較MBPT(3)與RCC結果發現,PC與CP效應的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,Breit相互作用高激發態的貢獻尤為顯著。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(含5個開源LLMs)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的公開將使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程導致計算成本顯著更高——分別比傳統方法和SLMs平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLMs調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選擇Roberta等SLMs。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了銫原子(Cs)中若干偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主要的作用。通過比較MBPT(3)RCC結果,我們發現PCCP效應間的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試集(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的開放使研究社區能復現實驗並以更科學的方式推動領域發展實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLMs;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時選用RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了銫原子(Cs)中若干偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算子原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯效應(PC)比核心極化效應(CP)起著更主要的作用。通過比較MBPT(3)RCC結果,我們發現PCCP效應的關聯效應以及雙重CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻在於:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)構建包含22個數據集的大規模基準測試集(涵蓋情感分析主題分類任務),提供基於摺疊交叉驗證的(訓練-驗證-測試)劃分方案、完整文檔及代碼。代碼、數據和文檔的公開將幫助研究界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程導致計算成本顯著增加,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過使用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,我們研究了(Cs)中若干偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為考慮奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。我們最終獲得的$\alpha_d$值(含估計不確定度)與先前理論計算及現有實驗結果顯示出良好的一致性。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更主要的作用。通過比較MBPT(3)與RCC結果的差異,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,Breit相互作用高激發態的貢獻被證實相當可觀。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i) 對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii) 發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將幫助學界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,平均速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1) 對效果要求極致且能承擔成本的場景選用LLMs;(2) 資源受限或無法承擔LLMs調優成本時選用邏輯回歸/SVM等傳統方法;(3) 追求效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)的計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法進行。最終獲得的含不確定度估計的$\alpha_d$值與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更重要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻相當可觀。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLMs)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的開放使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,平均速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLMs調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡時選擇Roberta等SLMs。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),探究了電子關聯效應高階相對論效應。為考慮奇宇稱E1算子原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更重要作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應間的關聯性以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將幫助學界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程導致計算成本激增,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLMs;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸或SVM等傳統方法;(3)追求接近最優效果-效率平衡時選用Roberta等SLMs。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法。最終獲得的含不確定度估計的$\alpha_d$值與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子$\alpha_d$值確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起更主導作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為顯著。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMs和LLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i) 對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii) 發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據及文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1) 對效果要求極致且能承擔成本的場景選用LLM;(2) 資源受限或無法承擔LLM調優成本的場景選用邏輯回歸/SVM等傳統方法;(3) 追求效果-效率平衡時選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過使用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了(Cs)中若干偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為考慮奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。我們最終獲得的$\alpha_d$值(含估計不確定度)與先前理論計算及現有實驗結果顯示出良好的一致性。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更主要的作用。通過比較MBPT(3)與RCC結果的差異,我們發現PC與CP效應之間的關聯性以及雙重CP效應在這些計算中也具有顯著影響。此外,Breit相互作用對高激發態的貢獻被證實相當可觀。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將幫助研究界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時可選用RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了銫原子(Cs)中若干偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算符對原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯效應(PC)比核心極化效應(CP)起著更主導作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(含5個開源LLMs)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLMs調優成本的場景選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡時選擇Roberta等SLMs。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了銫原子(Cs)中若干偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算符對原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主要的作用。通過比較MBPT(3)與RCC結果發現,PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將幫助研究界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程導致計算成本激增,分別比傳統方法和SLM平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLM;(2)資源受限或無法承擔LLM調優成本的場景選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡時選用RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),研究了(Cs)中若干偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算符對原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應之間的關聯性以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A Unified Approach to Analysis and Design of Denoising Markov Models
  • 中文標題:去噪馬爾可夫模型分析與設計的統一方法
  • 發布日期:2025-04-02 17:46:43+00:00
  • 作者:Yinuo Ren, Grant M. Rotskoff, Lexing Ying
  • 分類:cs.LG, cs.NA, math.NA, stat.ML
  • 原文連結http://arxiv.org/abs/2504.01938v1

中文摘要:基於測度傳輸概率生成模型(如擴散模型和基於的模型)通常採用馬爾可夫隨機動力學的語言進行表述,其中底層過程的選擇既影響算法設計也關乎理論分析。本文旨在為去噪馬爾可夫模型建立嚴格的數學基礎——這類生成模型通過前向過程將目標分布過渡到易採樣的簡單分布,並特別構建反向過程以實現高效逆向採樣。藉助與非平衡統計力學及廣義Doob's h-變換的深層聯繫,我們提出一組最小假設條件以確保:(1)反向生成器的顯式構造,(2)直接最小化測度傳輸差異的統一變分目標,(3)經典分數匹配方法在不同動力學中的適應性。該框架統一了連續與離散擴散模型的現有表述,在正向生成器滿足特定正則性假設時識別出去噪馬爾可夫模型的最一般形式,並為任意Lévy型過程驅動的去噪模型設計提供了系統化方案。我們通過採用幾何布朗運動跳躍過程作為前向動力學的新型去噪模型,展示了該框架在複雜分布建模中的潛在靈活性與效能。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMsLLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻在於:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套完整文檔和代碼。代碼、數據及文檔的公開將幫助研究社區復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均耗時分別為傳統方法的590倍和SLMs的8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLM調優成本時選擇邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡時選用RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:本研究採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),系統探究了銫原子(Cs)中多個偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算子對原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更主導作用。通過比較MBPT(3)與RCC結果發現,PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,研究還發現高激發態Breit相互作用的貢獻相當可觀。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMsLLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據及文檔的公開將使學界能以更科學的方式復現實驗並推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,平均速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量及張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法進行。最終獲得的含不確定度估計的$\alpha_d$值與先前理論計算及現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明:在原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核極化效應(CP)起著更主要的作用。通過比較MBPT(3)RCC結果,我們發現PCCP效應的關聯效應以及雙CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將使社區能夠復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均耗時分別是傳統方法和SLM的590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時可選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算揭示銫(Cs I)多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起更主要作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻相當可觀。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均耗時分別為傳統方法的590倍和SLMs的8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更主要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i) 對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii) 發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將幫助研究界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1) 對效果要求極致且能承擔成本的場景選用LLM;(2) 資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3) 追求效果-效率平衡時選擇RobertaSLM方案。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更重要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將幫助學界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLM;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡時選擇Roberta等SLM。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了銫原子(Cs)中若干偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算符對原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMsLLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的開放將使學界能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLMs;(2)資源受限或無法承擔LLMs調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要接近最優的效果-效率平衡時選用RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量及張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值確定過程中,對關聯效應(PC)比核心極化效應(CP)起更主導作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應間的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為顯著。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的兩項主要貢獻為:(i)對12種傳統與新型ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均耗時分別是傳統方法的590倍和SLMs的8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLMs;(2)資源受限或無法承擔LLMs調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選用RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)的計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為考慮奇宇稱E1算子原子軌道的微擾作用,計算採用線性響應方法進行。我們最終獲得的$\alpha_d$值(含估計不確定度)與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更主要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),提供基於摺疊交叉驗證流程的數據劃分方案、完整文檔代碼代碼數據文檔的公開將幫助研究社區復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)對效果有極致需求且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時可選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),通過第一性原理計算研究了銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$),以探究電子關聯效應高階相對論效應的影響。為考慮奇宇稱E1算符原子軌道的微擾作用,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更重要的作用。通過比較MBPT(3)與RCC結果的差異,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布一個包含22個數據集(涵蓋情感分析主題分類任務)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程導致計算成本顯著更高——分別比傳統方法和SLMs平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLMs;(2)資源受限或無法承擔LLMs調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時可選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算揭示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法。最終獲得的含不確定度估計的$\alpha_d$值與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值測定中,對關聯效應(PC)比核極化效應(CP)起更主導作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中同樣顯著。在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但微調導致的算力成本顯著更高——平均耗時分別為傳統方法的590倍和SLM的8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLM;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要效果-效率平衡時選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起更主要作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將助力學界復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均耗時分別為傳統方法的590倍和SLM的8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLM;(2)資源受限或無法負擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要接近最優效果-效率平衡時選用RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極(E1)極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算符對原子軌道的微擾,計算採用線性響應方法進行。最終獲得的含不確定度估計的$\alpha_d$值與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起更主要作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類ATC)在過去十年中取得了顯著進展,尤其以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的性能優勢是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),所有數據集均採用摺疊交叉驗證劃分訓練-驗證-測試集,並配套文檔代碼代碼數據文檔的公開將助力學界以更科學的方式復現實驗並推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均耗時分別為傳統方法的590倍和SLM的8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLM;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡時選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極(E1)極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2)三階微擾理論(MBPT(3)隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法。最終獲得的含不確定度估計的$\alpha_d$值與先前理論計算及現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明:在銫原子$\alpha_d$值的確定中,對關聯效應(PC)比核心極化效應(CP)起更主要作用。通過比較MBPT(3)RCC結果,我們發現PCCP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻相當顯著。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMsLLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但微調導致的算力成本顯著更高——平均耗時分別為傳統方法的590倍和SLMs的8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLMs;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要接近最優的效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更主要的作用。通過比較MBPT(3)與RCC結果發現,PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻相當可觀。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時選用RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了銫原子(Cs)中若干偶宇稱和奇宇稱態在標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算子對原子軌道的微擾影響,計算採用線性響應理論框架。最終獲得的含不確定度評估的$\alpha_d$值與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主導作用。通過對比MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中同樣具有顯著影響。此外,Breit相互作用對高激發態的貢獻尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本——平均耗時分別為傳統方法的590倍和SLMs的8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選擇RobertaSLMs

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過使用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了(Cs)中若干偶宇稱和奇宇稱態的標量和張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為考慮奇宇稱E1算符對原子軌道的微擾影響,計算採用線性響應方法進行。我們最終獲得的$\alpha_d$值(含估計不確定度)與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的兩項主要貢獻為:(i)對12種傳統與新興ATC方案(含5個開源LLMs)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集的大規模基準測試(涵蓋情感分析主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將幫助研究社區復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,平均速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLMs調優成本時選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選擇Roberta等SLMs。

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過使用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了(Cs)中若干偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為考慮奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子$\alpha_d$值的確定過程中,對關聯效應(PC)比核心極化效應(CP)起著更主要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應之間的關聯性以及雙重CP效應在這些計算中也具有顯著影響。此外,Breit相互作用高激發態的貢獻尤為顯著。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究的兩項主要貢獻是:(i)對12種傳統及新型ATC解決方案(包括5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布一個包含22個數據集(涵蓋情感分析主題分類任務)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將使研究社區能夠復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程導致計算成本顯著更高——分別比傳統方法和SLM平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時可選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算揭示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),通過第一性原理計算研究了銫原子(Cs)多個低激發偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)中的電子關聯效應高階相對論效應。為處理奇宇稱E1算符對原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子極化率測定中,電子對關聯(PC)效應比核心極化(CP)效應起著更主導作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸SVM等傳統方法;(3)追求效果-效率平衡的近優解時可選用RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應的影響。為處理奇宇稱E1算符原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起更主要作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙重CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期方法在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開將使學界能以更科學的方式復現實驗並推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLM;(2)資源受限或無法承擔LLM調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時選用RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:通過採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),我們研究了銫原子(Cs)中若干偶宇稱和奇宇稱態在標量與張量靜態電偶極極化率($\alpha_d$)計算中的電子關聯效應高階相對論效應。為處理奇宇稱E1算子對原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起著更主導作用。通過對比MBPT(3)與RCC結果,我們發現PC與CP效應之間的關聯效應以及雙重CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMs和LLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大規模基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔與代碼。代碼、數據和文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但微調導致的算力成本顯著更高——分別比傳統方法和SLM平均慢590倍和8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLM;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要接近最優效果-效率平衡時選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算符原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHFMBPT(2)MBPT(3)RPA結果間的差異表明:在原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起更主要作用。通過比較MBPT(3)RCC結果,我們發現PCCP效應間的關聯效應以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMs和LLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的公開使研究社區能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLM在效果上優於傳統方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLM慢590倍和8.5倍。由此提出建議:(1)追求最佳效果且能承擔成本時選用LLM;(2)資源受限或無法承擔LLM調優成本時選用邏輯回歸/SVM等傳統方法;(3)需要接近最優的效果-效率平衡時選擇RobertaSLM

摘要

  • 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
  • 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
  • 發布日期:2025-04-02 07:10:28+00:00
  • 作者:A. Chakraborty, B. K. Sahoo
  • 分類:physics.atom-ph, quant-ph
  • 原文連結http://arxiv.org/abs/2504.01418v1

中文摘要:摘要:在(Cs)原子多個偶宇稱和奇宇稱態的標量與張量靜態電偶極極化率($\alpha_d$)計算中,我們採用狄拉克-哈特里-福克(DHF)方法、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇(RCCSD)方法,探究了電子關聯效應高階相對論效應。為處理奇宇稱E1算子原子軌道的微擾,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算和現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明,在銫原子$\alpha_d$值確定過程中,對關聯效應(PC)比核心極化效應(CP)起更主導作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應間的關聯以及雙CP效應在這些計算中也具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻尤為突出。

摘要

  • 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
  • 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
  • 發布日期:2025-04-02 17:40:08+00:00
  • 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
  • 分類:cs.CL, cs.AI
  • 原文連結http://arxiv.org/abs/2504.01930v1

中文摘要自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型SLMsLLMs)為典型代表。儘管近期效果有所提升,但文獻中仍缺乏全面的成本效益分析,以驗證這些新方法相較於支持向量機SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。為此,本研究作出雙重貢獻:(i)對12種傳統與新興ATC方案(含5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)發布包含22個數據集(涵蓋情感分析主題分類任務)的大型基準測試集,其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔代碼代碼數據文檔的開放將使學界能復現實驗並以更科學的方式推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程產生顯著更高的計算成本,速度分別比傳統方法和SLMs慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的應用選用LLMs;(2)資源受限或無法承擔LLMs調優成本的應用選用邏輯回歸/SVM等傳統方法;(3)追求效果-效率平衡的近優解時選用RobertaSLMs