查看“WikiEdge:ArXiv速递/2025-04-02”的源代码
←
WikiEdge:ArXiv速递/2025-04-02
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
== 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该知识增强型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度,最终生成145234条分类条目与875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定以提升[[检索精度]];(4)[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]],通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域专用]]大语言模型部署新范式,推动[[地理人工智能]]发展,对提升现实场景中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。 == 摘要 == * '''原文标题''':A Unified Approach to Analysis and Design of Denoising Markov Models * '''中文标题''':去噪马尔可夫模型分析与设计的统一方法 * '''发布日期''':2025-04-02 17:46:43+00:00 * '''作者''':Yinuo Ren, Grant M. Rotskoff, Lexing Ying * '''分类''':cs.LG, cs.NA, math.NA, stat.ML *'''原文链接''':http://arxiv.org/abs/2504.01938v1 '''中文摘要''':基于[[测度传输]]的[[概率生成模型]](如[[扩散模型]]和基于[[流]]的模型)通常采用[[马尔可夫随机过程|马尔可夫随机动力学]]语言进行表述,其中底层过程的选择同时影响[[算法设计]]决策和[[理论分析]]。本文旨在为[[去噪马尔可夫模型]]建立严格的[[数学基础]]——这类生成模型假设存在从前向过程(从[[目标分布]]过渡到简单易采样分布)与特别构建的后向过程(实现逆向高效采样)。通过与[[非平衡统计力学]]及广义[[Doob's h-变换]]的深层联系,我们提出一组最小假设条件以确保:(1) 后向生成算子的显式构造,(2) 直接最小化测度传输差异的[[统一变分目标]],(3) 经典[[分数匹配]]方法在不同动力学中的适应性实现。本框架统一了连续/离散[[扩散模型]]的现有表述,在正向生成算子满足特定[[正则性假设]]下识别出[[去噪马尔可夫模型]]的最一般形式,并为任意[[Lévy过程|Lévy型过程]]驱动的去噪模型设计提供了系统化方案。我们通过采用[[几何布朗运动]]和[[跳跃过程]]作为前向动力学的新型去噪模型,展示了该框架在复杂分布建模中的潜在灵活性与效能。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':在[[铯原子]](Cs)多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)的计算中,我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中同样具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以评估这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此,本研究的两项主要贡献是:(i)对12种传统与新兴[[ATC]]方案(包括5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)构建包含22个[[数据集]]的大规模[[基准测试集]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]和[[代码]]。通过公开[[代码]]、[[数据]]及[[文档]],本研究支持学界以更科学的方式复现实验并推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程导致[[计算成本]]显著更高——分别比传统方法和[[SLMs]]平均慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)资源受限或无法承担[[LLMs]]调优成本的场景选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]仍较为匮乏。本文提出了一种基于[[高维数据集]]的新型材料识别方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取逐渐增加[[针尖-样品距离]]时的50个相位值,最终形成50×50×50[[体素]]图像以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在材料分割中的表现。结果表明,FNN具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的实际价值,揭示了如何利用AFM相位趋近曲线构建用于纳米尺度[[光学分析]]的精细化预测工具。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了超宽禁带([[UWBG]]) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-介质-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的高[[电场]]至关重要。通过系统实验,我们测定了半导体[[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、介质/[[界面]]特性及电场分布。在[[金属-氧化物-半导体结构]]中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属-半导体-绝缘体]]测试结构在[[沟道]]面电荷密度为1.27×1013 cm-2时,击穿电压超过1 kV。有效峰值电场与平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]]击穿性能的潜力。 == 摘要 == * '''原文标题''':Study of scaling laws in language families * '''中文标题''':语言家族中的标度律研究 * '''发布日期''':2025-04-02 12:28:59+00:00 * '''作者''':Maelyson R. F. Santos, Marcelo A. F. Gomes * '''分类''':physics.soc-ph, cs.CL *'''原文链接''':http://arxiv.org/abs/2504.01681v1 '''中文摘要''':本文利用来自六千多种[[语言]]的数据,通过分析[[齐普夫式分类图]]中涌现的模式,研究[[语言家族]]中的[[标度律]]现象。研究从宏观(基于各[[语系]]包含的语言数量)和微观(基于语系中各语言的使用者数量)两个维度考察了这些分类特征。尤其值得注意的是,在排除[[亚非语系]]和[[尼罗-撒哈拉语系]]后,研究发现当代十四大语系存在明显分化现象——这些语系分布在三个[[语系四重奏组]]中,每组在[[齐普夫图]]中均表现出显著不同的[[指数]]特征。该发现揭示了主要语系的底层结构与组织方式,为理解[[语言多样性]]和分布的本质提供了新的见解。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:基于地理视角的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答系统]]([[GeoQA]])通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等缺陷,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]——一个整合[[领域微调]]、[[提示工程]]与[[检索增强生成]]([[RAG]])技术的[[知识增强]]型问答框架,旨在提升[[地理知识]]检索精度与[[用户交互]]体验。该框架包含四个核心组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建的[[结构化知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]及[[作用机制]]七个维度,最终形成145234条分类条目与875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据评估[[查询-文档相关性]]的[[检索评估模块]],优化[[检索精度]];(4)[[GeoPrompt]]模板引擎,动态整合[[用户查询]]与[[检索信息]],通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域特定]]场景下部署[[大语言模型]]的新范式,推动[[地理人工智能]]发展,对提升现实应用中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有重要价值。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,以基于[[Transformer架构]]的[[小型及大型语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i) 对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii) 发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),提供基于[[折叠交叉验证]]的[[数据划分]]方案、完整[[文档]]及[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将助力学界复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],平均速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1) 对效果要求极致且能承担成本的场景选用[[LLMs]];(2) 资源受限或无法承担[[LLM]]调优成本的场景选用[[逻辑回归]]/[[SVM]]等传统方法;(3) 追求效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':基于第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主导作用。通过比较MBPT(3)与RCC结果的差异,我们发现PC与CP效应之间的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力,但现有[[鲁棒性|鲁棒]]数据集和[[自动化分析]]工具较为匮乏。本文提出了一种利用[[高维数据]]集进行[[材料识别]]的新方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取50个在[[探针]]-样品间距递增时的相位值,最终形成50×50×50[[体素]]图像以表征不同深度的相位变化。基于此数据集,我们比较了[[K近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明FNN具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的[[实际价值]],揭示了如何利用AFM相位趋近曲线构建[[纳米级]]光学分析的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]和[[击穿特性]]。[[金属-介质-半导体结构]]对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的[[固定电荷密度]](> 1013 cm-2)、[[介质/界面特性]]及[[电场分布]]。在[[金属-氧化物-半导体结构]]中获得了低至5×10-7 A/cm2的[[栅漏电流]]。[[横向金属-半导体-绝缘体测试结构]]中,在1.27×1013 cm-2的[[沟道面电荷密度]]下实现了超过1 kV的[[击穿电压]]。有效峰值[[电场]]和平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答系统]]([[GeoQA]])通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等缺陷,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该[[知识增强]]型[[问答系统]]融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]([[RAG]])技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份[[语料]]([[研究论文]]、[[专著]]和[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]和[[运行机制]]七个维度,最终形成145234条分类条目和875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]],通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域特定]]场景下[[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实应用中[[GeoQA]]系统的[[可扩展性]]和[[准确性]]具有重要价值。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,其中以基于[[Transformer架构]]的[[小型及大型语言模型]]([[SLMs]]和[[LLMs]])最为典型。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。对此,本研究的主要贡献包括:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii)构建包含22个[[数据集]]的大规模[[基准测试集]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的发布使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],平均速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)[[资源受限]]或无法承担[[LLM]]调优成本的场景选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:本研究采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),通过[[第一性原理计算]]探究了[[铯原子]](Cs)中多个[[偶宇称]]和[[奇宇称]]态[[标量]]与[[张量]]静态[[电偶极极化率]]($\alpha_d$)的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主导作用。通过对比MBPT(3)与RCC结果,我们发现PC与CP效应间的[[关联效应]]以及[[双CP效应]]在这些计算中同样具有显著影响。此外,在[[高激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在纳米级[[材料表征]]方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]较为匮乏。本文提出一种基于[[高维数据集]]的新[[材料识别]]方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的[[AFM]]相位趋近曲线。每次测量获取50个随[[探针]]-[[样品]]距离递增的[[相位]]值,最终形成50×50×50[[体素]][[图像]]以表征不同深度的[[相位变化]]。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明[[FNN]]具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像,我们验证了这些[[分割图]]的实际价值,揭示了如何利用[[AFM]]相位趋近曲线构建用于纳米级[[光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽带隙]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属-介质-半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的高[[电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面]]特性及内部[[电场]]。[[金属-氧化物-半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。在横向[[金属-半导体-绝缘体]]测试结构中,当[[沟道]]面[[电荷密度]]为1.27×1013 cm-2时,[[击穿电压]]超过1 kV。有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]]集成对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿]]性能的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理]]领域的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出GeoRAG框架,该知识增强型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度,最终生成145234条分类条目及875432组多维问答对;(2)基于[[BERT-Base-Chinese]]训练的[[多标签文本分类器]],通过[[地理维度]]分类解析查询类型;(3)利用问答对数据评估查询-文档相关性的[[检索评估器]],优化检索精度;(4)[[GeoPrompt]]模板动态整合用户查询与检索信息,通过[[维度特异性]]提示提升响应质量。对比实验表明GeoRAG在多个基础模型上均优于传统RAG,验证了其[[泛化能力]]。本研究通过提出领域专用[[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实应用中GeoQA系统的[[可扩展性]]与[[准确性]]具有重要价值。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献在于:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLMs]])进行科学严谨的[[成本效益]]对比分析;(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大型[[基准测试]]集,其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLMs]];(2)资源受限或无法承担[[LLMs]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':An Explainable Reconfiguration-Based Optimization Algorithm for Industrial and Reliability-Redundancy Allocation Problems * '''中文标题''':面向工业与可靠性冗余分配问题的可解释重构优化算法 * '''发布日期''':2025-04-02 03:33:48+00:00 * '''作者''':Dikshit Chauhan, Nitin Gupta, Anupam Yadav * '''分类''':cs.AI, cs.NE *'''原文链接''':http://arxiv.org/abs/2504.01331v1 '''中文摘要''':[[工业]]与[[可靠性优化]]问题通常涉及复杂[[约束条件]],并需要高效、可解释的解决方案。本文提出[[AI-AEFA算法]]——一种基于[[参数重构]]的[[高级元启发式算法]],专为解决大规模[[工业优化]]及[[可靠性-冗余分配问题]]而设计。该算法通过创新的[[对数S型参数自适应机制]]和[[混沌映射策略]],显著提升了[[搜索空间]]探索能力与[[收敛效率]]。研究在28个[[IEEE CEC 2017]]约束基准问题、15个大规模[[工业优化问题]]及7个[[可靠性-冗余分配问题]]上验证了算法性能,结果表明其在[[可行性]]、[[计算效率]]和[[收敛速度]]方面均优于现有最先进[[优化技术]]。本工作的另一关键贡献是集成[[SHAP]]([[Shapley加性解释]])方法以增强[[AI-AEFA]]的[[可解释性]],通过分析[[库仑常数]]、[[电荷量]]、[[加速度]]及[[静电力]]等关键参数的影响机制,为优化过程中的[[决策行为]]提供透明化解读。实验证实[[AI-AEFA]]是一种兼具[[鲁棒性]]、[[可扩展性]]和[[可解释性]]的[[优化工具]],具有重要的实际[[应用价值]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:本研究采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),通过[[第一性原理计算]]探究了[[铯原子]](Cs)中多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算子对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值(含估计不确定度)与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子极化率测定中,[[对关联]](PC)效应比[[核心极化]](CP)效应起更主导作用。通过对比MBPT(3)与RCC结果,我们发现PC与CP效应的关联效应以及双CP效应在这些计算中同样具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]仍较为有限。本文提出了一种基于[[高维数据集]]的新型材料识别方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取50个随[[探针]]-[[样品]]距离递增的相位值,最终形成50x50x50[[体素]][[图像]]以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在材料分割中的表现。结果表明FNN具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的[[实际价值]],揭示了如何利用AFM相位趋近曲线构建[[纳米级]][[光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-[[介电]]-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介电]]/[[界面特性]]及[[电场分布]]。在[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属]]-[[半导体]]-[[绝缘体]][[测试结构]]在[[沟道]][[面电荷密度]]为1.27×1013 cm-2时,[[击穿电压]]超过1 kV。有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:基于地理视角的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出GeoRAG框架,该[[知识增强]]型问答系统结合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为七个维度:[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[作用机制]],最终生成145234条分类条目及875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定以提升[[检索精度]];(4)[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]],通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG,验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中GeoQA系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。对此,本研究的主要贡献包括:(i)对12种传统与新兴ATC方案(含5个开源[[LLMs]])进行科学严谨的[[成本效益]]对比分析;(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将使学界能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLMs]];(2)资源受限或无法承担[[LLMs]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:本研究采用[[狄拉克-哈特里-福克方法]]([[DHF]])、[[二阶微扰理论]]([[MBPT(2)]])、[[三阶微扰理论]]([[MBPT(3)]])、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇方法]]([[RCCSD]]),通过[[第一性原理计算]]探讨了[[铯原子]]([[Cs]])中若干[[偶宇称]]和[[奇宇称]]态标量与张量静态[[电偶极极化率]]($\alpha_d$)的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明:在铯原子极化率测定中,[[电子对关联效应]]([[PC]])比[[核心极化效应]]([[CP]])起更主导作用。通过对比[[MBPT(3)]]与[[RCC]]结果,我们发现[[PC]]与[[CP]]效应间的关联效应以及双[[CP]]效应在这些计算中同样具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]较为匮乏。本文提出了一种基于[[高维数据集]]的新颖材料识别方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的[[AFM]]相位趋近曲线。每次测量获取50个随[[探针]]-[[样品]]距离递增的相位值,最终形成50×50×50[[体素]][[图像]]以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在材料分割中的表现。结果表明[[FNN]]具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的[[实际价值]],揭示了如何利用[[AFM]]相位趋近曲线构建用于[[纳米级]][[光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]和[[击穿特性]]。[[金属-介质-半导体]][[结构]]对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]][[界面特性]]及内部[[电场]]。在[[金属-氧化物-半导体]][[结构]]中获得了低至5×10-7 A/cm2的[[栅漏泄漏电流]]。在横向[[金属-半导体-绝缘体]][[测试结构]]中,当[[沟道]][[面电荷密度]]为1.27×1013 cm-2时,[[击穿电压]]超过1 kV。有效峰值[[电场]]和平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理]]领域的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出GeoRAG框架,该知识增强型问答系统结合领域[[微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度,最终生成145234条分类条目与875432组多维问答对;(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析查询类型;(3)利用问答对数据的[[检索评估器]],优化查询-文档相关性判定以提升检索精度;(4)[[GeoPrompt]]模板动态整合用户查询与检索信息,通过维度特异性提示提升响应质量。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG,验证了其[[泛化能力]]。本研究通过提出领域专用[[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中GeoQA系统的[[可扩展性]]与[[准确性]]具有实践意义。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,其中以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])最为典型。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此,本研究的两项主要贡献为:(i)对12种传统与新型ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开使[[研究社区]]能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLMs]];(2)资源受限或无法承担[[LLMs]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时可选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':基于第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:本研究采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),系统探究了[[铯原子]](Cs)中若干偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算符对[[原子轨道]]的微扰影响,计算采用[[线性响应理论]]框架。最终获得的$\alpha_d$值及其不确定度估计与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子极化率测定中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主导作用。通过对比MBPT(3)与RCC结果,我们发现PC与CP效应的关联效应以及双CP效应在这些计算中同样具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在纳米级材料表征方面具有重要潜力,但现有鲁棒数据集和自动化分析工具较为有限。本文提出了一种基于高维数据集的新型材料识别方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取逐渐增加针尖-样品距离时的50个相位值,最终形成50x50x50体素图像以表征不同深度的相位变化。利用该数据集,我们比较了[[K近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在材料分割中的表现。结果表明,FNN具有最高的准确率和[[F1分数]],优于传统方法。最后,我们通过生成虚拟散射型扫描近场光学显微镜([[s-SNOM]])图像验证了分割图的实际价值,揭示了如何利用AFM相位趋近曲线构建纳米级光学分析的精细化预测工具。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-[[介质]]-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面]]特性及内部[[电场]]。在[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属]]-[[半导体]]-[[绝缘体]]测试结构在1.27×1013 cm-2[[沟道]][[面电荷密度]]下实现了超过1 kV的[[击穿电压]],有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理]]领域的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出GeoRAG框架,该[[知识增强]]型问答系统结合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度,最终生成145234条分类条目及875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定以提升[[检索精度]];(4)[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息,通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG,验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中GeoQA系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此,本研究的主要贡献包括:(i)对12种传统与新型ATC方案(含5个开源LLM)进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的开放将使学界能复现实验并以更科学的方式推动领域发展。实验结果表明:LLM在效果上优于传统方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其[[微调]]过程导致[[计算成本]]激增,分别比传统方法和SLM平均慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用LLM;(2)资源受限或无法承担LLM调优成本的场景选用逻辑回归/SVM等传统方法;(3)追求接近最优效果-效率平衡时选用[[Roberta]]等SLM。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主要作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]较为匮乏。本文提出了一种基于[[高维数据集]]的新型材料识别方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取逐渐增加[[针尖-样品距离]]时的50个相位值,最终形成50x50x50[[体素]]图像以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明FNN具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的[[实际价值]],揭示了如何利用AFM相位趋近曲线构建纳米尺度[[光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-[[介质]]-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的高[[电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面]]特性及[[电场]]分布。[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。在横向[[金属]]-[[半导体]]-[[绝缘体]]测试结构中,当[[沟道]]面[[电荷密度]]为1.27×1013 cm-2时,[[击穿电压]]超过1 kV。有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:基于地理视角的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了[[精准信息]]获取。本研究提出[[GeoRAG]]框架,该[[知识增强]]型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度,最终生成145234条分类条目与875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息,通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域专用]]大语言模型部署新范式,推动[[地理人工智能]]发展,对提升现实场景中[[GeoQA系统]]的[[可扩展性]]与[[准确性]]具有重要价值。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLM]]s和[[LLM]]s)为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此,本研究的两项主要贡献为:(i)对12种传统与新型ATC方案(包括5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布一个包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大型[[基准测试]]集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并附有完整文档和代码。代码、数据及文档的公开将使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程导致计算成本显著更高——分别比传统方法和[[SLM]]平均慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时选用[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)的计算中,我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为考虑奇宇称[[E1算符]]对[[原子轨道]]的微扰作用,计算采用[[线性响应方法]]进行。我们最终获得的$\alpha_d$值及其估计[[不确定度]]与先前理论计算和现有[[实验结果]]吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在[[铯原子]]$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主要的作用。通过比较MBPT(3)与RCC结果发现,PC与CP效应间的关联以及双重CP效应在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献相当可观。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在纳米级材料表征方面具有重要潜力,但现有鲁棒数据集和自动化分析工具仍较为有限。本文提出了一种基于高维数据集的新材料识别方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取逐渐增加针尖-样品距离时的50个相位值,最终形成50×50×50体素图像以表征不同深度的相位变化。利用该数据集,我们比较了[[K近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在材料分割中的表现。结果表明,FNN具有最高的准确率和[[F1分数]],优于传统方法。最后,我们通过生成虚拟散射型[[扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的实际价值,揭示了如何利用AFM相位趋近曲线构建用于纳米级光学分析的精细化预测工具。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-介质-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、介质/[[界面特性]]及内部[[电场]]。在[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏]][[泄漏电流]]。横向[[金属]]-[[半导体]]-[[绝缘体]][[测试结构]]在[[沟道]][[面电荷密度]]1.27×1013 cm-2时实现了超过1 kV的[[击穿电压]],有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精确[[信息获取]]。本研究提出[[GeoRAG]]框架,该知识增强型问答系统结合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度,最终生成145234条分类条目与875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析查询类型;(3)利用问答对数据的[[检索评估器]],优化查询-文档相关性判定以提升检索精度;(4)[[GeoPrompt]]模板动态整合用户查询与检索信息,通过维度特异性提示提升响应质量。对比实验表明[[GeoRAG]]在多个基础模型上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出领域专用[[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有实践意义。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,其中以基于[[Transformer架构]]的[[小型及大型语言模型]]([[SLMs]]和[[LLMs]])最为典型。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。针对此,本研究的两项主要贡献为:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试集]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套完整[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将使学界能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程导致[[计算成本]]激增,分别比传统方法和[[SLMs]]平均慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在[[铯原子]][[极化率]]测定中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主导作用。通过对比MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中同样具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM方法数据集 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]仍较为匮乏。本文提出了一种基于[[高维数据集]]的新型材料识别方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种不同材料采集的AFM相位趋近曲线。每次测量获取50个在[[探针]]-样品间距递增时的相位值,最终形成50x50x50[[体素]]图像以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在材料分割中的表现。结果表明,FNN具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的[[实际价值]],揭示了如何利用AFM相位趋近曲线构建用于纳米尺度[[光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]和[[击穿特性]]。[[金属-介质-半导体结构]]对于维持未来高性能[[UWBG晶体管]]所需的高[[电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质/界面特性]]及[[电场强度]]。[[金属-氧化物-半导体结构]]中获得了低至5×10-7 A/cm2的[[栅漏泄漏电流]]。在横向[[金属-半导体-绝缘体]][[测试结构]]中,当[[沟道]][[面电荷密度]]为1.27×1013 cm-2时,[[击穿电压]]超过1 kV。有效峰值[[电场]]和平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对于提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答系统]]([[GeoQA]])通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该[[知识增强]]型[[问答系统]]融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]([[RAG]])技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]及[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]及[[运作机制]]七个维度,最终形成145234条分类条目和875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],通过[[地理维度]]分类解析查询类型;(3)利用[[问答对]]数据的[[检索评估器]]优化查询-文档相关性判定;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息,通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实应用中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有重要价值。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,其中以基于[[Transformer架构]]的[[小型及大型语言模型]]([[SLMs]]和[[LLMs]])最为典型。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的性能提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i) 对12种传统与新型[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii) 发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),提供基于[[折叠交叉验证]]的[[数据划分]]方案、完整[[文档]]及[[代码]]。通过公开[[代码]]、[[数据]]和[[文档]],本研究支持学界以更科学的方式复现实验并推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程导致[[计算成本]]激增,分别比传统方法和[[SLMs]]平均慢590倍和8.5倍。由此提出建议:(1) 对效果要求极致且能承担成本的场景选用[[LLMs]];(2) 资源受限或无法承担[[LLM]]调优成本时选择[[逻辑回归]]/[[SVM]]等传统方法;(3) 追求效果-效率平衡时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':A Truncated Newton Method for Optimal Transport * '''中文标题''':最优传输的截断牛顿法 * '''发布日期''':2025-04-02 19:00:24+00:00 * '''作者''':Mete Kemertas, Amir-massoud Farahmand, Allan D. Jepson * '''分类''':cs.LG, cs.MS, math.OC, G.3; G.4; I.4.0 *'''原文链接''':http://arxiv.org/abs/2504.02067v1 '''中文摘要''':摘要:开发现代[[最优传输]]([[OT]])求解器需要权衡多个关键需求:[[GPU]][[并行化]]能力、高维问题的[[可扩展性]]、理论[[收敛保证]]、[[精度]]与[[运行时]]的实证性能,以及实际应用中的[[数值稳定性]]。针对这些挑战,我们提出了一种专门用于[[熵正则化]][[OT]]的[[截断牛顿算法]]。除了证明在无需假设[[Hessian矩阵]][[Lipschitz连续]]的情况下仍可能实现局部[[二次收敛]]外,我们还提供了在实践中最大限度利用高局部[[收敛速率]]的策略。我们的[[GPU]][[并行算法]]展现出极其优越的运行时性能,以比现有方案快数个数量级的速度实现高精度计算,这通过24个问题集(12个[[数据集]]×2种[[成本函数]])的挂钟时间实验得到验证。该算法的可扩展性在一个超大规模[[OT]]问题上得到展示(n≈10^6),在弱[[熵正则化]]条件下实现了近似求解。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':基于第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':在[[铯]](Cs)原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更重要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM方法数据集 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力,但现有[[鲁棒性|鲁棒数据集]]和[[自动化分析工具]]较为匮乏。本文提出了一种基于[[高维数据集]]的新材料识别方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取50个在[[探针]]-样品间距递增时记录的相位值,最终形成50x50x50[[体素]]图像以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明,FNN具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像,我们验证了这些分割图的[[实际应用]]价值,揭示了如何利用AFM相位趋近曲线构建用于[[纳米级光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-[[介质]]-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的高[[电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面]]特性及[[电场]]分布。在[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属]]-[[半导体]]-[[绝缘体]]测试结构在1.27×1013 cm-2[[沟道]][[面电荷密度]]下实现了超过1 kV的[[击穿电压]]。有效峰值[[电场]]与平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答系统]]([[GeoQA]])通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等缺陷,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该[[知识增强]]型[[问答系统]]融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]([[RAG]])技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[作用机制]]七个维度,最终形成145234条分类条目与875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]],通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实应用中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有重要价值。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,其中以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])最为典型。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此,本研究的主要贡献包括:(i)对12种传统与新型ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程导致[[计算成本]]显著更高——分别比传统方法和[[SLMs]]平均慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过采用[[狄拉克-哈特里-福克方法]]([[DHF]])、[[二阶微扰理论]]([[MBPT(2)]]、[[三阶微扰理论]]([[MBPT(3)]]、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇方法]]([[RCCSD]]),我们研究了[[铯原子]]([[Cs]])中若干偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算及现有实验结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定过程中,[[对关联效应]]([[PC]])比[[核心极化效应]]([[CP]])起着更重要的作用。通过比较[[MBPT(3)]]与[[RCC]]结果,我们发现[[PC]]与[[CP]]效应之间的关联性以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在纳米尺度[[材料表征]]方面具有重要潜力,但现有鲁棒[[数据集]]和[[自动化分析工具]]仍较为匮乏。本文提出了一种基于高维[[数据集]]的新[[材料识别]]方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的[[AFM]]相位趋近曲线。每次测量获取50个随[[探针]]-[[样品]]距离递增的相位值,最终形成50×50×50[[体素]][[图像]]以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明,[[FNN]]具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了[[分割图]]的实际价值,揭示了如何利用[[AFM]]相位趋近曲线构建用于[[纳米级]][[光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Automatic Estimation of Pedestrian Gait Features using a single camera recording: Algorithm and Statistical Analysis for Gender Difference and Obstacle Interactions * '''中文标题''':基于单摄像头记录的步态特征自动估计算法及性别差异与障碍物交互的统计分析 * '''发布日期''':2025-04-02 11:06:23+00:00 * '''作者''':Kanika Jain, Abhishek Gupta, Indranil Saha Dalal, Anurag Tripathi, Shankar Prawesh * '''分类''':physics.soc-ph *'''原文链接''':http://arxiv.org/abs/2504.01600v1 '''中文摘要''':[[行人]][[步态]]特征(包括[[身体]]摆动[[频率]]、[[幅度]]、[[步长]]和[[速度]])以及行人[[个人空间]]与[[方向偏好]],是各类[[行人动力学]]研究中的重要[[参数]]。[[步态特征]]测量在从[[医疗]]领域到[[桥梁设计]]的广泛应用中至关重要,而[[个人空间]]和[[方向选择]](方向偏好)在[[人群模拟]]中起着关键作用。本研究提出了一种[[自动算法]],用于计算从[[建筑物]][[屋顶]][[单摄像头]]拍摄[[视频]]中提取[[轨迹]]的步态特征。研究发现:与[[男性]]相比,[[女性]]摆动幅度小28.64%,步长短8.68%,速度慢8.14%,但频率无显著差异;进一步研究表明,主导步态特征的主要[[变量]]是[[身体参数]]而非[[性别]]。我们进行了三组[[实验]]:[[志愿者]]在a)无障碍物、b)路径中央放置[[静态]][[非生命]][[障碍物]]、c)路径中央站立人的情况下走向[[目的地]]。综合[[统计分析]]显示:步态特征无显著性别差异;有无障碍物时步态特征无显著差异;在性别匹配[[舒适度]]前提下,行人对待[[静态人类]]与静态障碍物的方式相同;受[[印度]][[左行]][[交通规则]]影响,行人普遍存在向左的方向偏好。 == 摘要 == * '''原文标题''':Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries * '''中文标题''':加速车联网入侵检测:基于GPU加速与CPU的机器学习库性能对比 * '''发布日期''':2025-04-02 17:04:53+00:00 * '''作者''':Furkan Çolhak, Hasan Coşkun, Tsafac Nkombong Regine Cyrille, Tedi Hoxa, Mert İlhan Ecevit, Mehmet Nafiz Aydın * '''分类''':cs.LG, cs.AI, cs.CR *'''原文链接''':http://arxiv.org/abs/2504.01905v2 '''中文摘要''':[[车联网]]([[IoV]])可能面临具有挑战性的[[网络安全]]攻击,这需要复杂的[[入侵检测系统]]以及快速的开发和响应机制。本研究比较了[[GPU加速]]库([[cuML]])与传统基于[[CPU]]的实现([[scikit-learn]])在性能上的优势,重点关注[[车联网]]威胁检测环境中[[机器学习]]模型所需的速度和效率。通过使用四种[[机器学习]]方法([[随机森林]]、[[KNN]]、[[逻辑回归]]、[[XGBoost]])在三个不同的[[车联网]]安全数据集([[OTIDS]]、[[GIDS]]、[[CICIoV2024]])上进行全面评估,我们的研究结果表明:与传统的[[CPU]]处理相比,[[GPU加速]]实现显著提高了[[计算效率]]——[[训练时间]]最高缩短至1/159,[[预测速度]]最高提升95倍,同时保持了[[检测精度]]。这一显著的[[性能突破]]使研究人员和[[安全专家]]能够利用[[GPU加速]],构建更快、更有效的[[威胁检测系统]],以满足当今[[互联车辆]]网络对[[实时安全性]]的迫切需求。 == 摘要 == * '''原文标题''':Nonlinear interactions between the Amazon River basin and the Tropical North Atlantic at interannual timescales * '''中文标题''':亚马逊河流域与热带北大西洋在年际尺度上的非线性相互作用 * '''发布日期''':2025-04-02 20:05:54+00:00 * '''作者''':Alejandro Builes-Jaramillo, Norbert Marwan, Germán Poveda, Jürgen Kurths * '''分类''':physics.ao-ph, nlin.CD, physics.data-an *'''原文链接''':http://arxiv.org/abs/2504.02102v1 '''中文摘要''':我们通过分析[[亚马逊流域]](AM)[[降水指数]](P-E)[[时间序列]]、两区域间[[地表气压梯度]]及[[热带北大西洋]](TNA)[[海表温度]](SST),研究了年际尺度上[[亚马逊]][[水文]][[气候]]对[[热带北大西洋]][[海温]]的潜在影响机制。采用基于[[递归]][[联合概率]]的分析方法,该方法能捕捉[[时间序列]]间的滞后[[非线性]][[依赖关系]],并通过[[递归分析]]的[[孪生替代技术]]量化[[统计显著性]]。[[非线性]][[依赖分析]]表明:在年际尺度上,[[亚马逊]][[水文]]对0-2个月后的TNA[[海温]]状态具有90%-95%[[统计置信度]]的影响,同时揭示了各变量间的[[双向反馈机制]]:(i)AM[[降水]]领先TNA-AM[[气压梯度]]0-2个月;(ii)[[气压梯度]]领先TNA[[信风带]]0-3个月及7-12个月;(iii)[[信风带]]领先[[SST]]变化0-3个月;(iv)[[SST]]变化领先AM[[降水]]1个月。研究涵盖1979-2008年[[时间序列]],特别分析了1999、2005、2009和2010年AM[[极端降水]][[事件]],以及1963、1980、1983、1997、1998、2005和2010年[[极端干旱]]与1989、1999和2009年[[洪水]]期间相关变量的[[月均状况]]。结果证实[[亚马逊流域]]作为[[陆-气桥梁]],在年际尺度上连接了[[热带太平洋]]与TNA[[海温]]变化。 == 摘要 == * '''原文标题''':Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries * '''中文标题''':加速车联网入侵检测:GPU加速与基于CPU的机器学习库性能对比 * '''发布日期''':2025-04-02 17:04:53+00:00 * '''作者''':Furkan Çolhak, Hasan Coşkun, Tsafac Nkombong Regine Cyrille, Tedi Hoxa, Mert İlhan Ecevit, Mehmet Nafiz Aydın * '''分类''':cs.LG, cs.AI, cs.CR *'''原文链接''':http://arxiv.org/abs/2504.01905v1 '''中文摘要''':[[车联网]]([[IoV]])可能面临严峻的[[网络安全]]攻击,这需要复杂的[[入侵检测系统]]以及快速开发和响应机制。本研究比较了[[GPU加速]]库([[cuML]])与传统基于[[CPU]]的实现([[scikit-learn]])的性能优势,重点关注[[车联网]]威胁检测环境中[[机器学习模型]]所需的速度和效率。通过使用四种[[机器学习]]方法([[随机森林]]、[[KNN]]、[[逻辑回归]]、[[XGBoost]])在三个不同的[[车联网]]安全数据集([[OTIDS]]、[[GIDS]]、[[CICIoV2024]])上进行全面评估,我们的研究结果表明:在保持[[检测精度]]的前提下,[[GPU加速]]实现显著提升了[[计算效率]]——与传统[[CPU]]处理相比,[[训练时间]]最高缩短至1/159,[[预测速度]]最高提升95倍。这一显著的性能突破使研究人员和[[安全专家]]能够利用[[GPU加速]],构建更快、更有效的[[威胁检测系统]],以满足当今[[互联车辆]]网络对[[实时安全性]]的迫切需求。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属-介质-半导体]][[结构]]对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带]][[条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面]][[特性]]及[[电场]][[分布]]。在[[金属-氧化物-半导体]][[结构]]中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属-半导体-绝缘体]][[测试]][[结构]]在[[沟道]][[面]][[电荷密度]]1.27×1013 cm-2时实现了超过1 kV的[[击穿电压]],有效[[峰值]][[电场]]与平均[[击穿场强]]分别达到>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿]][[性能]]的潜力。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期方法在效能上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效能提升是否足以抵消其高昂成本。对此,本研究的主要贡献包括:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将帮助[[研究社区]]复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLM]]在效能上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],平均速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)追求最佳效能且能承担成本时选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)需要接近最优的效能-效率平衡时选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]](Cs)原子多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)的计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为考虑奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在铯原子$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更重要的作用。通过比较MBPT(3)和RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献相当可观。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答系统]]([[GeoQA]])通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等缺陷,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该[[知识增强]]型[[问答系统]]融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]([[RAG]])技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个核心组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]及[[作用机制]]七个维度,最终形成145234条分类条目与875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定精度;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]],通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有重要价值。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]较为匮乏。本文提出了一种基于[[高维数据集]]的新颖材料识别方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取逐渐增加[[针尖-样品距离]]时的50个[[相位值]],最终形成50×50×50[[体素]]图像以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明FNN具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的[[实际价值]],揭示了如何利用AFM相位趋近曲线构建用于[[纳米级光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Automatic Estimation of Pedestrian Gait Features using a single camera recording: Algorithm and Statistical Analysis for Gender Difference and Obstacle Interactions * '''中文标题''':基于单摄像头记录的行人步态特征自动估计算法及性别差异与障碍物交互的统计分析 * '''发布日期''':2025-04-02 11:06:23+00:00 * '''作者''':Kanika Jain, Abhishek Gupta, Indranil Saha Dalal, Anurag Tripathi, Shankar Prawesh * '''分类''':physics.soc-ph *'''原文链接''':http://arxiv.org/abs/2504.01600v1 '''中文摘要''':[[行人]][[步态]]特征(包括[[身体摆动]]频率、幅度、[[步长]]和[[速度]])以及行人[[个人空间]]与[[方向偏好]],是各类[[行人动力学]]研究中的重要参数。[[步态特征]]测量在从[[医疗领域]]到[[桥梁设计]]等广泛应用中具有关键作用,而[[个人空间]]和[[方向选择]](方向偏好)在[[人群模拟]]中扮演重要角色。本研究提出了一种[[自动算法]],用于计算通过安装在[[建筑物]]顶部的单[[摄像头]]所录制[[视频]]中提取[[轨迹]]的步态特征。研究发现:与[[男性]]相比,[[女性]]摆动幅度小28.64%,步长短8.68%,速度慢8.14%,但频率无显著差异;进一步研究表明,主导步态特征的主要变量是[[身体参数]]而非[[性别]]。我们进行了三项实验:[[志愿者]]分别走向[[目的地]]时 a) 无任何[[障碍物]] b) [[路径]]中央存在静止[[非生物]]障碍物 c) 路径中央站立[[人类]]。综合[[统计分析]]显示:步态特征无显著性别差异;有无障碍物时步态特征无显著差异;在性别匹配[[舒适度]]的前提下,行人对待静止人类与静止障碍物的方式相同;受[[印度]][[左行]][[交通规则]]影响,行人表现出向左的方向偏好。 == 摘要 == * '''原文标题''':Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries * '''中文标题''':加速车联网入侵检测:GPU加速与基于CPU的机器学习库性能对比 * '''发布日期''':2025-04-02 17:04:53+00:00 * '''作者''':Furkan Çolhak, Hasan Coşkun, Tsafac Nkombong Regine Cyrille, Tedi Hoxa, Mert İlhan Ecevit, Mehmet Nafiz Aydın * '''分类''':cs.LG, cs.AI, cs.CR *'''原文链接''':http://arxiv.org/abs/2504.01905v2 '''中文摘要''':[[车联网]](IoV)可能面临严峻的[[网络安全]]攻击,这需要复杂的[[入侵检测系统]]以及快速开发和响应机制。本研究比较了[[GPU加速]]库([[cuML]])与传统[[CPU]]实现([[scikit-learn]])的性能优势,重点关注[[车联网]]威胁检测环境中[[机器学习模型]]所需的速度和效率。通过使用四种[[机器学习]]方法([[随机森林]]、[[K近邻]]、[[逻辑回归]]、[[XGBoost]])在三个不同的[[车联网]]安全数据集([[OTIDS]]、[[GIDS]]、[[CICIoV2024]])上进行全面评估,我们发现:在保持检测精度的前提下,[[GPU加速]]实现的训练时间最高可缩短至[[CPU]]处理的1/159,预测速度最高提升95倍。这一显著的性能突破使研究人员和安全专家能够利用[[GPU加速]]技术,构建更快、更有效的威胁检测系统,以满足当今互联车辆网络对实时安全性的迫切需求。 == 摘要 == * '''原文标题''':Nonlinear interactions between the Amazon River basin and the Tropical North Atlantic at interannual timescales * '''中文标题''':亚马逊河流域与热带北大西洋在年际尺度上的非线性相互作用 * '''发布日期''':2025-04-02 20:05:54+00:00 * '''作者''':Alejandro Builes-Jaramillo, Norbert Marwan, Germán Poveda, Jürgen Kurths * '''分类''':physics.ao-ph, nlin.CD, physics.data-an *'''原文链接''':http://arxiv.org/abs/2504.02102v1 '''中文摘要''':我们通过分析[[亚马逊地区]](AM)[[降水指数]](P-E)[[时间序列]]、两区域间[[地表气压梯度]]及[[热带北大西洋]](TNA)[[海表温度]](SST),研究了年际尺度上[[亚马逊]][[水文]][[气候]]对[[热带北大西洋]][[海温]]的潜在影响机制。采用基于[[递归]][[联合概率]]的分析方法,该方法能捕捉[[时间序列]]间的滞后[[非线性]][[依赖关系]],并通过[[递归分析]]的[[孪生替代物]]技术量化[[统计显著性]]。[[非线性]][[依赖分析]]表明:在年际尺度上,[[亚马逊]][[水文]]对0-2个月后的TNA[[海温]]状态具有90%-95%[[统计置信度]]的影响,同时揭示了各变量间的双向[[反馈机制]]:(i)AM[[降水]]领先TNA-AM[[气压梯度]]0-2个月;(ii)[[气压梯度]]领先TNA[[信风带]]0-3个月及7-12个月;(iii)[[信风带]]领先[[SST]]变化0-3个月;(iv)[[SST]]变化领先AM[[降水]]1个月。研究基于1979-2008年[[时间序列]],并特别分析了1999、2005、2009和2010年AM极端[[降水]][[事件]],以及1963、1980、1983、1997、1998、2005和2010年极端[[干旱]]与1989、1999和2009年[[洪水]]期间相关变量的[[月均]]状况。结果证实[[亚马逊流域]]作为[[陆-气]][[桥梁]],在年际尺度上连接了[[热带太平洋]]与TNA[[海温]]变化。 == 摘要 == * '''原文标题''':Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries * '''中文标题''':加速车联网入侵检测:GPU加速与基于CPU的机器学习库性能对比 * '''发布日期''':2025-04-02 17:04:53+00:00 * '''作者''':Furkan Çolhak, Hasan Coşkun, Tsafac Nkombong Regine Cyrille, Tedi Hoxa, Mert İlhan Ecevit, Mehmet Nafiz Aydın * '''分类''':cs.LG, cs.AI, cs.CR *'''原文链接''':http://arxiv.org/abs/2504.01905v1 '''中文摘要''':[[车联网]](IoV)可能面临严峻的[[网络安全]]攻击,这需要复杂的[[入侵检测系统]]以及快速开发和响应机制。本研究对比了[[GPU加速]]库([[cuML]])与传统基于[[CPU]]的实现([[scikit-learn]])的性能优势,重点关注[[车联网]]威胁检测环境中[[机器学习]]模型所需的速度和效率。通过在三组不同的[[车联网]]安全数据集([[OTIDS]]、[[GIDS]]、[[CICIoV2024]])上对四种[[机器学习]]方法([[随机森林]]、[[KNN]]、[[逻辑回归]]、[[XGBoost]])进行全面评估,我们发现:在保持检测精度的前提下,[[GPU加速]]实现的训练时间最高可缩短至[[CPU]]处理的1/159,预测速度最高提升95倍。这一显著的性能突破使研究人员和安全专家能够利用[[GPU加速]]技术,构建更快、更有效的威胁检测系统,以满足当今互联车辆网络对实时安全性的迫切需求。 == 摘要 == * '''原文标题''':A Truncated Newton Method for Optimal Transport * '''中文标题''':最优运输的截断牛顿法 * '''发布日期''':2025-04-02 19:00:24+00:00 * '''作者''':Mete Kemertas, Amir-massoud Farahmand, Allan D. Jepson * '''分类''':cs.LG, cs.MS, math.OC, G.3; G.4; I.4.0 *'''原文链接''':http://arxiv.org/abs/2504.02067v1 '''中文摘要''':摘要:开发现代[[最优传输]]([[OT]])求解器需要权衡多个关键需求:[[GPU]][[并行化]]能力、高维问题的[[可扩展性]]、理论[[收敛]]保证、[[精度]]与[[运行时]]的实证性能,以及实际应用中的[[数值稳定性]]。针对这些挑战,我们提出了一种专门用于[[熵正则化]][[OT]]的[[截断牛顿算法]]。除了证明在无需假设[[Hessian矩阵]][[Lipschitz连续]]的情况下仍可能实现局部[[二次收敛]]外,我们还提供了在实践中最大限度利用高局部[[收敛速率]]的策略。我们的[[GPU]][[并行算法]]展现出极其优越的[[运行时性能]],以比现有方案快数个数量级的速度实现[[高精度计算]],这通过24个问题集(12个[[数据集]]×2种[[成本函数]])的[[挂钟时间]]实验得到验证。该算法的[[可扩展性]]在一个超大规模[[OT]]问题(n≈10^6)上得到展示,该问题在弱[[熵正则化]]条件下被近似求解。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿特性]]。[[金属-介质-半导体结构]]对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质/界面特性]]及内部[[电场]]。在[[金属-氧化物-半导体结构]]中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属-半导体-绝缘体]][[测试结构]]在1.27×1013 cm-2[[沟道]][[面电荷密度]]下实现了超过1 kV的[[击穿电压]],有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大型语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,其中以基于[[Transformer架构]]的[[小型及大型语言模型]]([[SLMs]]和[[LLMs]])最为典型。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的性能提升是否足以抵消其高昂成本。对此,本研究的两项主要贡献为:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套完整[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将帮助[[研究社区]]复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]]——平均速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)[[资源受限]]或无法承担[[LLMs]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]](Cs)原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主导作用。通过对比MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该知识增强型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为七个维度:[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关系]]、[[演化过程]]与[[作用机制]],最终生成145234条分类条目及875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定以提升[[检索精度]];(4)[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息,通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域专用大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在纳米级[[材料表征]]方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]较为有限。本文提出了一种利用[[高维数据集]]进行[[材料识别]]的新方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取50个随[[探针]]-[[样品]]距离递增的相位值,最终形成50×50×50[[体素]][[图像]]以表征不同深度的相位变化。基于此数据集,我们比较了[[K近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明,FNN具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的[[实际价值]],揭示了如何利用AFM相位趋近曲线构建纳米级[[光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属-介质-半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面特性]]及[[电场分布]]。在[[金属-氧化物-半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属-半导体-绝缘体]][[测试结构]]在[[沟道]][[面电荷密度]]1.27×1013 cm-2时实现了超过1 kV的[[击穿电压]],有效峰值[[电场]]与平均[[击穿场强]]分别达到>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。对此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源LLM)进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),提供基于[[折叠交叉验证]]流程的[[数据划分]]方案、完整文档及代码。代码、数据和文档的公开将帮助研究界复现实验并以更科学的方式推动领域发展。实验结果表明:LLM在效果上优于传统方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],平均速度分别比传统方法和SLM慢590倍和8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用LLM;(2)资源受限或无法承担LLM调优成本时选用逻辑回归/SVM等传统方法;(3)需要接近最优效果-效率平衡时选用[[Roberta]]等SLM。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':基于第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量及张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值(含估计不确定度)与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在[[铯原子]]$\alpha_d$值测定中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主导作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的关联效应以及双重CP效应在这些计算中同样显著。在高激发态中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理]]领域的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出GeoRAG框架,该知识增强型问答系统融合领域[[微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关系]]、[[演化过程]]与[[运作机制]]七个维度,最终形成145234条分类条目及875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析查询类型;(3)利用问答对数据的[[检索评估器]],优化查询-文档相关性判定以提升检索精度;(4)[[GeoPrompt]]模板动态整合用户查询与检索信息,通过维度特异性提示提升响应质量。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG,验证了其[[泛化能力]]。本研究通过提出领域专用[[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中GeoQA系统的[[可扩展性]]与[[准确性]]具有实践意义。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在纳米尺度[[材料表征]]方面具有重要潜力,但现有鲁棒[[数据集]]和[[自动化分析]]工具仍较为有限。本文提出了一种基于高维[[数据集]]的新型[[材料识别]]方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的[[AFM]]相位趋近曲线。每次测量获取逐渐增加[[针尖-样品距离]]时的50个相位值,最终形成50x50x50[[体素]]图像以表征不同深度的相位变化。利用该数据集,我们比较了[[K近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明,[[FNN]]具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了[[分割图]]的实际价值,揭示了如何利用[[AFM]]相位趋近曲线构建用于[[纳米级]][[光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-[[介质]]-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面]]特性及内部[[电场]]。在[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属]]-[[半导体]]-[[绝缘体]]测试结构在1.27×1013 cm-2[[沟道]][[面电荷密度]]下实现了超过1 kV的[[击穿电压]]。有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,其中以基于[[Transformer架构]]的小型及大型语言模型([[SLMs]]和[[LLMs]])最为典型。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布包含22个数据集的大规模基准测试(涵盖[[情感分析]]和[[主题分类]]任务),其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的公开将帮助研究界复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],平均速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)资源受限或无法承担[[LLMs]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验结果]]吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在铯原子极化率测定中,[[对关联效应]](PC)比[[核心极化效应]](CP)起更主导作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献尤为显著。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出GeoRAG框架,该[[知识增强]]型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]和[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]和[[运行机制]]七个维度,最终形成145234条分类条目和875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],通过[[地理维度]]分类解析查询类型;(3)利用[[问答对]]数据的[[检索评估器]]优化查询-文档相关性判定;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息,通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG,验证了其[[泛化能力]]。本研究通过提出[[领域专用]]大语言模型部署新范式,推动[[地理人工智能]]发展,对提升实际应用中GeoQA系统的[[可扩展性]]和[[准确性]]具有重要意义。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位逼近曲线的材料识别与虚拟s-SNOM方法数据集 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在纳米尺度[[材料表征]]方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]仍较为有限。本文提出了一种基于[[高维数据集]]的新型[[材料识别]]方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种不同材料采集的AFM相位趋近曲线。每次测量获取50个在[[探针]]-[[样品]]间距递增时的相位值,最终形成50x50x50[[体素]]图像以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明,FNN能提供最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的[[实际价值]],揭示了如何利用AFM相位趋近曲线开发用于[[纳米级]][[光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽带隙AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属-介质-半导体]][[结构]]对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]][[界面特性]]及内部[[电场]]。在[[金属-氧化物-半导体]][[结构]]中获得了低至5×10-7 A/cm2的[[栅漏]][[泄漏电流]]。在横向[[金属-半导体-绝缘体]][[测试结构]]中,当[[沟道]][[面电荷密度]]为1.27×1013 cm-2时,[[击穿电压]]超过1 kV。有效峰值[[电场]]与平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLM]]s和[[LLM]]s)为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此,本研究的两项主要贡献是:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的公开将使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLM]]平均慢590倍和8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)需要接近最优效果-效率平衡时选用[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),我们研究了[[铯原子]](Cs)中若干偶宇称和奇宇称态在标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算符对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子极化率测定中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更主导作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的关联性以及[[双重CP效应]]在这些计算中同样具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理]]领域的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该知识增强型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]及[[作用机制]]七个维度,最终形成145234条分类条目与875432组多维问答对;(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析查询类型;(3)利用问答对数据评估查询-文档相关性的[[检索评估器]],优化检索精度;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息,通过[[维度特异性]]提示提升响应质量。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG,验证了其[[泛化能力]]。本研究通过提出领域专用[[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中GeoQA系统的[[可扩展性]]与[[准确性]]具有重要价值。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM方法数据集 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在纳米级[[材料表征]]方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]仍较为匮乏。本文提出了一种基于[[高维数据集]]的新方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取50个随[[探针]]-[[样品]]距离递增的相位值,最终形成50x50x50[[体素]][[图像]]以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明,FNN具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的[[实际价值]],证明AFM相位趋近曲线可转化为纳米级[[光学分析]]的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿特性]]。[[金属-介质-半导体结构]]对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质/界面特性]]及内部[[电场]]。在[[金属-氧化物-半导体结构]]中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属-半导体-绝缘体]][[测试结构]]在[[沟道面]][[电荷密度]]为1.27×1013 cm-2时,[[击穿电压]]超过1 kV。有效峰值[[电场]]与平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLMs]]和[[LLMs]])为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布包含22个数据集(涵盖[[情感分析]]和[[主题分类]])的大型基准测试集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的开放将使学界能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其微调过程产生显著更高的计算成本,平均速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLMs]];(2)资源受限或无法承担[[LLM]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':基于第一性原理计算揭示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:本研究采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),通过[[第一性原理计算]]探究了[[铯原子]](Cs)中若干偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算符对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其不确定度估计与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子极化率测定中,[[电子对关联效应]](PC)比[[核心极化效应]](CP)起更主导作用。通过对比MBPT(3)与RCC结果,我们发现PC与CP效应的关联效应以及双重CP效应在这些计算中同样具有显著影响。此外,[[Breit相互作用]]对高激发态的贡献尤为突出。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出GeoRAG框架,该[[知识增强]]型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度,最终生成145234条分类条目及875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]],通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG,验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中GeoQA系统的[[可扩展性]]与[[准确性]]具有重要价值。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM方法数据集 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]较为匮乏。本文提出了一种基于[[高维数据集]]的新材料识别方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取50个随[[探针]]-[[样品]]距离递增的相位值,最终形成50x50x50[[体素]]图像以表征不同深度的相位变化。利用该数据集,我们比较了[[k近邻]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在材料分割中的表现。结果表明,FNN具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了分割图的[[实际价值]],揭示了如何利用AFM相位趋近曲线构建[[纳米级]]光学分析的精细化[[预测工具]]。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]和[[击穿]]特性。[[金属]]-介质-半导体结构对于维持未来高性能[[UWBG晶体管]]所需的高[[电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、介质/界面特性及电场分布。在[[金属-氧化物-半导体结构]]中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属-半导体-绝缘体]]测试结构在1.27×1013 cm-2[[沟道]][[面电荷密度]]下实现了超过1 kV的[[击穿电压]]。有效峰值电场和平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]]集成对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLM]]s和[[LLM]]s)为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布包含22个数据集(涵盖[[情感分析]]和[[主题分类]])的大规模基准测试集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档和代码。代码、数据及文档的公开使研究社区能复现实验并以更科学的方式推动领域发展。实验对比结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的计算成本,速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':基于第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]](Cs)原子多个偶宇称和奇宇称态的标量及张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主要作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献相当可观。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该[[知识增强]]型问答系统结合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[作用机制]]七个维度,最终生成145234条分类条目和875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据评估[[查询-文档相关性]]的[[检索评估器]],优化[[检索精度]];(4)[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]],通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。 == 摘要 == * '''原文标题''':Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves * '''中文标题''':基于原子力显微镜相位逼近曲线的材料识别与虚拟s-SNOM方法数据集 * '''发布日期''':2025-04-02 11:42:03+00:00 * '''作者''':Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu * '''分类''':physics.optics *'''原文链接''':http://arxiv.org/abs/2504.01636v1 '''中文摘要''':[[原子力显微镜]]([[AFM]])相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力,但现有[[鲁棒数据集]]和[[自动化分析工具]]较为匮乏。本文提出了一种基于[[高维数据集]]的新方法,该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的[[AFM相位趋近曲线]]。每次测量获取50个随[[探针-样品距离]]递增的相位值,最终形成50×50×50[[体素]]图像以表征不同深度的相位变化。利用该数据集,我们比较了[[K近邻算法]]([[KNN]])、[[随机森林]]([[RF]])和[[前馈神经网络]]([[FNN]])在[[材料分割]]中的表现。结果表明,[[FNN]]具有最高的[[准确率]]和[[F1分数]],优于传统方法。最后,我们通过生成虚拟[[散射型扫描近场光学显微镜]]([[s-SNOM]])图像验证了[[分割图]]的实际价值,揭示了如何利用[[AFM相位趋近曲线]]构建[[纳米尺度]]光学分析的精细化预测工具。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]及[[击穿特性]]。[[金属-介质-半导体结构]]对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质/界面特性]]及内部[[电场]]。在[[金属-氧化物-半导体结构]]中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属-半导体-绝缘体]][[测试结构]]在[[沟道]][[面电荷密度]]为1.27×1013 cm-2时,[[击穿电压]]超过1 kV。有效峰值[[电场]]和平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。对此,本研究的主要贡献包括:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大型[[基准测试]]集,其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLM]];(2)资源受限或无法承担[[LLM]][[调优]]成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时选用[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':基于第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]]([[Cs]])原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]]([[DHF]])方法、[[二阶微扰理论]]([[MBPT(2)]])、[[三阶微扰理论]]([[MBPT(3)]])、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇]]([[RCCSD]])方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。我们最终获得的$\alpha_d$值及其[[不确定度]]估计,与先前[[理论计算]]和现有[[实验]]结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明,在[[铯]]原子$\alpha_d$值确定过程中,[[电子对关联]]([[PC]])效应比[[核心极化]]([[CP]])效应起更主要作用。通过比较[[MBPT(3)]]和[[RCC]]结果差异,我们发现[[PC]]与[[CP]]效应间的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献尤为显著。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-[[介质]]-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面特性]]及内部[[电场]]。在[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏]][[泄漏电流]]。横向[[金属]]-[[半导体]]-[[绝缘体]][[测试结构]]在1.27×1013 cm-2[[沟道]][[面电荷密度]]下实现了超过1 kV的[[击穿电压]],有效峰值[[电场]]与平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理]]领域的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该知识增强型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[作用机制]]七个维度,最终生成145234条分类条目及875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析查询类型;(3)利用问答对数据评估查询-文档相关性的[[检索评估器]],优化[[检索精度]];(4)[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息,通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出领域专用[[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。对此,本研究的主要贡献包括:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大规模[[基准测试集]],其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]和[[代码]]。[[代码]]、[[数据]]及[[文档]]的开放使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLM]];(2)资源受限或无法承担[[LLM]][[调优]]成本的应用选用[[逻辑回归]]等传统方法;(3)追求效果-效率平衡的[[近优解]]时选用[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]]([[Cs]])原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]]([[DHF]])方法、[[二阶微扰理论]]([[MBPT(2)]])、[[三阶微扰理论]]([[MBPT(3)]])、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇]]([[RCCSD]])方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明:在[[铯]]原子$\alpha_d$值确定过程中,[[对关联效应]]([[PC]])比[[核心极化效应]]([[CP]])起着更重要作用。通过比较[[MBPT(3)]]与[[RCC]]结果,我们发现[[PC]]与[[CP]]效应间的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在[[高激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures * '''中文标题''':Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性 * '''发布日期''':2025-04-02 01:49:58+00:00 * '''作者''':Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan * '''分类''':cond-mat.mtrl-sci, physics.app-ph *'''原文链接''':http://arxiv.org/abs/2504.01291v1 '''中文摘要''':我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]及[[击穿]]特性。[[金属]]-[[介电]]-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验,我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介电]]/[[界面]]特性及[[电场分布]]。在[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏]][[泄漏电流]]。横向[[金属]]-[[半导体]]-[[绝缘体]]测试结构在1.27×1013 cm-2[[沟道]][[面电荷密度]]下实现了超过1 kV的[[击穿电压]]。有效峰值[[电场]]与平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:基于地理视角的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v1 '''中文摘要''':[[地理问答]]([[GeoQA]])通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该[[知识增强]]型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]([[RAG]])技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件:(1)基于3267份[[语料]]([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[作用机制]]七个维度,最终形成145234条[[分类条目]]与875432组[[多维问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定精度;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]],通过[[维度特异性]]提示提升[[响应质量]]。[[对比实验]]表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升实际应用中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有重要价值。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大型[[基准测试集]],其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套完整[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用[[LLM]];(2)资源受限或无法负担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)需要效果-效率平衡时选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':在[[铯]](Cs)原子多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)的计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更主要的作用。通过比较MBPT(3)与RCC结果发现,PC与CP效应间的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A Unified Approach to Analysis and Design of Denoising Markov Models * '''中文标题''':去噪马尔可夫模型分析与设计的统一方法 * '''发布日期''':2025-04-02 17:46:43+00:00 * '''作者''':Yinuo Ren, Grant M. Rotskoff, Lexing Ying * '''分类''':cs.LG, cs.NA, math.NA, stat.ML *'''原文链接''':http://arxiv.org/abs/2504.01938v1 '''中文摘要''':基于[[测度传输]]的[[概率生成模型]](如[[扩散模型]]和基于[[流]]的模型)通常采用[[马尔可夫随机动力学]]语言进行表述,其中底层过程的选择同时影响[[算法设计]]决策和[[理论分析]]。本文旨在为[[去噪马尔可夫模型]]建立严格的[[数学基础]]——这是一类假设前向过程从[[目标分布]]过渡到简单易采样分布,并特别构建反向过程以实现高效[[逆向采样]]的生成模型。通过与[[非平衡统计力学]]和广义[[Doob's h变换]]的深层联系,我们提出一组最小假设条件以确保:(1)反向生成算子的显式构造,(2)直接最小化测度传输差异的统一[[变分目标]],(3)经典[[分数匹配]]方法在不同[[动力学]]中的适应性。该框架统一了连续与离散[[扩散模型]]的现有表述,在正向生成算子满足特定[[正则性]]假设下识别出[[去噪马尔可夫模型]]的最一般形式,并为设计任意[[Lévy型过程]]驱动的去噪马尔可夫模型提供了系统化方案。我们通过采用[[几何布朗运动]]和[[跳跃过程]]作为前向动力学的新型[[去噪马尔可夫模型]],展示了该框架在复杂分布建模中的潜在灵活性与效能。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zeng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v2 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了[[精准信息]]获取。本研究提出[[GeoRAG]]框架,该[[知识增强]]型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[作用机制]]七个维度,最终形成145234条分类条目及875432组多维[[问答对]];(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]],用于通过[[地理维度]]分类解析[[查询类型]];(3)利用[[问答对]]数据的[[检索评估器]],优化[[查询-文档相关性]]判定;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]],通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]],验证了其[[泛化能力]]。本研究通过提出[[领域专用]]大语言模型部署新范式,推动[[地理人工智能]]发展,对提升现实场景中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i)对12种传统与新兴ATC方案(含5个开源[[LLMs]])进行科学严谨的成本效益对比分析;(ii)发布包含22个数据集(涵盖[[情感分析]]和[[主题分类]]任务)的大规模基准测试集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的公开使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其微调过程产生显著更高的计算成本,速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLMs]];(2)资源受限或无法承担[[LLMs]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算揭示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),研究了[[铯原子]](Cs)中若干偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为考虑奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在铯原子极化率测定中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更重要作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应间的关联以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在[[高激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A Unified Approach to Analysis and Design of Denoising Markov Models * '''中文标题''':去噪马尔可夫模型分析与设计的统一方法 * '''发布日期''':2025-04-02 17:46:43+00:00 * '''作者''':Yinuo Ren, Grant M. Rotskoff, Lexing Ying * '''分类''':cs.LG, cs.NA, math.NA, stat.ML *'''原文链接''':http://arxiv.org/abs/2504.01938v1 '''中文摘要''':基于[[测度传输]]的[[概率生成模型]](如[[扩散模型]]和基于[[流]]的模型)通常采用[[马尔可夫随机过程|马尔可夫随机动力学]]语言进行表述,其中底层过程的选择同时影响[[算法设计]]决策和[[理论分析]]。本文旨在为[[去噪马尔可夫模型]]建立严格的[[数学基础]]——这是一类假设存在从[[目标分布]]向易采样[[简单分布]]过渡的[[正向过程]],以及专门构建以实现逆向高效采样的[[反向过程]]的生成模型。通过与[[非平衡统计力学]]和[[广义Doob's h-变换]]的深层联系,我们提出一组最小假设条件以确保:(1) 反向生成算子的显式构造,(2) 直接最小化测度传输差异的[[统一变分目标]],(3) 经典[[分数匹配]]方法在不同[[动力学]]中的适应性。该框架统一了[[连续]]与[[离散]]扩散模型的现有表述,在正向生成算子满足特定[[正则性]]假设条件下识别出去噪马尔可夫模型的最一般形式,并为设计由任意[[Lévy过程|Lévy型过程]]驱动的去噪马尔可夫模型提供了[[系统化方案]]。我们通过采用[[几何布朗运动]]和[[跳跃过程]]作为正向动力学的新型去噪马尔可夫模型,展示了该框架在[[复杂分布]]建模中的多功能性及实际有效性,凸显其潜在的[[灵活性]]与[[强大能力]]。 == 摘要 == * '''原文标题''':GeoRAG: A Question-Answering Approach from a Geographical Perspective * '''中文标题''':GeoRAG:地理视角下的问答方法 * '''发布日期''':2025-04-02 08:11:05+00:00 * '''作者''':Jian Wang, Zhuo Zhao, Zeng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan * '''分类''':cs.IR *'''原文链接''':http://arxiv.org/abs/2504.01458v2 '''中文摘要''':[[地理问答]](GeoQA)通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题,阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架,该知识增强型问答系统结合[[领域微调]]、[[提示工程]]与[[检索增强生成]](RAG)技术,以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件:(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建结构化[[地理知识库]],通过[[多智能体]]方法归类为[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度,最终生成145234条分类条目与875432组多维问答对;(2)基于[[BERT-Base-Chinese]]训练的[[多标签文本分类器]],通过[[地理维度]]分类解析查询类型;(3)利用问答对数据评估查询-文档相关性的[[检索评估器]],优化检索精度;(4)[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息,通过[[维度特异性]]提示提升响应质量。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG,验证了其[[泛化能力]]。本研究通过提出领域专用[[大语言模型]]部署新范式,推动[[地理人工智能]]发展,对提升现实场景中GeoQA系统的[[可扩展性]]与[[准确性]]具有实践意义。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年取得了显著进展,以基于[[Transformer架构]]的[[小型及大型语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开使[[研究社区]]能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用[[LLMs]];(2)资源受限或无法承担[[LLMs]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)需要接近最优效果-效率平衡时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过使用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,我们研究了[[铯]](Cs)中若干偶宇称和奇宇称态的标量和张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为考虑奇宇称E1算符对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。我们最终获得的$\alpha_d$值(含估计不确定度)与先前计算结果和现有[[实验数据]]展现出良好的一致性。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在铯的$\alpha_d$值确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更主要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应之间的关联性以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A Unified Approach to Analysis and Design of Denoising Markov Models * '''中文标题''':去噪马尔可夫模型分析与设计的统一方法 * '''发布日期''':2025-04-02 17:46:43+00:00 * '''作者''':Yinuo Ren, Grant M. Rotskoff, Lexing Ying * '''分类''':cs.LG, cs.NA, math.NA, stat.ML *'''原文链接''':http://arxiv.org/abs/2504.01938v1 '''中文摘要''':基于[[测度传输]]的[[概率生成模型]](如[[扩散模型]]和基于[[流]]的模型)通常采用[[马尔可夫随机动力学]]的语言进行表述,其中底层过程的选择同时影响[[算法设计]]决策和[[理论分析]]。本文旨在为[[去噪马尔可夫模型]]建立严格的[[数学基础]]——这是一类假设存在从[[目标分布]]向简单易采样分布过渡的[[正向过程]],并特别构建[[反向过程]]以实现高效[[逆向采样]]的[[生成模型]]。通过与非平衡[[统计力学]]和广义[[Doob's h-变换]]的深层联系,我们提出一组最小假设条件以确保:(1) 反向[[生成算子]]的显式构造,(2) 直接最小化[[测度传输差异]]的[[统一变分目标]],(3) 经典[[分数匹配]]方法在不同[[动力学]]中的适应性实现。该框架统一了连续与离散[[扩散模型]]的现有表述,在正向生成算子满足特定[[正则性假设]]条件下识别出[[去噪马尔可夫模型]]的最一般形式,并为设计由任意[[Lévy型过程]]驱动的[[去噪马尔可夫模型]]提供了[[系统化方案]]。我们通过采用[[几何布朗运动]]和[[跳跃过程]]作为正向[[动力学]]的新型[[去噪马尔可夫模型]],展示了该方法在复杂[[分布建模]]中的多功能性和实际有效性,凸显了框架潜在的灵活性与强大能力。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。对此,本研究的两项主要贡献为:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]与[[主题分类]]),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]及[[文档]]的公开使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]对比结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLMs]]平均慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)[[资源受限]]或无法承担[[LLMs]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过采用[[狄拉克-哈特里-福克方法]]([[DHF]])、[[二阶微扰理论]]([[MBPT(2)]])、[[三阶微扰理论]]([[MBPT(3)]])、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇方法]]([[RCCSD]]),我们研究了[[铯原子]]([[Cs]])中多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算及现有[[实验]]结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定过程中,[[对关联效应]]([[PC]])比[[核心极化效应]]([[CP]])起着更主要的作用。通过比较[[MBPT(3)]]与[[RCC]]结果,我们发现[[PC]]与[[CP]]效应的关联效应以及[[双重CP效应]]在这些计算中同样具有显著影响。此外,[[Breit相互作用]]对[[高激发态]]的贡献尤为突出。 == 摘要 == * '''原文标题''':A Unified Approach to Analysis and Design of Denoising Markov Models * '''中文标题''':去噪马尔可夫模型分析与设计的统一方法 * '''发布日期''':2025-04-02 17:46:43+00:00 * '''作者''':Yinuo Ren, Grant M. Rotskoff, Lexing Ying * '''分类''':cs.LG, cs.NA, math.NA, stat.ML *'''原文链接''':http://arxiv.org/abs/2504.01938v1 '''中文摘要''':基于[[测度传输]]的[[概率生成模型]](如[[扩散模型]]和基于[[流]]的模型)通常采用[[马尔可夫随机过程|马尔可夫随机动力学]]的语言进行表述,其中底层过程的选择同时影响[[算法设计]]决策和理论分析。本文旨在为[[去噪马尔可夫模型]]建立严格的[[数学基础]]——这类生成模型假设存在一个从[[目标分布]]过渡到简单易采样分布的前向过程,以及一个专门构建以实现逆向高效采样的后向过程。通过与[[非平衡统计力学]]和广义[[Doob变换|Doob's $h$-变换]]的深层联系,我们提出一组最小假设条件以确保:(1) 逆向生成器的显式构造,(2) 直接最小化测度传输差异的[[统一变分目标]],(3) 经典[[分数匹配]]方法在不同动力学中的适应性实现。该框架统一了连续与离散[[扩散模型]]的现有表述,在正向生成器满足特定[[正则性]]假设条件下识别出[[去噪马尔可夫模型]]的最一般形式,并为设计由任意[[Lévy过程|Lévy型过程]]驱动的去噪马尔可夫模型提供了系统化方案。我们通过采用[[几何布朗运动]]和[[跳跃过程]]作为前向动力学的新型去噪马尔可夫模型,展示了该框架在复杂分布建模中的潜在灵活性与效能。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源LLM)进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的开放将使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:LLMs在效果上优于传统方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]]——平均耗时分别为传统方法的590倍和SLMs的8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用LLMs;(2)资源受限或无法承担LLM调优成本时采用逻辑回归/SVM等传统方法;(3)需要接近最优效果-效率平衡时选择[[Roberta]]等SLMs。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]]([[Cs]])原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]]([[DHF]])方法、[[二阶微扰理论]]([[MBPT(2)]])、[[三阶微扰理论]]([[MBPT(3)]])、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇]]([[RCCSD]])方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验结果]]吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明:在[[铯]]原子$\alpha_d$值的确定过程中,[[配对关联]]([[PC]])效应比[[核心极化]]([[CP]])效应起更主要作用。通过比较[[MBPT(3)]]与[[RCC]]结果,我们发现[[PC]]与[[CP]]效应的关联效应以及双重[[CP]]效应在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此,本研究的两项主要贡献为:(i)对12种传统与新兴ATC方案(含5个开源LLM)进行科学严谨的[[成本效益]]对比分析;(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]])的大规模[[基准测试]]集,其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的公开使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:LLM在效果上优于传统方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和SLM慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用LLM;(2)资源受限或无法承担LLM调优成本的应用选用逻辑回归/SVM等传统方法;(3)追求接近最优效果-效率平衡时选用[[Roberta]]等SLM。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),研究了[[铯]](Cs)中若干[[偶宇称]]和[[奇宇称]]态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为考虑奇宇称[[E1算子]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主要的作用。通过比较MBPT(3)与RCC结果发现,PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,[[Breit相互作用]]对[[高激发态]]的贡献尤为显著。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i)对12种传统与新兴ATC方案(含5个开源LLMs)进行科学严谨的成本效益对比分析;(ii)发布包含22个数据集(涵盖[[情感分析]]和[[主题分类]]任务)的大型基准测试集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的公开将使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:LLMs在效果上优于传统方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其[[微调]]过程导致计算成本显著更高——分别比传统方法和SLMs平均慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用LLMs;(2)资源受限或无法承担LLMs调优成本时选用逻辑回归/SVM等传统方法;(3)追求接近最优效果-效率平衡时选择[[Roberta]]等SLMs。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过采用[[狄拉克-哈特里-福克方法]]([[DHF]])、[[二阶微扰理论]]([[MBPT(2)]])、[[三阶微扰理论]]([[MBPT(3)]])、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇方法]]([[RCCSD]]),我们研究了[[铯原子]]([[Cs]])中若干偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定过程中,[[电子对关联]]([[PC]])效应比[[核心极化]]([[CP]])效应起着更主要的作用。通过比较[[MBPT(3)]]与[[RCC]]结果,我们发现[[PC]]与[[CP]]效应间的关联效应以及双[[CP]]效应在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试集]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的开放使[[研究社区]]能复现[[实验]]并以更科学的方式推动[[领域发展]]。[[实验]]结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLMs]];(2)[[资源受限]]或无法承担[[LLM]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的[[近优解]]时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过采用[[狄拉克-哈特里-福克方法]]([[DHF]])、[[二阶微扰理论]]([[MBPT(2)]])、[[三阶微扰理论]]([[MBPT(3)]])、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇方法]]([[RCCSD]]),我们研究了[[铯原子]]([[Cs]])中若干偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]与[[RPA]]结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定过程中,[[电子对关联效应]]([[PC]])比[[核心极化效应]]([[CP]])起着更主要的作用。通过比较[[MBPT(3)]]与[[RCC]]结果,我们发现[[PC]]与[[CP]]效应的关联效应以及双重[[CP]]效应在这些计算中同样具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献在于:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)构建包含22个数据集的大规模基准测试集(涵盖[[情感分析]]和[[主题分类]]任务),提供基于[[折叠交叉验证]]的(训练-验证-测试)划分方案、完整文档及代码。代码、数据和文档的公开将帮助研究界复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程导致计算成本显著增加,速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过使用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,我们研究了[[铯]](Cs)中若干偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为考虑奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。我们最终获得的$\alpha_d$值(含估计不确定度)与先前理论计算及现有[[实验结果]]显示出良好的一致性。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更主要的作用。通过比较MBPT(3)与RCC结果的差异,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,[[Breit相互作用]]对[[高激发态]]的贡献被证实相当可观。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i) 对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii) 发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]和[[代码]]。[[代码]]、[[数据]]及[[文档]]的公开将帮助学界复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],平均速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1) 对效果要求极致且能承担成本的场景选用[[LLMs]];(2) 资源受限或无法承担[[LLMs]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3) 追求效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]](Cs)原子多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)的计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的含[[不确定度]]估计的$\alpha_d$值与先前[[理论计算]]及现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在铯原子$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更重要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献相当可观。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源LLMs)进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大规模[[基准测试集]],其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的开放使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:LLMs在效果上优于传统方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],平均速度分别比传统方法和SLMs慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用LLMs;(2)资源受限或无法承担LLMs调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡时选择[[Roberta]]等SLMs。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),探究了[[电子关联效应]]和[[高阶相对论效应]]。为考虑奇宇称[[E1算子]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更重要作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应间的关联性以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i)对12种传统与新兴ATC方案(含5个开源LLM)进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]])的大规模[[基准测试集]],其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]和[[代码]]。[[代码]]、[[数据]]及[[文档]]的公开将帮助学界复现实验并以更科学的方式推动领域发展。实验结果表明:LLMs在效果上优于传统方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其[[微调]]过程导致[[计算成本]]激增,速度分别比传统方法和SLMs慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用LLMs;(2)资源受限或无法承担LLM调优成本的应用选用逻辑回归或SVM等传统方法;(3)追求接近最优效果-效率平衡时选用[[Roberta]]等SLMs。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]](Cs)原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]。最终获得的含[[不确定度]]估计的$\alpha_d$值与先前[[理论计算]]及现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在铯原子$\alpha_d$值确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主导作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献尤为显著。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLM]]s和[[LLM]]s)为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i) 对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii) 发布包含22个数据集的大规模基准测试(涵盖[[情感分析]]和[[主题分类]]任务),其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据及文档的公开使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其微调过程产生显著更高的计算成本,速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1) 对效果要求极致且能承担成本的场景选用[[LLM]];(2) 资源受限或无法承担[[LLM]]调优成本的场景选用[[逻辑回归]]/[[SVM]]等传统方法;(3) 追求效果-效率平衡时选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过使用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),我们研究了[[铯]](Cs)中若干偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为考虑奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。我们最终获得的$\alpha_d$值(含估计不确定度)与先前理论计算及现有实验结果显示出良好的一致性。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更主要的作用。通过比较MBPT(3)与RCC结果的差异,我们发现PC与CP效应之间的关联性以及[[双重CP效应]]在这些计算中也具有显著影响。此外,[[Breit相互作用]]对高激发态的贡献被证实相当可观。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将帮助研究界复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLM]];(2)资源受限或无法承担[[LLM]][[调优]]成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时可选用[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),我们研究了[[铯原子]](Cs)中若干偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算符对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[电子对关联效应]](PC)比[[核心极化效应]](CP)起着更主导作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的关联效应以及双重CP效应在这些计算中同样具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i)对12种传统与新兴ATC方案(含5个开源LLMs)进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大规模[[基准测试集]],其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]和[[代码]]。[[代码]]、[[数据]]及[[文档]]的公开使[[研究社区]]能复现实验并以更科学的方式推动领域发展。实验结果表明:LLMs在效果上优于传统方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和SLMs慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用LLMs;(2)资源受限或无法承担LLMs调优成本的场景选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡时选择[[Roberta]]等SLMs。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),我们研究了[[铯原子]](Cs)中若干偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算符对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主要的作用。通过比较MBPT(3)与RCC结果发现,PC与CP效应的关联效应以及双重CP效应在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大型[[基准测试]]集,其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]和[[代码]]。[[代码]]、[[数据]]及[[文档]]的公开将帮助研究界复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程导致[[计算成本]]激增,分别比传统方法和[[SLM]]平均慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLM]];(2)资源受限或无法承担[[LLM]][[调优]]成本的场景选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡时选用[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),研究了[[铯]](Cs)中若干偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算符对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在[[铯原子]]$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应之间的关联性以及双重CP效应在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A Unified Approach to Analysis and Design of Denoising Markov Models * '''中文标题''':去噪马尔可夫模型分析与设计的统一方法 * '''发布日期''':2025-04-02 17:46:43+00:00 * '''作者''':Yinuo Ren, Grant M. Rotskoff, Lexing Ying * '''分类''':cs.LG, cs.NA, math.NA, stat.ML *'''原文链接''':http://arxiv.org/abs/2504.01938v1 '''中文摘要''':基于[[测度传输]]的[[概率生成模型]](如[[扩散模型]]和基于[[流]]的模型)通常采用[[马尔可夫随机过程|马尔可夫随机动力学]]的语言进行表述,其中底层过程的选择既影响[[算法设计]]也关乎[[理论分析]]。本文旨在为[[去噪马尔可夫模型]]建立严格的[[数学基础]]——这类生成模型通过前向过程将[[目标分布]]过渡到易采样的简单分布,并特别构建反向过程以实现高效逆向采样。借助与[[非平衡统计力学]]及广义[[Doob's h-变换]]的深层联系,我们提出一组最小假设条件以确保:(1)反向生成器的显式构造,(2)直接最小化测度传输差异的统一[[变分目标]],(3)经典[[分数匹配]]方法在不同动力学中的适应性。该框架统一了连续与离散[[扩散模型]]的现有表述,在正向生成器满足特定[[正则性]]假设时识别出[[去噪马尔可夫模型]]的最一般形式,并为任意[[Lévy过程|Lévy型过程]]驱动的去噪模型设计提供了系统化方案。我们通过采用[[几何布朗运动]]和[[跳跃过程]]作为前向动力学的新型去噪模型,展示了该框架在复杂分布建模中的潜在灵活性与效能。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLMs]]和[[LLMs]])为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献在于:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布包含22个数据集(涵盖[[情感分析]]和[[主题分类]]任务)的大规模基准测试集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套完整文档和代码。代码、数据及文档的公开将帮助研究社区复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其微调过程产生显著更高的计算成本——平均耗时分别为传统方法的590倍和[[SLMs]]的8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)资源受限或无法承担[[LLM]]调优成本时选择[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:本研究采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),系统探究了[[铯原子]](Cs)中多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算子对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更主导作用。通过比较MBPT(3)与RCC结果发现,PC与CP效应的关联效应以及双重CP效应在这些计算中也具有显著影响。此外,研究还发现[[高激发态]]中[[Breit相互作用]]的贡献相当可观。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLMs]]和[[LLMs]])为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布包含22个数据集(涵盖[[情感分析]]与[[主题分类]])的大型基准测试集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据及文档的公开将使学界能以更科学的方式复现实验并推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其微调过程产生显著更高的计算成本,平均速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]]([[Cs]])原子多个偶宇称和奇宇称态的标量及张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]]([[DHF]])方法、[[二阶微扰理论]]([[MBPT(2)]])、[[三阶微扰理论]]([[MBPT(3)]])、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇]]([[RCCSD]])方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的含[[不确定度]]估计的$\alpha_d$值与先前[[理论计算]]及现有[[实验]]结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明:在[[铯]]原子$\alpha_d$值的确定过程中,[[对关联效应]]([[PC]])比[[核极化效应]]([[CP]])起着更主要的作用。通过比较[[MBPT(3)]]与[[RCC]]结果,我们发现[[PC]]与[[CP]]效应的关联效应以及双[[CP]]效应在这些计算中同样具有显著影响。此外,在[[高激发态]]中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大规模[[基准测试集]],其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]和[[代码]]。[[代码]]、[[数据]]及[[文档]]的公开将使[[社区]]能够复现[[实验]]并以更科学的方式推动[[领域]]发展。[[实验]]结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]]——平均耗时分别是传统方法和[[SLM]]的590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时可选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算揭示铯(Cs I)多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起更主要作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献相当可观。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大型[[基准测试]]集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的公开使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]]——平均耗时分别为传统方法的590倍和[[SLMs]]的8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更主要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i) 对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii) 发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将帮助研究界复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]]——平均速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1) 对效果要求极致且能承担成本的场景选用[[LLM]];(2) 资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3) 追求效果-效率平衡时选择[[Roberta]]等[[SLM]]方案。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更重要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源LLM)进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将帮助学界复现实验并以更科学的方式推动领域发展。实验结果表明:LLM在效果上优于传统方法(平均提升26%-7.1%)和SLM(平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和SLM慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用LLM;(2)资源受限或无法承担LLM调优成本时选用逻辑回归/SVM等传统方法;(3)追求效果-效率平衡时选择[[Roberta]]等SLM。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),我们研究了[[铯原子]](Cs)中若干偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算符对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的关联效应以及双重CP效应在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLMs]]和[[LLMs]])为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布包含22个数据集(涵盖[[情感分析]]和[[主题分类]])的大型基准测试集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的开放将使学界能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其微调过程产生显著更高的计算成本,速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用[[LLMs]];(2)资源受限或无法承担[[LLMs]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)需要接近最优的效果-效率平衡时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量及张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有[[实验结果]]吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起更主导作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应间的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献尤为显著。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此,本研究的两项主要贡献为:(i)对12种传统与新型ATC方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布包含22个数据集的大规模基准测试(涵盖[[情感分析]]和[[主题分类]]任务),其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的公开使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其微调过程产生显著更高的计算成本——平均耗时分别是传统方法的590倍和[[SLMs]]的8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLMs]];(2)资源受限或无法承担[[LLMs]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选用[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)的计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为考虑奇宇称[[E1算子]]对[[原子轨道]]的微扰作用,计算采用[[线性响应方法]]进行。我们最终获得的$\alpha_d$值(含估计不确定度)与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更主要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),提供基于[[折叠交叉验证]]流程的[[数据划分]]方案、完整[[文档]]及[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将帮助[[研究社区]]复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]]——平均速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)对效果有极致需求且能承担成本的应用选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时可选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),通过[[第一性原理计算]]研究了[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$),以探究[[电子关联效应]]和[[高阶相对论效应]]的影响。为考虑奇宇称[[E1算符]]对[[原子轨道]]的微扰作用,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有[[实验结果]]吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在铯原子$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更重要的作用。通过比较MBPT(3)与RCC结果的差异,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii)发布一个包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大型[[基准测试集]],其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]和[[代码]]。[[代码]]、[[数据]]及[[文档]]的公开将使[[研究社区]]能复现[[实验]]并以更科学的方式推动[[领域]]发展。[[实验]]结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程导致[[计算成本]]显著更高——分别比传统方法和[[SLMs]]平均慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLMs]];(2)[[资源受限]]或无法承担[[LLMs]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的[[近优解]]时可选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算揭示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]。最终获得的含[[不确定度]]估计的$\alpha_d$值与先前[[理论计算]]及现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在[[铯原子]]$\alpha_d$值测定中,[[对关联效应]](PC)比[[核极化效应]](CP)起更主导作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中同样显著。在[[高激发态]]中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大规模[[基准测试集]],其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]和[[代码]]。[[代码]]、[[数据]]及[[文档]]的公开使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但[[微调]]导致的[[算力]]成本显著更高——平均耗时分别为传统方法的590倍和[[SLM]]的8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)需要效果-效率平衡时选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]](Cs)原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起更主要作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。对此,本研究作出双重贡献:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]及[[文档]]的公开将助力学界复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]]——平均耗时分别为传统方法的590倍和[[SLM]]的8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用[[LLM]];(2)资源受限或无法负担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)需要接近最优效果-效率平衡时选用[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]](Cs)原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极]](E1)极化率($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称E1算符对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的含[[不确定度]]估计的$\alpha_d$值与先前[[理论计算]]及现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主要作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]]([[ATC]])在过去十年中取得了显著进展,尤其以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的性能优势是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),所有数据集均采用[[折叠交叉验证]]划分[[训练]]-[[验证]]-[[测试集]],并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将助力学界以更科学的方式复现实验并推动领域发展。实验结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]]——平均耗时分别为传统方法的590倍和[[SLM]]的8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡时选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]]([[Cs]])原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极]]([[E1]])[[极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]]([[DHF]])方法、[[二阶微扰理论]]([[MBPT(2)]]、[[三阶微扰理论]]([[MBPT(3)]]、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇]]([[RCCSD]])方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]。最终获得的含[[不确定度]]估计的$\alpha_d$值与先前[[理论计算]]及现有[[实验]]结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明:在[[铯原子]]$\alpha_d$值的确定中,[[对关联效应]]([[PC]])比[[核心极化效应]]([[CP]])起更主要作用。通过比较[[MBPT(3)]]与[[RCC]]结果,我们发现[[PC]]与[[CP]]效应的关联效应以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献相当显著。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLMs]]和[[LLMs]])为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]])的大规模[[基准测试]]集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的公开使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但[[微调]]导致的算力成本显著更高——平均耗时分别为传统方法的590倍和[[SLMs]]的8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用[[LLMs]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)需要接近最优的效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验结果]]吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更主要的作用。通过比较MBPT(3)与RCC结果发现,PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献相当可观。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]]——平均速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时选用[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),我们研究了[[铯原子]](Cs)中若干偶宇称和奇宇称态在标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算子对[[原子轨道]]的微扰影响,计算采用[[线性响应理论]]框架。最终获得的含不确定度评估的$\alpha_d$值与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主导作用。通过对比MBPT(3)与RCC结果,我们发现PC与CP效应的关联效应以及双重CP效应在这些计算中同样具有显著影响。此外,[[Breit相互作用]]对高激发态的贡献尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开使[[研究社区]]能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]]——平均耗时分别为传统方法的590倍和[[SLMs]]的8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用[[LLMs]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选择[[Roberta]]等[[SLMs]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过使用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),我们研究了[[铯]](Cs)中若干偶宇称和奇宇称态的标量和张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为考虑奇宇称E1算符对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。我们最终获得的$\alpha_d$值(含估计不确定度)与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在铯原子$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的关联效应以及双重CP效应在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此,本研究的两项主要贡献为:(i)对12种传统与新兴ATC方案(含5个开源LLMs)进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]]的大规模[[基准测试]](涵盖[[情感分析]]和[[主题分类]]任务),其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将帮助[[研究社区]]复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:LLMs在效果上优于传统方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],平均速度分别比传统方法和SLMs慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的场景选用LLMs;(2)资源受限或无法承担LLMs调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求接近最优效果-效率平衡时选择[[Roberta]]等SLMs。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过使用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),我们研究了[[铯]](Cs)中若干偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为考虑奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在[[铯原子]]$\alpha_d$值的确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起着更主要的作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应之间的关联性以及[[双重CP效应]]在这些计算中也具有显著影响。此外,[[Breit相互作用]]对[[高激发态]]的贡献尤为显著。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究的两项主要贡献是:(i)对12种传统及新型ATC解决方案(包括5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii)发布一个包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大型[[基准测试]]集,其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]和[[代码]]。[[代码]]、[[数据]]及[[文档]]的公开将使[[研究社区]]能够复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程导致[[计算成本]]显著更高——分别比传统方法和[[SLM]]平均慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时可选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算揭示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),通过[[第一性原理计算]]研究了[[铯原子]](Cs)多个低激发偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算符对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在铯原子极化率测定中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主导作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的关联效应以及双重CP效应在这些计算中同样具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]])的大规模[[基准测试]]集,其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLM]];(2)资源受限或无法承担[[LLM]][[调优]]成本的应用选用[[逻辑回归]]、[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时可选用[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]](Cs)原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主要作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应的[[关联效应]]以及[[双重CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期方法在效果上有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]])的大规模[[基准测试集]],其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将使学界能以更科学的方式复现实验并推动领域发展。实验结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLM]];(2)资源受限或无法承担[[LLM]][[调优]]成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时选用[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:通过采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD),我们研究了[[铯原子]](Cs)中若干偶宇称和奇宇称态在标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算子对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明:在铯原子$\alpha_d$值的确定过程中,[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主导作用。通过对比MBPT(3)与RCC结果,我们发现PC与CP效应之间的[[关联效应]]以及[[双重CP效应]]在这些计算中同样具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献表现得尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型语言模型([[SLM]]s和[[LLM]]s)为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的成本效益分析,以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴[[ATC]]方案(含5个开源[[LLM]])进行科学严谨的成本效益对比分析;(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]])的大规模[[基准测试]]集,其训练-验证-测试划分基于[[折叠交叉验证]]流程,并配套文档与代码。代码、数据和文档的公开使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但[[微调]]导致的[[算力]]成本显著更高——分别比传统方法和[[SLM]]平均慢590倍和8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)需要接近最优效果-效率平衡时选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]]([[Cs]])原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]]([[DHF]])方法、[[二阶微扰理论]]([[MBPT(2)]])、[[三阶微扰理论]]([[MBPT(3)]])、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇]]([[RCCSD]])方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰影响,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明:在[[铯]]原子$\alpha_d$值的确定过程中,[[电子对关联]]([[PC]])效应比[[核心极化]]([[CP]])效应起更主要作用。通过比较[[MBPT(3)]]与[[RCC]]结果,我们发现[[PC]]与[[CP]]效应间的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高[[激发态]]中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLM]]s和[[LLM]]s)为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益对比分析]];(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]])的大型[[基准测试集]],其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明:[[LLM]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLM]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLM]]慢590倍和8.5倍。由此提出建议:(1)追求最佳效果且能承担成本时选用[[LLM]];(2)资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法;(3)需要接近最优的效果-效率平衡时选择[[Roberta]]等[[SLM]]。 == 摘要 == * '''原文标题''':Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations * '''中文标题''':通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势 * '''发布日期''':2025-04-02 07:10:28+00:00 * '''作者''':A. Chakraborty, B. K. Sahoo * '''分类''':physics.atom-ph, quant-ph *'''原文链接''':http://arxiv.org/abs/2504.01418v1 '''中文摘要''':摘要:在[[铯]](Cs)原子多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中,我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇]](RCCSD)方法,探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰,计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明,在铯原子$\alpha_d$值确定过程中,[[对关联效应]](PC)比[[核心极化效应]](CP)起更主导作用。通过比较MBPT(3)与RCC结果,我们发现PC与CP效应间的关联以及[[双CP效应]]在这些计算中也具有显著影响。此外,在高激发态中,[[Breit相互作用]]的贡献尤为突出。 == 摘要 == * '''原文标题''':A thorough benchmark of automatic text classification: From traditional approaches to large language models * '''中文标题''':自动文本分类的全面基准测试:从传统方法到大语言模型 * '''发布日期''':2025-04-02 17:40:08+00:00 * '''作者''':Washington Cunha, Leonardo Rocha, Marcos André Gonçalves * '''分类''':cs.CL, cs.AI *'''原文链接''':http://arxiv.org/abs/2504.01930v1 '''中文摘要''':[[自动文本分类]](ATC)在过去十年中取得了显著进展,以基于[[Transformer架构]]的小型及大型[[语言模型]]([[SLMs]]和[[LLMs]])为典型代表。尽管近期效果有所提升,但文献中仍缺乏全面的[[成本效益分析]],以验证这些新方法相较于[[支持向量机]]([[SVM]])和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此,本研究作出双重贡献:(i)对12种传统与新兴ATC方案(含5个开源[[LLM]])进行科学严谨的[[成本效益]]对比分析;(ii)发布包含22个[[数据集]](涵盖[[情感分析]]和[[主题分类]]任务)的大型[[基准测试]]集,其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程,并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的开放将使学界能复现实验并以更科学的方式推动领域发展。实验结果表明:[[LLMs]]在效果上优于传统方法(平均提升26%-7.1%)和[[SLMs]](平均提升4.9%-1.9%),但因其[[微调]]过程产生显著更高的[[计算成本]],速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议:(1)对效果要求极致且能承担成本的应用选用[[LLMs]];(2)资源受限或无法承担[[LLMs]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法;(3)追求效果-效率平衡的近优解时选用[[Roberta]]等[[SLMs]]。
返回
WikiEdge:ArXiv速递/2025-04-02
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息