查看“WikiEdge:ArXiv速递/2025-04-02”的源代码

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：地理视角下的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答]]（GeoQA）通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题，阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架，该知识增强型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]（RAG）技术，以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件：（1）基于3267份语料（[[研究论文]]、[[专著]]与[[技术报告]]）构建结构化[[地理知识库]]，通过[[多智能体]]方法归类为[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度，最终生成145234条分类条目与875432组多维[[问答对]]；（2）基于[[BERT-Base-Chinese]]的[[多标签文本分类器]]，用于通过[[地理维度]]分类解析[[查询类型]]；（3）利用[[问答对]]数据的[[检索评估器]]，优化[[查询-文档相关性]]判定以提升[[检索精度]]；（4）[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]]，通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]]，验证了其[[泛化能力]]。本研究通过提出[[领域专用]]大语言模型部署新范式，推动[[地理人工智能]]发展，对提升现实场景中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。

== 摘要 ==
* '''原文标题'''：A Unified Approach to Analysis and Design of Denoising Markov Models
* '''中文标题'''：去噪马尔可夫模型分析与设计的统一方法
* '''发布日期'''：2025-04-02 17:46:43+00:00
* '''作者'''：Yinuo Ren, Grant M. Rotskoff, Lexing Ying
* '''分类'''：cs.LG, cs.NA, math.NA, stat.ML
*'''原文链接'''：http://arxiv.org/abs/2504.01938v1
'''中文摘要'''：基于[[测度传输]]的[[概率生成模型]]（如[[扩散模型]]和基于[[流]]的模型）通常采用[[马尔可夫随机过程|马尔可夫随机动力学]]语言进行表述，其中底层过程的选择同时影响[[算法设计]]决策和[[理论分析]]。本文旨在为[[去噪马尔可夫模型]]建立严格的[[数学基础]]——这类生成模型假设存在从前向过程（从[[目标分布]]过渡到简单易采样分布）与特别构建的后向过程（实现逆向高效采样）。通过与[[非平衡统计力学]]及广义[[Doob's h-变换]]的深层联系，我们提出一组最小假设条件以确保：(1) 后向生成算子的显式构造，(2) 直接最小化测度传输差异的[[统一变分目标]]，(3) 经典[[分数匹配]]方法在不同动力学中的适应性实现。本框架统一了连续/离散[[扩散模型]]的现有表述，在正向生成算子满足特定[[正则性假设]]下识别出[[去噪马尔可夫模型]]的最一般形式，并为任意[[Lévy过程|Lévy型过程]]驱动的去噪模型设计提供了系统化方案。我们通过采用[[几何布朗运动]]和[[跳跃过程]]作为前向动力学的新型去噪模型，展示了该框架在复杂分布建模中的潜在灵活性与效能。

== 摘要 ==
* '''原文标题'''：Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
* '''中文标题'''：通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势
* '''发布日期'''：2025-04-02 07:10:28+00:00
* '''作者'''：A. Chakraborty, B. K. Sahoo
* '''分类'''：physics.atom-ph, quant-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01418v1
'''中文摘要'''：在[[铯原子]](Cs)多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)的计算中，我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD)，探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰影响，计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明：在[[铯原子]]$\alpha_d$值的确定过程中，[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主要的作用。通过比较MBPT(3)与RCC结果，我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中同样具有显著影响。此外，在高[[激发态]]中，[[Breit相互作用]]的贡献表现得尤为突出。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（[[ATC]]）在过去十年中取得了显著进展，以基于[[Transformer架构]]的小型及大型[[语言模型]]（[[SLMs]]和[[LLMs]]）为典型代表。尽管近期在效果上有所提升，但文献中仍缺乏全面的[[成本效益分析]]，以评估这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此，本研究的两项主要贡献是：（i）对12种传统与新兴[[ATC]]方案（包括5个开源[[LLM]]）进行科学严谨的[[成本效益对比分析]]；（ii）构建包含22个[[数据集]]的大规模[[基准测试集]]（涵盖[[情感分析]]和[[主题分类]]任务），其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程，并配套[[文档]]和[[代码]]。通过公开[[代码]]、[[数据]]及[[文档]]，本研究支持学界以更科学的方式复现实验并推动领域发展。实验结果表明：[[LLMs]]在效果上优于传统方法（平均提升26%-7.1%）和[[SLMs]]（平均提升4.9%-1.9%），但因其[[微调]]过程导致[[计算成本]]显著更高——分别比传统方法和[[SLMs]]平均慢590倍和8.5倍。由此提出建议：（1）对效果要求极致且能承担成本的场景选用[[LLMs]]；（2）资源受限或无法承担[[LLMs]]调优成本的场景选用[[逻辑回归]]/[[SVM]]等传统方法；（3）追求接近最优效果-效率平衡时选用[[Roberta]]等[[SLMs]]。

== 摘要 ==
* '''原文标题'''：Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
* '''中文标题'''：基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学
* '''发布日期'''：2025-04-02 11:42:03+00:00
* '''作者'''：Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
* '''分类'''：physics.optics
*'''原文链接'''：http://arxiv.org/abs/2504.01636v1
'''中文摘要'''：[[原子力显微镜]]（[[AFM]]）相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力，但现有[[鲁棒数据集]]和[[自动化分析工具]]仍较为匮乏。本文提出了一种基于[[高维数据集]]的新型材料识别方法，该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取逐渐增加[[针尖-样品距离]]时的50个相位值，最终形成50×50×50[[体素]]图像以表征不同深度的相位变化。利用该数据集，我们比较了[[k近邻]]（[[KNN]]）、[[随机森林]]（[[RF]]）和[[前馈神经网络]]（[[FNN]]）在材料分割中的表现。结果表明，FNN具有最高的[[准确率]]和[[F1分数]]，优于传统方法。最后，我们通过生成虚拟[[散射型扫描近场光学显微镜]]（[[s-SNOM]]）图像验证了分割图的实际价值，揭示了如何利用AFM相位趋近曲线构建用于纳米尺度[[光学分析]]的精细化预测工具。

== 摘要 ==
* '''原文标题'''：Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
* '''中文标题'''：Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性
* '''发布日期'''：2025-04-02 01:49:58+00:00
* '''作者'''：Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
* '''分类'''：cond-mat.mtrl-sci, physics.app-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01291v1
'''中文摘要'''：我们报道了超宽禁带([[UWBG]]) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-介质-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的高[[电场]]至关重要。通过系统实验，我们测定了半导体[[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、介质/[[界面]]特性及电场分布。在[[金属-氧化物-半导体结构]]中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属-半导体-绝缘体]]测试结构在[[沟道]]面电荷密度为1.27×1013 cm-2时，击穿电压超过1 kV。有效峰值电场与平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]]击穿性能的潜力。

== 摘要 ==
* '''原文标题'''：Study of scaling laws in language families
* '''中文标题'''：语言家族中的标度律研究
* '''发布日期'''：2025-04-02 12:28:59+00:00
* '''作者'''：Maelyson R. F. Santos, Marcelo A. F. Gomes
* '''分类'''：physics.soc-ph, cs.CL
*'''原文链接'''：http://arxiv.org/abs/2504.01681v1
'''中文摘要'''：本文利用来自六千多种[[语言]]的数据，通过分析[[齐普夫式分类图]]中涌现的模式，研究[[语言家族]]中的[[标度律]]现象。研究从宏观（基于各[[语系]]包含的语言数量）和微观（基于语系中各语言的使用者数量）两个维度考察了这些分类特征。尤其值得注意的是，在排除[[亚非语系]]和[[尼罗-撒哈拉语系]]后，研究发现当代十四大语系存在明显分化现象——这些语系分布在三个[[语系四重奏组]]中，每组在[[齐普夫图]]中均表现出显著不同的[[指数]]特征。该发现揭示了主要语系的底层结构与组织方式，为理解[[语言多样性]]和分布的本质提供了新的见解。

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：基于地理视角的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答系统]]([[GeoQA]])通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等缺陷，阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]——一个整合[[领域微调]]、[[提示工程]]与[[检索增强生成]]([[RAG]])技术的[[知识增强]]型问答框架，旨在提升[[地理知识]]检索精度与[[用户交互]]体验。该框架包含四个核心组件：(1)基于3267份语料([[研究论文]]、[[专著]]与[[技术报告]])构建的[[结构化知识库]]，通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]及[[作用机制]]七个维度，最终形成145234条分类条目与875432组多维[[问答对]]；(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]]，用于通过[[地理维度]]分类解析[[查询类型]]；(3)利用[[问答对]]数据评估[[查询-文档相关性]]的[[检索评估模块]]，优化[[检索精度]]；(4)[[GeoPrompt]]模板引擎，动态整合[[用户查询]]与[[检索信息]]，通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]]，验证了其[[泛化能力]]。本研究通过提出[[领域特定]]场景下部署[[大语言模型]]的新范式，推动[[地理人工智能]]发展，对提升现实应用中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有重要价值。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（[[ATC]]）在过去十年中取得了显著进展，以基于[[Transformer架构]]的[[小型及大型语言模型]]（[[SLMs]]和[[LLMs]]）为典型代表。尽管近期效果有所提升，但文献中仍缺乏全面的[[成本效益分析]]，以验证这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此，本研究的两项主要贡献是：(i) 对12种传统与新兴[[ATC]]方案（含5个开源[[LLM]]）进行科学严谨的[[成本效益]]对比分析；(ii) 发布包含22个[[数据集]]的大规模[[基准测试]]（涵盖[[情感分析]]和[[主题分类]]任务），提供基于[[折叠交叉验证]]的[[数据划分]]方案、完整[[文档]]及[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将助力学界复现实验并以更科学的方式推动领域发展。实验结果表明：[[LLMs]]在效果上优于传统方法（平均提升26%-7.1%）和[[SLMs]]（平均提升4.9%-1.9%），但因其[[微调]]过程产生显著更高的[[计算成本]]，平均速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议：(1) 对效果要求极致且能承担成本的场景选用[[LLMs]]；(2) 资源受限或无法承担[[LLM]]调优成本的场景选用[[逻辑回归]]/[[SVM]]等传统方法；(3) 追求效果-效率平衡时选择[[Roberta]]等[[SLMs]]。

== 摘要 ==
* '''原文标题'''：Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
* '''中文标题'''：基于第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势
* '''发布日期'''：2025-04-02 07:10:28+00:00
* '''作者'''：A. Chakraborty, B. K. Sahoo
* '''分类'''：physics.atom-ph, quant-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01418v1
'''中文摘要'''：摘要：在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中，我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD)，探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰，计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明：在[[铯原子]]$\alpha_d$值的确定过程中，[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主导作用。通过比较MBPT(3)与RCC结果的差异，我们发现PC与CP效应之间的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外，在高[[激发态]]中，[[Breit相互作用]]的贡献表现得尤为突出。

== 摘要 ==
* '''原文标题'''：Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
* '''中文标题'''：基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学
* '''发布日期'''：2025-04-02 11:42:03+00:00
* '''作者'''：Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
* '''分类'''：physics.optics
*'''原文链接'''：http://arxiv.org/abs/2504.01636v1
'''中文摘要'''：[[原子力显微镜]]（[[AFM]]）相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力，但现有[[鲁棒性|鲁棒]]数据集和[[自动化分析]]工具较为匮乏。本文提出了一种利用[[高维数据]]集进行[[材料识别]]的新方法，该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取50个在[[探针]]-样品间距递增时的相位值，最终形成50×50×50[[体素]]图像以表征不同深度的相位变化。基于此数据集，我们比较了[[K近邻]]（[[KNN]]）、[[随机森林]]（[[RF]]）和[[前馈神经网络]]（[[FNN]]）在[[材料分割]]中的表现。结果表明FNN具有最高的[[准确率]]和[[F1分数]]，优于传统方法。最后，我们通过生成虚拟[[散射型扫描近场光学显微镜]]（[[s-SNOM]]）图像验证了分割图的[[实际价值]]，揭示了如何利用AFM相位趋近曲线构建[[纳米级]]光学分析的精细化[[预测工具]]。

== 摘要 ==
* '''原文标题'''：Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
* '''中文标题'''：Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性
* '''发布日期'''：2025-04-02 01:49:58+00:00
* '''作者'''：Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
* '''分类'''：cond-mat.mtrl-sci, physics.app-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01291v1
'''中文摘要'''：我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]和[[击穿特性]]。[[金属-介质-半导体结构]]对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验，我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的[[固定电荷密度]](> 1013 cm-2)、[[介质/界面特性]]及[[电场分布]]。在[[金属-氧化物-半导体结构]]中获得了低至5×10-7 A/cm2的[[栅漏电流]]。[[横向金属-半导体-绝缘体测试结构]]中，在1.27×1013 cm-2的[[沟道面电荷密度]]下实现了超过1 kV的[[击穿电压]]。有效峰值[[电场]]和平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：地理视角下的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答系统]]([[GeoQA]])通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等缺陷，阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架，该[[知识增强]]型[[问答系统]]融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]([[RAG]])技术，以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件：(1)基于3267份[[语料]]([[研究论文]]、[[专著]]和[[技术报告]])构建结构化[[地理知识库]]，通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]和[[运行机制]]七个维度，最终形成145234条分类条目和875432组多维[[问答对]]；(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]]，用于通过[[地理维度]]分类解析[[查询类型]]；(3)利用[[问答对]]数据的[[检索评估器]]，优化[[查询-文档相关性]]判定；(4)[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]]，通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]]，验证了其[[泛化能力]]。本研究通过提出[[领域特定]]场景下[[大语言模型]]部署新范式，推动[[地理人工智能]]发展，对提升现实应用中[[GeoQA]]系统的[[可扩展性]]和[[准确性]]具有重要价值。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（[[ATC]]）在过去十年中取得了显著进展，其中以基于[[Transformer架构]]的[[小型及大型语言模型]]（[[SLMs]]和[[LLMs]]）最为典型。尽管近期方法在效果上有所提升，但文献中仍缺乏全面的[[成本效益分析]]，以验证这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。对此，本研究的主要贡献包括：（i）对12种传统与新兴[[ATC]]方案（含5个开源[[LLM]]）进行科学严谨的[[成本效益]]对比分析；（ii）构建包含22个[[数据集]]的大规模[[基准测试集]]（涵盖[[情感分析]]和[[主题分类]]任务），其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程，并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的发布使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明：[[LLMs]]在效果上优于传统方法（平均提升26%-7.1%）和[[SLMs]]（平均提升4.9%-1.9%），但因其[[微调]]过程产生显著更高的[[计算成本]]，平均速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议：（1）对效果要求极致且能承担成本的场景选用[[LLMs]]；（2）[[资源受限]]或无法承担[[LLM]]调优成本的场景选用[[逻辑回归]]/[[SVM]]等传统方法；（3）追求接近最优效果-效率平衡时选用[[Roberta]]等[[SLMs]]。

== 摘要 ==
* '''原文标题'''：Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
* '''中文标题'''：通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势
* '''发布日期'''：2025-04-02 07:10:28+00:00
* '''作者'''：A. Chakraborty, B. K. Sahoo
* '''分类'''：physics.atom-ph, quant-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01418v1
'''中文摘要'''：摘要：本研究采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD)，通过[[第一性原理计算]]探究了[[铯原子]](Cs)中多个[[偶宇称]]和[[奇宇称]]态[[标量]]与[[张量]]静态[[电偶极极化率]]($\alpha_d$)的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰影响，计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明：在铯原子$\alpha_d$值的确定过程中，[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主导作用。通过对比MBPT(3)与RCC结果，我们发现PC与CP效应间的[[关联效应]]以及[[双CP效应]]在这些计算中同样具有显著影响。此外，在[[高激发态]]中，[[Breit相互作用]]的贡献表现得尤为突出。

== 摘要 ==
* '''原文标题'''：Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
* '''中文标题'''：基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学
* '''发布日期'''：2025-04-02 11:42:03+00:00
* '''作者'''：Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
* '''分类'''：physics.optics
*'''原文链接'''：http://arxiv.org/abs/2504.01636v1
'''中文摘要'''：[[原子力显微镜]]（[[AFM]]）相位趋近曲线在纳米级[[材料表征]]方面具有重要潜力，但现有[[鲁棒数据集]]和[[自动化分析工具]]较为匮乏。本文提出一种基于[[高维数据集]]的新[[材料识别]]方法，该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的[[AFM]]相位趋近曲线。每次测量获取50个随[[探针]]-[[样品]]距离递增的[[相位]]值，最终形成50×50×50[[体素]][[图像]]以表征不同深度的[[相位变化]]。利用该数据集，我们比较了[[k近邻]]（[[KNN]]）、[[随机森林]]（[[RF]]）和[[前馈神经网络]]（[[FNN]]）在[[材料分割]]中的表现。结果表明[[FNN]]具有最高的[[准确率]]和[[F1分数]]，优于传统方法。最后通过生成虚拟[[散射型扫描近场光学显微镜]]（[[s-SNOM]]）图像，我们验证了这些[[分割图]]的实际价值，揭示了如何利用[[AFM]]相位趋近曲线构建用于纳米级[[光学分析]]的精细化[[预测工具]]。

== 摘要 ==
* '''原文标题'''：Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
* '''中文标题'''：Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性
* '''发布日期'''：2025-04-02 01:49:58+00:00
* '''作者'''：Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
* '''分类'''：cond-mat.mtrl-sci, physics.app-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01291v1
'''中文摘要'''：我们报道了[[超宽带隙]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属-介质-半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的高[[电场]]至关重要。通过系统实验，我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面]]特性及内部[[电场]]。[[金属-氧化物-半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。在横向[[金属-半导体-绝缘体]]测试结构中，当[[沟道]]面[[电荷密度]]为1.27×1013 cm-2时，[[击穿电压]]超过1 kV。有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]]集成对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿]]性能的潜力。

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：地理视角下的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答]]（GeoQA）通过处理[[地理]]领域的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题，阻碍了精准[[信息获取]]。本研究提出GeoRAG框架，该知识增强型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]（RAG）技术，以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件：（1）基于3267份语料（[[研究论文]]、[[专著]]与[[技术报告]]）构建结构化[[地理知识库]]，通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度，最终生成145234条分类条目及875432组多维问答对；（2）基于[[BERT-Base-Chinese]]训练的[[多标签文本分类器]]，通过[[地理维度]]分类解析查询类型；（3）利用问答对数据评估查询-文档相关性的[[检索评估器]]，优化检索精度；（4）[[GeoPrompt]]模板动态整合用户查询与检索信息，通过[[维度特异性]]提示提升响应质量。对比实验表明GeoRAG在多个基础模型上均优于传统RAG，验证了其[[泛化能力]]。本研究通过提出领域专用[[大语言模型]]部署新范式，推动[[地理人工智能]]发展，对提升现实应用中GeoQA系统的[[可扩展性]]与[[准确性]]具有重要价值。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（ATC）在过去十年中取得了显著进展，以基于[[Transformer架构]]的小型及大型[[语言模型]]（[[SLMs]]和[[LLMs]]）为典型代表。尽管近期在效果上有所提升，但文献中仍缺乏全面的[[成本效益分析]]，以验证这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。为此，本研究的两项主要贡献在于：（i）对12种传统与新兴[[ATC]]方案（含5个开源[[LLMs]]）进行科学严谨的[[成本效益]]对比分析；（ii）发布包含22个[[数据集]]（涵盖[[情感分析]]和[[主题分类]]任务）的大型[[基准测试]]集，其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程，并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开使[[研究社区]]能复现[[实验]]并以更科学的方式推动领域发展。[[实验]]结果表明：[[LLMs]]在效果上优于传统方法（平均提升26%-7.1%）和[[SLMs]]（平均提升4.9%-1.9%），但因其[[微调]]过程产生显著更高的[[计算成本]]，速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议：（1）对效果要求极致且能承担成本的应用选用[[LLMs]]；（2）资源受限或无法承担[[LLMs]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法；（3）追求接近最优效果-效率平衡时选择[[Roberta]]等[[SLMs]]。

== 摘要 ==
* '''原文标题'''：An Explainable Reconfiguration-Based Optimization Algorithm for Industrial and Reliability-Redundancy Allocation Problems
* '''中文标题'''：面向工业与可靠性冗余分配问题的可解释重构优化算法
* '''发布日期'''：2025-04-02 03:33:48+00:00
* '''作者'''：Dikshit Chauhan, Nitin Gupta, Anupam Yadav
* '''分类'''：cs.AI, cs.NE
*'''原文链接'''：http://arxiv.org/abs/2504.01331v1
'''中文摘要'''：[[工业]]与[[可靠性优化]]问题通常涉及复杂[[约束条件]]，并需要高效、可解释的解决方案。本文提出[[AI-AEFA算法]]——一种基于[[参数重构]]的[[高级元启发式算法]]，专为解决大规模[[工业优化]]及[[可靠性-冗余分配问题]]而设计。该算法通过创新的[[对数S型参数自适应机制]]和[[混沌映射策略]]，显著提升了[[搜索空间]]探索能力与[[收敛效率]]。研究在28个[[IEEE CEC 2017]]约束基准问题、15个大规模[[工业优化问题]]及7个[[可靠性-冗余分配问题]]上验证了算法性能，结果表明其在[[可行性]]、[[计算效率]]和[[收敛速度]]方面均优于现有最先进[[优化技术]]。本工作的另一关键贡献是集成[[SHAP]]（[[Shapley加性解释]]）方法以增强[[AI-AEFA]]的[[可解释性]]，通过分析[[库仑常数]]、[[电荷量]]、[[加速度]]及[[静电力]]等关键参数的影响机制，为优化过程中的[[决策行为]]提供透明化解读。实验证实[[AI-AEFA]]是一种兼具[[鲁棒性]]、[[可扩展性]]和[[可解释性]]的[[优化工具]]，具有重要的实际[[应用价值]]。

== 摘要 ==
* '''原文标题'''：Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
* '''中文标题'''：通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势
* '''发布日期'''：2025-04-02 07:10:28+00:00
* '''作者'''：A. Chakraborty, B. K. Sahoo
* '''分类'''：physics.atom-ph, quant-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01418v1
'''中文摘要'''：摘要：本研究采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD)，通过[[第一性原理计算]]探究了[[铯原子]](Cs)中多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算子对[[原子轨道]]的微扰，计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值（含估计不确定度）与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明：在铯原子极化率测定中，[[对关联]](PC)效应比[[核心极化]](CP)效应起更主导作用。通过对比MBPT(3)与RCC结果，我们发现PC与CP效应的关联效应以及双CP效应在这些计算中同样具有显著影响。此外，在高激发态中，[[Breit相互作用]]的贡献尤为突出。

== 摘要 ==
* '''原文标题'''：Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
* '''中文标题'''：基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学
* '''发布日期'''：2025-04-02 11:42:03+00:00
* '''作者'''：Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
* '''分类'''：physics.optics
*'''原文链接'''：http://arxiv.org/abs/2504.01636v1
'''中文摘要'''：[[原子力显微镜]]（[[AFM]]）相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力，但现有[[鲁棒数据集]]和[[自动化分析工具]]仍较为有限。本文提出了一种基于[[高维数据集]]的新型材料识别方法，该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取50个随[[探针]]-[[样品]]距离递增的相位值，最终形成50x50x50[[体素]][[图像]]以表征不同深度的相位变化。利用该数据集，我们比较了[[k近邻]]（[[KNN]]）、[[随机森林]]（[[RF]]）和[[前馈神经网络]]（[[FNN]]）在材料分割中的表现。结果表明FNN具有最高的[[准确率]]和[[F1分数]]，优于传统方法。最后，我们通过生成虚拟[[散射型扫描近场光学显微镜]]（[[s-SNOM]]）图像验证了分割图的[[实际价值]]，揭示了如何利用AFM相位趋近曲线构建[[纳米级]][[光学分析]]的精细化[[预测工具]]。

== 摘要 ==
* '''原文标题'''：Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
* '''中文标题'''：Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性
* '''发布日期'''：2025-04-02 01:49:58+00:00
* '''作者'''：Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
* '''分类'''：cond-mat.mtrl-sci, physics.app-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01291v1
'''中文摘要'''：我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-[[介电]]-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验，我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介电]]/[[界面特性]]及[[电场分布]]。在[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属]]-[[半导体]]-[[绝缘体]][[测试结构]]在[[沟道]][[面电荷密度]]为1.27×1013 cm-2时，[[击穿电压]]超过1 kV。有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：基于地理视角的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答]]（GeoQA）通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题，阻碍了精准[[信息获取]]。本研究提出GeoRAG框架，该[[知识增强]]型问答系统结合[[领域微调]]、[[提示工程]]与[[检索增强生成]]（RAG）技术，以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件：（1）基于3267份语料（[[研究论文]]、[[专著]]与[[技术报告]]）构建结构化[[地理知识库]]，通过[[多智能体]]方法归类为七个维度：[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[作用机制]]，最终生成145234条分类条目及875432组多维[[问答对]]；（2）基于[[BERT-Base-Chinese]]的[[多标签文本分类器]]，用于通过[[地理维度]]分类解析[[查询类型]]；（3）利用[[问答对]]数据的[[检索评估器]]，优化[[查询-文档相关性]]判定以提升[[检索精度]]；（4）[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]]，通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG，验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式，推动[[地理人工智能]]发展，对提升现实场景中GeoQA系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（ATC）在过去十年中取得了显著进展，以基于[[Transformer架构]]的小型及大型[[语言模型]]（[[SLMs]]和[[LLMs]]）为典型代表。尽管近期在效果上有所提升，但文献中仍缺乏全面的[[成本效益分析]]，以验证这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。对此，本研究的主要贡献包括：（i）对12种传统与新兴ATC方案（含5个开源[[LLMs]]）进行科学严谨的[[成本效益]]对比分析；（ii）发布包含22个[[数据集]]的大规模[[基准测试]]（涵盖[[情感分析]]和[[主题分类]]任务），其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程，并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将使学界能复现实验并以更科学的方式推动领域发展。实验结果表明：[[LLMs]]在效果上优于传统方法（平均提升26%-7.1%）和[[SLMs]]（平均提升4.9%-1.9%），但因其[[微调]]过程产生显著更高的[[计算成本]]，速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议：（1）对效果要求极致且能承担成本的应用选用[[LLMs]]；（2）资源受限或无法承担[[LLMs]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法；（3）追求接近最优效果-效率平衡时选用[[Roberta]]等[[SLMs]]。

== 摘要 ==
* '''原文标题'''：Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
* '''中文标题'''：通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势
* '''发布日期'''：2025-04-02 07:10:28+00:00
* '''作者'''：A. Chakraborty, B. K. Sahoo
* '''分类'''：physics.atom-ph, quant-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01418v1
'''中文摘要'''：摘要：本研究采用[[狄拉克-哈特里-福克方法]]([[DHF]])、[[二阶微扰理论]]([[MBPT(2)]])、[[三阶微扰理论]]([[MBPT(3)]])、[[随机相位近似]]([[RPA]])以及[[单双激发近似相对论耦合簇方法]]([[RCCSD]])，通过[[第一性原理计算]]探讨了[[铯原子]]([[Cs]])中若干[[偶宇称]]和[[奇宇称]]态标量与张量静态[[电偶极极化率]]($\alpha_d$)的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算子]]对[[原子轨道]]的微扰影响，计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。[[DHF]]、[[MBPT(2)]]、[[MBPT(3)]]和[[RPA]]结果间的差异表明：在铯原子极化率测定中，[[电子对关联效应]]([[PC]])比[[核心极化效应]]([[CP]])起更主导作用。通过对比[[MBPT(3)]]与[[RCC]]结果，我们发现[[PC]]与[[CP]]效应间的关联效应以及双[[CP]]效应在这些计算中同样具有显著影响。此外，在高激发态中，[[Breit相互作用]]的贡献尤为突出。

== 摘要 ==
* '''原文标题'''：Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
* '''中文标题'''：基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学
* '''发布日期'''：2025-04-02 11:42:03+00:00
* '''作者'''：Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
* '''分类'''：physics.optics
*'''原文链接'''：http://arxiv.org/abs/2504.01636v1
'''中文摘要'''：[[原子力显微镜]]（[[AFM]]）相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力，但现有[[鲁棒数据集]]和[[自动化分析工具]]较为匮乏。本文提出了一种基于[[高维数据集]]的新颖材料识别方法，该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的[[AFM]]相位趋近曲线。每次测量获取50个随[[探针]]-[[样品]]距离递增的相位值，最终形成50×50×50[[体素]][[图像]]以表征不同深度的相位变化。利用该数据集，我们比较了[[k近邻]]（[[KNN]]）、[[随机森林]]（[[RF]]）和[[前馈神经网络]]（[[FNN]]）在材料分割中的表现。结果表明[[FNN]]具有最高的[[准确率]]和[[F1分数]]，优于传统方法。最后，我们通过生成虚拟[[散射型扫描近场光学显微镜]]（[[s-SNOM]]）图像验证了分割图的[[实际价值]]，揭示了如何利用[[AFM]]相位趋近曲线构建用于[[纳米级]][[光学分析]]的精细化[[预测工具]]。

== 摘要 ==
* '''原文标题'''：Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
* '''中文标题'''：Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性
* '''发布日期'''：2025-04-02 01:49:58+00:00
* '''作者'''：Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
* '''分类'''：cond-mat.mtrl-sci, physics.app-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01291v1
'''中文摘要'''：我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]和[[击穿特性]]。[[金属-介质-半导体]][[结构]]对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验，我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]][[界面特性]]及内部[[电场]]。在[[金属-氧化物-半导体]][[结构]]中获得了低至5×10-7 A/cm2的[[栅漏泄漏电流]]。在横向[[金属-半导体-绝缘体]][[测试结构]]中，当[[沟道]][[面电荷密度]]为1.27×1013 cm-2时，[[击穿电压]]超过1 kV。有效峰值[[电场]]和平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：地理视角下的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答]]（GeoQA）通过处理[[地理]]领域的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题，阻碍了精准[[信息获取]]。本研究提出GeoRAG框架，该知识增强型问答系统结合领域[[微调]]、[[提示工程]]与[[检索增强生成]]（RAG）技术，以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件：（1）基于3267份语料（[[研究论文]]、[[专著]]与[[技术报告]]）构建结构化[[地理知识库]]，通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度，最终生成145234条分类条目与875432组多维问答对；（2）基于[[BERT-Base-Chinese]]的[[多标签文本分类器]]，用于通过[[地理维度]]分类解析查询类型；（3）利用问答对数据的[[检索评估器]]，优化查询-文档相关性判定以提升检索精度；（4）[[GeoPrompt]]模板动态整合用户查询与检索信息，通过维度特异性提示提升响应质量。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG，验证了其[[泛化能力]]。本研究通过提出领域专用[[大语言模型]]部署新范式，推动[[地理人工智能]]发展，对提升现实场景中GeoQA系统的[[可扩展性]]与[[准确性]]具有实践意义。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（ATC）在过去十年中取得了显著进展，其中以基于[[Transformer架构]]的小型及大型[[语言模型]]（[[SLMs]]和[[LLMs]]）最为典型。尽管近期方法在效果上有所提升，但文献中仍缺乏全面的[[成本效益分析]]，以验证这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此，本研究的两项主要贡献为：（i）对12种传统与新型ATC方案（含5个开源[[LLM]]）进行科学严谨的[[成本效益对比分析]]；（ii）发布包含22个[[数据集]]的大规模[[基准测试]]（涵盖[[情感分析]]和[[主题分类]]任务），其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程，并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开使[[研究社区]]能复现实验并以更科学的方式推动领域发展。实验结果表明：[[LLMs]]在效果上优于传统方法（平均提升26%-7.1%）和[[SLMs]]（平均提升4.9%-1.9%），但因其[[微调]]过程产生显著更高的[[计算成本]]，速度分别比传统方法和[[SLMs]]慢590倍和8.5倍。由此提出建议：（1）对效果要求极致且能承担成本的应用选用[[LLMs]]；（2）资源受限或无法承担[[LLMs]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法；（3）追求效果-效率平衡的近优解时可选择[[Roberta]]等[[SLMs]]。

== 摘要 ==
* '''原文标题'''：Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
* '''中文标题'''：基于第一性原理计算展示铯(Cs I)多个低激发态电偶极极化率的关联趋势
* '''发布日期'''：2025-04-02 07:10:28+00:00
* '''作者'''：A. Chakraborty, B. K. Sahoo
* '''分类'''：physics.atom-ph, quant-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01418v1
'''中文摘要'''：摘要：本研究采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD)，系统探究了[[铯原子]](Cs)中若干偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中的[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称E1算符对[[原子轨道]]的微扰影响，计算采用[[线性响应理论]]框架。最终获得的$\alpha_d$值及其不确定度估计与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明：在铯原子极化率测定中，[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主导作用。通过对比MBPT(3)与RCC结果，我们发现PC与CP效应的关联效应以及双CP效应在这些计算中同样具有显著影响。此外，在高激发态中，[[Breit相互作用]]的贡献尤为突出。

== 摘要 ==
* '''原文标题'''：Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
* '''中文标题'''：基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学
* '''发布日期'''：2025-04-02 11:42:03+00:00
* '''作者'''：Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
* '''分类'''：physics.optics
*'''原文链接'''：http://arxiv.org/abs/2504.01636v1
'''中文摘要'''：[[原子力显微镜]]（[[AFM]]）相位趋近曲线在纳米级材料表征方面具有重要潜力，但现有鲁棒数据集和自动化分析工具较为有限。本文提出了一种基于高维数据集的新型材料识别方法，该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取逐渐增加针尖-样品距离时的50个相位值，最终形成50x50x50体素图像以表征不同深度的相位变化。利用该数据集，我们比较了[[K近邻]]（[[KNN]]）、[[随机森林]]（[[RF]]）和[[前馈神经网络]]（[[FNN]]）在材料分割中的表现。结果表明，FNN具有最高的准确率和[[F1分数]]，优于传统方法。最后，我们通过生成虚拟散射型扫描近场光学显微镜（[[s-SNOM]]）图像验证了分割图的实际价值，揭示了如何利用AFM相位趋近曲线构建纳米级光学分析的精细化预测工具。

== 摘要 ==
* '''原文标题'''：Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
* '''中文标题'''：Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性
* '''发布日期'''：2025-04-02 01:49:58+00:00
* '''作者'''：Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
* '''分类'''：cond-mat.mtrl-sci, physics.app-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01291v1
'''中文摘要'''：我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-[[介质]]-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验，我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面]]特性及内部[[电场]]。在[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。横向[[金属]]-[[半导体]]-[[绝缘体]]测试结构在1.27×1013 cm-2[[沟道]][[面电荷密度]]下实现了超过1 kV的[[击穿电压]]，有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：地理视角下的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答]]（GeoQA）通过处理[[地理]]领域的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题，阻碍了精准[[信息获取]]。本研究提出GeoRAG框架，该[[知识增强]]型问答系统结合[[领域微调]]、[[提示工程]]与[[检索增强生成]]（RAG）技术，以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件：（1）基于3267份语料（[[研究论文]]、[[专著]]与[[技术报告]]）构建结构化[[地理知识库]]，通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度，最终生成145234条分类条目及875432组多维[[问答对]]；（2）基于[[BERT-Base-Chinese]]的[[多标签文本分类器]]，用于通过[[地理维度]]分类解析[[查询类型]]；（3）利用[[问答对]]数据的[[检索评估器]]，优化[[查询-文档相关性]]判定以提升[[检索精度]]；（4）[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息，通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明GeoRAG在多个[[基础模型]]上均优于传统RAG，验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式，推动[[地理人工智能]]发展，对提升现实场景中GeoQA系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（ATC）在过去十年中取得了显著进展，以基于[[Transformer架构]]的小型及大型[[语言模型]]（[[SLM]]s和[[LLM]]s）为典型代表。尽管近期方法在效果上有所提升，但文献中仍缺乏全面的[[成本效益分析]]，以验证这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此，本研究的主要贡献包括：（i）对12种传统与新型ATC方案（含5个开源LLM）进行科学严谨的[[成本效益对比分析]]；（ii）发布包含22个[[数据集]]的大规模[[基准测试]]（涵盖[[情感分析]]和[[主题分类]]任务），其[[训练]]-[[验证]]-[[测试]]划分基于[[交叉验证]]流程，并配套[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的开放将使学界能复现实验并以更科学的方式推动领域发展。实验结果表明：LLM在效果上优于传统方法（平均提升26%-7.1%）和SLM（平均提升4.9%-1.9%），但因其[[微调]]过程导致[[计算成本]]激增，分别比传统方法和SLM平均慢590倍和8.5倍。由此提出建议：（1）对效果要求极致且能承担成本的场景选用LLM；（2）资源受限或无法承担LLM调优成本的场景选用逻辑回归/SVM等传统方法；（3）追求接近最优效果-效率平衡时选用[[Roberta]]等SLM。

== 摘要 ==
* '''原文标题'''：Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
* '''中文标题'''：通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势
* '''发布日期'''：2025-04-02 07:10:28+00:00
* '''作者'''：A. Chakraborty, B. K. Sahoo
* '''分类'''：physics.atom-ph, quant-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01418v1
'''中文摘要'''：摘要：在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中，我们采用[[狄拉克-哈特里-福克]](DHF)方法、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双近似相对论耦合簇]](RCCSD)方法，探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰，计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前[[理论计算]]和现有[[实验]]结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明：在铯原子$\alpha_d$值的确定过程中，[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主要作用。通过比较MBPT(3)与RCC结果，我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中也具有显著影响。此外，在高[[激发态]]中，[[Breit相互作用]]的贡献表现得尤为突出。

== 摘要 ==
* '''原文标题'''：Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
* '''中文标题'''：基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学
* '''发布日期'''：2025-04-02 11:42:03+00:00
* '''作者'''：Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
* '''分类'''：physics.optics
*'''原文链接'''：http://arxiv.org/abs/2504.01636v1
'''中文摘要'''：[[原子力显微镜]]（[[AFM]]）相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力，但现有[[鲁棒数据集]]和[[自动化分析工具]]较为匮乏。本文提出了一种基于[[高维数据集]]的新型材料识别方法，该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取逐渐增加[[针尖-样品距离]]时的50个相位值，最终形成50x50x50[[体素]]图像以表征不同深度的相位变化。利用该数据集，我们比较了[[k近邻]]（[[KNN]]）、[[随机森林]]（[[RF]]）和[[前馈神经网络]]（[[FNN]]）在[[材料分割]]中的表现。结果表明FNN具有最高的[[准确率]]和[[F1分数]]，优于传统方法。最后，我们通过生成虚拟[[散射型扫描近场光学显微镜]]（[[s-SNOM]]）图像验证了分割图的[[实际价值]]，揭示了如何利用AFM相位趋近曲线构建纳米尺度[[光学分析]]的精细化[[预测工具]]。

== 摘要 ==
* '''原文标题'''：Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
* '''中文标题'''：Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性
* '''发布日期'''：2025-04-02 01:49:58+00:00
* '''作者'''：Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
* '''分类'''：cond-mat.mtrl-sci, physics.app-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01291v1
'''中文摘要'''：我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-[[介质]]-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的高[[电场]]至关重要。通过系统实验，我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质]]/[[界面]]特性及[[电场]]分布。[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏电流]]。在横向[[金属]]-[[半导体]]-[[绝缘体]]测试结构中，当[[沟道]]面[[电荷密度]]为1.27×1013 cm-2时，[[击穿电压]]超过1 kV。有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：基于地理视角的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答]]（GeoQA）通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题，阻碍了[[精准信息]]获取。本研究提出[[GeoRAG]]框架，该[[知识增强]]型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]（RAG）技术，以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件：（1）基于3267份语料（[[研究论文]]、[[专著]]与[[技术报告]]）构建结构化[[地理知识库]]，通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度，最终生成145234条分类条目与875432组多维[[问答对]]；（2）基于[[BERT-Base-Chinese]]的[[多标签文本分类器]]，用于通过[[地理维度]]分类解析[[查询类型]]；（3）利用[[问答对]]数据的[[检索评估器]]，优化[[查询-文档相关性]]判定；（4）[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息，通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]]，验证了其[[泛化能力]]。本研究通过提出[[领域专用]]大语言模型部署新范式，推动[[地理人工智能]]发展，对提升现实场景中[[GeoQA系统]]的[[可扩展性]]与[[准确性]]具有重要价值。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（ATC）在过去十年中取得了显著进展，以基于[[Transformer架构]]的小型及大型语言模型（[[SLM]]s和[[LLM]]s）为典型代表。尽管近期方法在效果上有所提升，但文献中仍缺乏全面的成本效益分析，以验证这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此，本研究的两项主要贡献为：（i）对12种传统与新型ATC方案（包括5个开源[[LLM]]）进行科学严谨的成本效益对比分析；（ii）发布一个包含22个[[数据集]]（涵盖[[情感分析]]和[[主题分类]]任务）的大型[[基准测试]]集，其训练-验证-测试划分基于[[折叠交叉验证]]流程，并附有完整文档和代码。代码、数据及文档的公开将使研究社区能复现实验并以更科学的方式推动领域发展。实验结果表明：[[LLM]]在效果上优于传统方法（平均提升26%-7.1%）和[[SLM]]（平均提升4.9%-1.9%），但因其[[微调]]过程导致计算成本显著更高——分别比传统方法和[[SLM]]平均慢590倍和8.5倍。由此提出建议：（1）对效果要求极致且能承担成本的应用选用[[LLM]]；（2）资源受限或无法承担[[LLM]]调优成本的应用选用[[逻辑回归]]/[[SVM]]等传统方法；（3）追求效果-效率平衡的近优解时选用[[Roberta]]等[[SLM]]。

== 摘要 ==
* '''原文标题'''：Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
* '''中文标题'''：通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势
* '''发布日期'''：2025-04-02 07:10:28+00:00
* '''作者'''：A. Chakraborty, B. K. Sahoo
* '''分类'''：physics.atom-ph, quant-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01418v1
'''中文摘要'''：摘要：在[[铯原子]](Cs)多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)的计算中，我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD)，探究了[[电子关联效应]]和[[高阶相对论效应]]的影响。为考虑奇宇称[[E1算符]]对[[原子轨道]]的微扰作用，计算采用[[线性响应方法]]进行。我们最终获得的$\alpha_d$值及其估计[[不确定度]]与先前理论计算和现有[[实验结果]]吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明，在[[铯原子]]$\alpha_d$值的确定过程中，[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主要的作用。通过比较MBPT(3)与RCC结果发现，PC与CP效应间的关联以及双重CP效应在这些计算中也具有显著影响。此外，在高[[激发态]]中，[[Breit相互作用]]的贡献相当可观。

== 摘要 ==
* '''原文标题'''：Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
* '''中文标题'''：基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM数据集及方法学
* '''发布日期'''：2025-04-02 11:42:03+00:00
* '''作者'''：Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
* '''分类'''：physics.optics
*'''原文链接'''：http://arxiv.org/abs/2504.01636v1
'''中文摘要'''：[[原子力显微镜]]（[[AFM]]）相位趋近曲线在纳米级材料表征方面具有重要潜力，但现有鲁棒数据集和自动化分析工具仍较为有限。本文提出了一种基于高维数据集的新材料识别方法，该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种材料采集的AFM相位趋近曲线。每次测量获取逐渐增加针尖-样品距离时的50个相位值，最终形成50×50×50体素图像以表征不同深度的相位变化。利用该数据集，我们比较了[[K近邻]]（[[KNN]]）、[[随机森林]]（[[RF]]）和[[前馈神经网络]]（[[FNN]]）在材料分割中的表现。结果表明，FNN具有最高的准确率和[[F1分数]]，优于传统方法。最后，我们通过生成虚拟散射型[[扫描近场光学显微镜]]（[[s-SNOM]]）图像验证了分割图的实际价值，揭示了如何利用AFM相位趋近曲线构建用于纳米级光学分析的精细化预测工具。

== 摘要 ==
* '''原文标题'''：Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
* '''中文标题'''：Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性
* '''发布日期'''：2025-04-02 01:49:58+00:00
* '''作者'''：Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
* '''分类'''：cond-mat.mtrl-sci, physics.app-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01291v1
'''中文摘要'''：我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]与[[击穿]]特性。[[金属]]-介质-[[半导体]]结构对于维持未来高性能[[UWBG]][[晶体管]]所需的[[高电场]]至关重要。通过系统实验，我们测定了[[半导体]][[平带]]条件下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、介质/[[界面特性]]及内部[[电场]]。在[[金属]]-[[氧化物]]-[[半导体]]结构中获得了低至5×10-7 A/cm2的[[栅漏]][[泄漏电流]]。横向[[金属]]-[[半导体]]-[[绝缘体]][[测试结构]]在[[沟道]][[面电荷密度]]1.27×1013 cm-2时实现了超过1 kV的[[击穿电压]]，有效峰值[[电场]]与平均[[击穿场强]]分别估算为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：地理视角下的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答]]（GeoQA）通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题，阻碍了精确[[信息获取]]。本研究提出[[GeoRAG]]框架，该知识增强型问答系统结合[[领域微调]]、[[提示工程]]与[[检索增强生成]]（RAG）技术，以提升[[地理知识]]检索精度和[[用户交互]]体验。方法论包含四个组件：（1）基于3267份语料（[[研究论文]]、[[专著]]与[[技术报告]]）构建结构化[[地理知识库]]，通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度，最终生成145234条分类条目与875432组多维[[问答对]]；（2）基于[[BERT-Base-Chinese]]的[[多标签文本分类器]]，用于通过[[地理维度]]分类解析查询类型；（3）利用问答对数据的[[检索评估器]]，优化查询-文档相关性判定以提升检索精度；（4）[[GeoPrompt]]模板动态整合用户查询与检索信息，通过维度特异性提示提升响应质量。对比实验表明[[GeoRAG]]在多个基础模型上均优于传统[[RAG]]，验证了其[[泛化能力]]。本研究通过提出领域专用[[大语言模型]]部署新范式，推动[[地理人工智能]]发展，对提升现实场景中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有实践意义。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（ATC）在过去十年中取得了显著进展，其中以基于[[Transformer架构]]的[[小型及大型语言模型]]（[[SLMs]]和[[LLMs]]）最为典型。尽管近期方法在效果上有所提升，但文献中仍缺乏全面的[[成本效益分析]]，以验证这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统[[文本分类]]方法的效果提升是否足以抵消其高昂成本。针对此，本研究的两项主要贡献为：（i）对12种传统与新兴[[ATC]]方案（含5个开源[[LLM]]）进行科学严谨的[[成本效益对比分析]]；（ii）发布包含22个[[数据集]]的大规模[[基准测试集]]（涵盖[[情感分析]]和[[主题分类]]任务），其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程，并配套完整[[文档]]与[[代码]]。[[代码]]、[[数据]]和[[文档]]的公开将使学界能复现实验并以更科学的方式推动领域发展。实验结果表明：[[LLMs]]在效果上优于传统方法（平均提升26%-7.1%）和[[SLMs]]（平均提升4.9%-1.9%），但因其[[微调]]过程导致[[计算成本]]激增，分别比传统方法和[[SLMs]]平均慢590倍和8.5倍。由此提出建议：（1）对效果要求极致且能承担成本的场景选用[[LLMs]]；（2）资源受限或无法承担[[LLM]]调优成本时选用[[逻辑回归]]/[[SVM]]等传统方法；（3）追求效果-效率平衡时选择[[Roberta]]等[[SLMs]]。

== 摘要 ==
* '''原文标题'''：Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
* '''中文标题'''：通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势
* '''发布日期'''：2025-04-02 07:10:28+00:00
* '''作者'''：A. Chakraborty, B. K. Sahoo
* '''分类'''：physics.atom-ph, quant-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01418v1
'''中文摘要'''：摘要：在[[铯原子]](Cs)多个偶宇称和奇宇称态的标量与张量静态[[电偶极极化率]]($\alpha_d$)计算中，我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD)，探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰影响，计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算和现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明：在[[铯原子]][[极化率]]测定中，[[电子对关联]](PC)效应比[[核心极化]](CP)效应起更主导作用。通过对比MBPT(3)与RCC结果，我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中同样具有显著影响。此外，在高[[激发态]]中，[[Breit相互作用]]的贡献尤为突出。

== 摘要 ==
* '''原文标题'''：Dataset and Methodology for Material Identification and virtual s-SNOM Using AFM Phase Approach Curves
* '''中文标题'''：基于原子力显微镜相位趋近曲线的材料识别与虚拟s-SNOM方法数据集
* '''发布日期'''：2025-04-02 11:42:03+00:00
* '''作者'''：Stefan R. Anton, Denis E. Tranca, Stefan G. Stanciu, Adrian M. Ionescu, George A. Stanciu
* '''分类'''：physics.optics
*'''原文链接'''：http://arxiv.org/abs/2504.01636v1
'''中文摘要'''：[[原子力显微镜]]（[[AFM]]）相位趋近曲线在[[纳米尺度]]材料表征方面具有重要潜力，但现有[[鲁棒数据集]]和[[自动化分析工具]]仍较为匮乏。本文提出了一种基于[[高维数据集]]的新型材料识别方法，该数据集包含从[[硅]]、[[二氧化硅]]、[[铂]]、[[银]]和[[金]]五种不同材料采集的AFM相位趋近曲线。每次测量获取50个在[[探针]]-样品间距递增时的相位值，最终形成50x50x50[[体素]]图像以表征不同深度的相位变化。利用该数据集，我们比较了[[k近邻]]（[[KNN]]）、[[随机森林]]（[[RF]]）和[[前馈神经网络]]（[[FNN]]）在材料分割中的表现。结果表明，FNN具有最高的[[准确率]]和[[F1分数]]，优于传统方法。最后，我们通过生成虚拟[[散射型扫描近场光学显微镜]]（[[s-SNOM]]）图像验证了分割图的[[实际价值]]，揭示了如何利用AFM相位趋近曲线构建用于纳米尺度[[光学分析]]的精细化[[预测工具]]。

== 摘要 ==
* '''原文标题'''：Energy Bands and Breakdown Characteristics in Al2O3/UWBG AlGaN Heterostructures
* '''中文标题'''：Al2O3/超宽禁带AlGaN异质结构中的能带与击穿特性
* '''发布日期'''：2025-04-02 01:49:58+00:00
* '''作者'''：Seungheon Shin, Kyle Liddy, Yinxuan Zhu, Chandan Joishi, Brianna A. Klein, Andrew Armstrong, Andrew A. Allerman, Siddharth Rajan
* '''分类'''：cond-mat.mtrl-sci, physics.app-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01291v1
'''中文摘要'''：我们报道了[[超宽禁带]](UWBG) [[AlGaN]][[异质结构]]上[[Al2O3]][[介质]]的[[能带]]和[[击穿特性]]。[[金属-介质-半导体结构]]对于维持未来高性能[[UWBG晶体管]]所需的高[[电场]]至关重要。通过系统实验，我们测定了[[半导体]][[平带条件]]下[[氧化物]]中的固定[[电荷密度]](> 1013 cm-2)、[[介质/界面特性]]及[[电场强度]]。[[金属-氧化物-半导体结构]]中获得了低至5×10-7 A/cm2的[[栅漏泄漏电流]]。在横向[[金属-半导体-绝缘体]][[测试结构]]中，当[[沟道]][[面电荷密度]]为1.27×1013 cm-2时，[[击穿电压]]超过1 kV。有效峰值[[电场]]和平均[[击穿场强]]分别估计为>4.27 MV/cm和1.99 MV/cm。这些发现证明了[[Al2O3]][[集成]]对于提升[[UWBG]][[AlGaN]][[HEMTs]][[击穿性能]]的潜力。

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：地理视角下的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答系统]]([[GeoQA]])通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题，阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架，该[[知识增强]]型[[问答系统]]融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]([[RAG]])技术，以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件：(1)基于3267份语料([[研究论文]]、[[专著]]及[[技术报告]])构建结构化[[地理知识库]]，通过[[多智能体]]方法归类为[[语义理解]]、[[空间定位]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]及[[运作机制]]七个维度，最终形成145234条分类条目和875432组多维[[问答对]]；(2)基于[[BERT-Base-Chinese]]的[[多标签文本分类器]]，通过[[地理维度]]分类解析查询类型；(3)利用[[问答对]]数据的[[检索评估器]]优化查询-文档相关性判定；(4)[[GeoPrompt]]模板动态整合[[用户查询]]与检索信息，通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]]，验证了其[[泛化能力]]。本研究通过提出[[领域专用]][[大语言模型]]部署新范式，推动[[地理人工智能]]发展，对提升现实应用中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有重要价值。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（[[ATC]]）在过去十年中取得了显著进展，其中以基于[[Transformer架构]]的[[小型及大型语言模型]]（[[SLMs]]和[[LLMs]]）最为典型。尽管近期方法在效果上有所提升，但文献中仍缺乏全面的[[成本效益分析]]，以验证这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统[[文本分类]]方法的性能提升是否足以抵消其高昂成本。为此，本研究作出双重贡献：(i) 对12种传统与新型[[ATC]]方案（含5个开源[[LLM]]）进行科学严谨的[[成本效益对比分析]]；(ii) 发布包含22个[[数据集]]的大规模[[基准测试]]（涵盖[[情感分析]]和[[主题分类]]任务），提供基于[[折叠交叉验证]]的[[数据划分]]方案、完整[[文档]]及[[代码]]。通过公开[[代码]]、[[数据]]和[[文档]]，本研究支持学界以更科学的方式复现实验并推动领域发展。实验结果表明：[[LLMs]]在效果上优于传统方法（平均提升26%-7.1%）和[[SLMs]]（平均提升4.9%-1.9%），但因其[[微调]]过程导致[[计算成本]]激增，分别比传统方法和[[SLMs]]平均慢590倍和8.5倍。由此提出建议：(1) 对效果要求极致且能承担成本的场景选用[[LLMs]]；(2) 资源受限或无法承担[[LLM]]调优成本时选择[[逻辑回归]]/[[SVM]]等传统方法；(3) 追求效果-效率平衡时选用[[Roberta]]等[[SLMs]]。

== 摘要 ==
* '''原文标题'''：A Truncated Newton Method for Optimal Transport
* '''中文标题'''：最优传输的截断牛顿法
* '''发布日期'''：2025-04-02 19:00:24+00:00
* '''作者'''：Mete Kemertas, Amir-massoud Farahmand, Allan D. Jepson
* '''分类'''：cs.LG, cs.MS, math.OC, G.3; G.4; I.4.0
*'''原文链接'''：http://arxiv.org/abs/2504.02067v1
'''中文摘要'''：摘要：开发现代[[最优传输]]([[OT]])求解器需要权衡多个关键需求：[[GPU]][[并行化]]能力、高维问题的[[可扩展性]]、理论[[收敛保证]]、[[精度]]与[[运行时]]的实证性能，以及实际应用中的[[数值稳定性]]。针对这些挑战，我们提出了一种专门用于[[熵正则化]][[OT]]的[[截断牛顿算法]]。除了证明在无需假设[[Hessian矩阵]][[Lipschitz连续]]的情况下仍可能实现局部[[二次收敛]]外，我们还提供了在实践中最大限度利用高局部[[收敛速率]]的策略。我们的[[GPU]][[并行算法]]展现出极其优越的运行时性能，以比现有方案快数个数量级的速度实现高精度计算，这通过24个问题集（12个[[数据集]]×2种[[成本函数]]）的挂钟时间实验得到验证。该算法的可扩展性在一个超大规模[[OT]]问题上得到展示（n≈10^6），在弱[[熵正则化]]条件下实现了近似求解。