查看“WikiEdge:ArXiv速递/2025-04-02”的源代码

== 摘要 ==
* '''原文标题'''：GeoRAG: A Question-Answering Approach from a Geographical Perspective
* '''中文标题'''：GeoRAG：地理视角下的问答方法
* '''发布日期'''：2025-04-02 08:11:05+00:00
* '''作者'''：Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
* '''分类'''：cs.IR
*'''原文链接'''：http://arxiv.org/abs/2504.01458v1
'''中文摘要'''：[[地理问答]]（GeoQA）通过处理[[地理领域]]的[[自然语言查询]]来满足复杂[[用户需求]]并提升[[信息检索]]效率。然而传统[[问答系统]]存在理解局限、检索精度低、交互性弱及复杂任务处理不足等问题，阻碍了精准[[信息获取]]。本研究提出[[GeoRAG]]框架，该知识增强型问答系统融合[[领域微调]]、[[提示工程]]与[[检索增强生成]]（RAG）技术，以提升[[地理知识]]检索精度和[[用户交互]]体验。[[方法论]]包含四个组件：（1）基于3267份语料（[[研究论文]]、[[专著]]与[[技术报告]]）构建结构化[[地理知识库]]，通过[[多智能体]]方法归类为[[语义理解]]、[[空间位置]]、[[几何形态]]、[[属性特征]]、[[要素关联]]、[[演化过程]]与[[运作机制]]七个维度，最终生成145234条分类条目与875432组多维[[问答对]]；（2）基于[[BERT-Base-Chinese]]的[[多标签文本分类器]]，用于通过[[地理维度]]分类解析[[查询类型]]；（3）利用[[问答对]]数据的[[检索评估器]]，优化[[查询-文档相关性]]判定以提升[[检索精度]]；（4）[[GeoPrompt]]模板动态整合[[用户查询]]与[[检索信息]]，通过[[维度特异性]]提示提升[[响应质量]]。对比实验表明[[GeoRAG]]在多个[[基础模型]]上均优于传统[[RAG]]，验证了其[[泛化能力]]。本研究通过提出[[领域专用]]大语言模型部署新范式，推动[[地理人工智能]]发展，对提升现实场景中[[GeoQA]]系统的[[可扩展性]]与[[准确性]]具有[[实践意义]]。

== 摘要 ==
* '''原文标题'''：A Unified Approach to Analysis and Design of Denoising Markov Models
* '''中文标题'''：去噪马尔可夫模型分析与设计的统一方法
* '''发布日期'''：2025-04-02 17:46:43+00:00
* '''作者'''：Yinuo Ren, Grant M. Rotskoff, Lexing Ying
* '''分类'''：cs.LG, cs.NA, math.NA, stat.ML
*'''原文链接'''：http://arxiv.org/abs/2504.01938v1
'''中文摘要'''：基于[[测度传输]]的[[概率生成模型]]（如[[扩散模型]]和基于[[流]]的模型）通常采用[[马尔可夫随机过程|马尔可夫随机动力学]]语言进行表述，其中底层过程的选择同时影响[[算法设计]]决策和[[理论分析]]。本文旨在为[[去噪马尔可夫模型]]建立严格的[[数学基础]]——这类生成模型假设存在从前向过程（从[[目标分布]]过渡到简单易采样分布）与特别构建的后向过程（实现逆向高效采样）。通过与[[非平衡统计力学]]及广义[[Doob's h-变换]]的深层联系，我们提出一组最小假设条件以确保：(1) 后向生成算子的显式构造，(2) 直接最小化测度传输差异的[[统一变分目标]]，(3) 经典[[分数匹配]]方法在不同动力学中的适应性实现。本框架统一了连续/离散[[扩散模型]]的现有表述，在正向生成算子满足特定[[正则性假设]]下识别出[[去噪马尔可夫模型]]的最一般形式，并为任意[[Lévy过程|Lévy型过程]]驱动的去噪模型设计提供了系统化方案。我们通过采用[[几何布朗运动]]和[[跳跃过程]]作为前向动力学的新型去噪模型，展示了该框架在复杂分布建模中的潜在灵活性与效能。

== 摘要 ==
* '''原文标题'''：Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
* '''中文标题'''：通过第一性原理计算展示铯(Cs I)中多个低激发态电偶极极化率的关联趋势
* '''发布日期'''：2025-04-02 07:10:28+00:00
* '''作者'''：A. Chakraborty, B. K. Sahoo
* '''分类'''：physics.atom-ph, quant-ph
*'''原文链接'''：http://arxiv.org/abs/2504.01418v1
'''中文摘要'''：在[[铯原子]](Cs)多个偶宇称和奇宇称态标量与张量静态[[电偶极极化率]]($\alpha_d$)的计算中，我们采用[[狄拉克-哈特里-福克方法]](DHF)、[[二阶微扰理论]](MBPT(2))、[[三阶微扰理论]](MBPT(3))、[[随机相位近似]](RPA)以及[[单双激发近似相对论耦合簇方法]](RCCSD)，探究了[[电子关联效应]]和[[高阶相对论效应]]。为处理奇宇称[[E1算符]]对[[原子轨道]]的微扰影响，计算采用[[线性响应方法]]进行。最终获得的$\alpha_d$值及其[[不确定度]]估计与先前理论计算及现有实验结果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA结果间的差异表明：在[[铯原子]]$\alpha_d$值的确定过程中，[[电子对关联]](PC)效应比[[核心极化]](CP)效应起着更主要的作用。通过比较MBPT(3)与RCC结果，我们发现PC与CP效应的[[关联效应]]以及[[双CP效应]]在这些计算中同样具有显著影响。此外，在高[[激发态]]中，[[Breit相互作用]]的贡献表现得尤为突出。

== 摘要 ==
* '''原文标题'''：A thorough benchmark of automatic text classification: From traditional approaches to large language models
* '''中文标题'''：自动文本分类的全面基准测试：从传统方法到大语言模型
* '''发布日期'''：2025-04-02 17:40:08+00:00
* '''作者'''：Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
* '''分类'''：cs.CL, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2504.01930v1
'''中文摘要'''：[[自动文本分类]]（[[ATC]]）在过去十年中取得了显著进展，以基于[[Transformer架构]]的小型及大型[[语言模型]]（[[SLMs]]和[[LLMs]]）为典型代表。尽管近期在效果上有所提升，但文献中仍缺乏全面的[[成本效益分析]]，以评估这些新方法相较于[[支持向量机]]（[[SVM]]）和[[逻辑回归]]等传统文本分类方法的效果提升是否足以抵消其高昂成本。对此，本研究的两项主要贡献是：（i）对12种传统与新兴[[ATC]]方案（包括5个开源[[LLM]]）进行科学严谨的[[成本效益对比分析]]；（ii）构建包含22个[[数据集]]的大规模[[基准测试集]]（涵盖[[情感分析]]和[[主题分类]]任务），其[[训练]]-[[验证]]-[[测试]]划分基于[[折叠交叉验证]]流程，并配套[[文档]]和[[代码]]。通过公开[[代码]]、[[数据]]及[[文档]]，本研究支持学界以更科学的方式复现实验并推动领域发展。实验结果表明：[[LLMs]]在效果上优于传统方法（平均提升26%-7.1%）和[[SLMs]]（平均提升4.9%-1.9%），但因其[[微调]]过程导致[[计算成本]]显著更高——分别比传统方法和[[SLMs]]平均慢590倍和8.5倍。由此提出建议：（1）对效果要求极致且能承担成本的场景选用[[LLMs]]；（2）资源受限或无法承担[[LLMs]]调优成本的场景选用[[逻辑回归]]/[[SVM]]等传统方法；（3）追求接近最优效果-效率平衡时选用[[Roberta]]等[[SLMs]]。