WikiEdge:ArXiv速遞/2025-04-02
摘要
- 原文標題:GeoRAG: A Question-Answering Approach from a Geographical Perspective
- 中文標題:GeoRAG:地理視角下的問答方法
- 發佈日期:2025-04-02 08:11:05+00:00
- 作者:Jian Wang, Zhuo Zhao, Zheng Jie Wang, Bo Da Cheng, Lei Nie, Wen Luo, Zhao Yuan Yu, Ling Wang Yuan
- 分類:cs.IR
- 原文連結:http://arxiv.org/abs/2504.01458v1
中文摘要:地理問答(GeoQA)通過處理地理領域的自然語言查詢來滿足複雜用戶需求並提升信息檢索效率。然而傳統問答系統存在理解局限、檢索精度低、交互性弱及複雜任務處理不足等問題,阻礙了精準信息獲取。本研究提出GeoRAG框架,該知識增強型問答系統融合領域微調、提示工程與檢索增強生成(RAG)技術,以提升地理知識檢索精度和用戶交互體驗。方法論包含四個組件:(1)基於3267份語料(研究論文、專著與技術報告)構建結構化地理知識庫,通過多智能體方法歸類為語義理解、空間位置、幾何形態、屬性特徵、要素關聯、演化過程與運作機制七個維度,最終生成145234條分類條目與875432組多維問答對;(2)基於BERT-Base-Chinese的多標籤文本分類器,用於通過地理維度分類解析查詢類型;(3)利用問答對數據的檢索評估器,優化查詢-文檔相關性判定以提升檢索精度;(4)GeoPrompt模板動態整合用戶查詢與檢索信息,通過維度特異性提示提升響應質量。對比實驗表明GeoRAG在多個基礎模型上均優於傳統RAG,驗證了其泛化能力。本研究通過提出領域專用大語言模型部署新範式,推動地理人工智能發展,對提升現實場景中GeoQA系統的可擴展性與準確性具有實踐意義。
摘要
- 原文標題:A Unified Approach to Analysis and Design of Denoising Markov Models
- 中文標題:去噪馬爾可夫模型分析與設計的統一方法
- 發佈日期:2025-04-02 17:46:43+00:00
- 作者:Yinuo Ren, Grant M. Rotskoff, Lexing Ying
- 分類:cs.LG, cs.NA, math.NA, stat.ML
- 原文連結:http://arxiv.org/abs/2504.01938v1
中文摘要:基於測度傳輸的概率生成模型(如擴散模型和基於流的模型)通常採用馬爾可夫隨機動力學語言進行表述,其中底層過程的選擇同時影響算法設計決策和理論分析。本文旨在為去噪馬爾可夫模型建立嚴格的數學基礎——這類生成模型假設存在從前向過程(從目標分佈過渡到簡單易採樣分佈)與特別構建的後向過程(實現逆向高效採樣)。通過與非平衡統計力學及廣義Doob's h-變換的深層聯繫,我們提出一組最小假設條件以確保:(1) 後向生成算子的顯式構造,(2) 直接最小化測度傳輸差異的統一變分目標,(3) 經典分數匹配方法在不同動力學中的適應性實現。本框架統一了連續/離散擴散模型的現有表述,在正向生成算子滿足特定正則性假設下識別出去噪馬爾可夫模型的最一般形式,並為任意Lévy型過程驅動的去噪模型設計提供了系統化方案。我們通過採用幾何布朗運動和跳躍過程作為前向動力學的新型去噪模型,展示了該框架在複雜分佈建模中的潛在靈活性與效能。
摘要
- 原文標題:Demonstrating Correlation Trends in the Electric Dipole Polarizabilities of Many Low-lying States in Cesium (Cs I) through First-principle Calculations
- 中文標題:通過第一性原理計算展示銫(Cs I)中多個低激發態電偶極極化率的關聯趨勢
- 發佈日期:2025-04-02 07:10:28+00:00
- 作者:A. Chakraborty, B. K. Sahoo
- 分類:physics.atom-ph, quant-ph
- 原文連結:http://arxiv.org/abs/2504.01418v1
中文摘要:在銫原子(Cs)多個偶宇稱和奇宇稱態標量與張量靜態電偶極極化率($\alpha_d$)的計算中,我們採用狄拉克-哈特里-福克方法(DHF)、二階微擾理論(MBPT(2))、三階微擾理論(MBPT(3))、隨機相位近似(RPA)以及單雙激發近似相對論耦合簇方法(RCCSD),探究了電子關聯效應和高階相對論效應。為處理奇宇稱E1算符對原子軌道的微擾影響,計算採用線性響應方法進行。最終獲得的$\alpha_d$值及其不確定度估計與先前理論計算及現有實驗結果吻合良好。DHF、MBPT(2)、MBPT(3)和RPA結果間的差異表明:在銫原子$\alpha_d$值的確定過程中,電子對關聯(PC)效應比核心極化(CP)效應起着更主要的作用。通過比較MBPT(3)與RCC結果,我們發現PC與CP效應的關聯效應以及雙CP效應在這些計算中同樣具有顯著影響。此外,在高激發態中,Breit相互作用的貢獻表現得尤為突出。
摘要
- 原文標題:A thorough benchmark of automatic text classification: From traditional approaches to large language models
- 中文標題:自動文本分類的全面基準測試:從傳統方法到大語言模型
- 發佈日期:2025-04-02 17:40:08+00:00
- 作者:Washington Cunha, Leonardo Rocha, Marcos André Gonçalves
- 分類:cs.CL, cs.AI
- 原文連結:http://arxiv.org/abs/2504.01930v1
中文摘要:自動文本分類(ATC)在過去十年中取得了顯著進展,以基於Transformer架構的小型及大型語言模型(SLMs和LLMs)為典型代表。儘管近期在效果上有所提升,但文獻中仍缺乏全面的成本效益分析,以評估這些新方法相較於支持向量機(SVM)和邏輯回歸等傳統文本分類方法的效果提升是否足以抵消其高昂成本。對此,本研究的兩項主要貢獻是:(i)對12種傳統與新興ATC方案(包括5個開源LLM)進行科學嚴謹的成本效益對比分析;(ii)構建包含22個數據集的大規模基準測試集(涵蓋情感分析和主題分類任務),其訓練-驗證-測試劃分基於摺疊交叉驗證流程,並配套文檔和代碼。通過公開代碼、數據及文檔,本研究支持學界以更科學的方式復現實驗並推動領域發展。實驗結果表明:LLMs在效果上優於傳統方法(平均提升26%-7.1%)和SLMs(平均提升4.9%-1.9%),但因其微調過程導致計算成本顯著更高——分別比傳統方法和SLMs平均慢590倍和8.5倍。由此提出建議:(1)對效果要求極致且能承擔成本的場景選用LLMs;(2)資源受限或無法承擔LLMs調優成本的場景選用邏輯回歸/SVM等傳統方法;(3)追求接近最優效果-效率平衡時選用Roberta等SLMs。