WikiEdge:ArXiv速遞/2025-03-19

出自WikiEdge
於 2025年3月20日 (四) 10:16 由 Carole留言 | 貢獻 所做的修訂 (Updated page by Carole)
跳至導覽 跳至搜尋

摘要

  • 原文標題:An extensive simulation study evaluating the interaction of resampling techniques across multiple causal discovery contexts
  • 中文標題:一項廣泛的模擬研究評估重採樣技術在多種因果發現情境中的交互作用
  • 發布日期:2025-03-19 17:18:18+00:00
  • 作者:Ritwick Banerjee, Bryan Andrews, Erich Kummerfeld
  • 分類:stat.ME, cs.AI
  • 原文連結http://arxiv.org/abs/2503.15436v1

中文摘要:儘管探索性因果分析在現代科學醫學中的存在加速增長,但用於驗證因果模型的可用非實驗方法尚未得到很好的表徵。最流行的方法之一是在對數據進行重採樣後評估模型特徵的穩定性,類似於統計學中用於估計置信區間的重採樣方法。然而,這種方法的許多方面幾乎沒有受到關注,例如重採樣方法的選擇是否應取決於樣本大小、使用的算法算法調優參數。我們提出了理論結果,證明某些重採樣方法能夠很好地模擬為算法調優參數分配特定值的過程。我們還報告了大量模擬實驗的結果,這些結果驗證了理論結果,並提供了大量數據,以幫助研究人員進一步表徵因果發現分析中的重採樣。理論工作和模擬結果共同提供了關於在實踐中應如何選擇重採樣方法和調優參數的具體指導。

摘要

  • 原文標題:Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems
  • 中文標題:優化檢索增強生成系統中金融問答文檔的檢索策略
  • 發布日期:2025-03-19 13:21:49+00:00
  • 作者:Sejong Kim, Hyunseo Song, Hyunwoo Seo, Hyunjun Kim
  • 分類:cs.IR
  • 原文連結http://arxiv.org/abs/2503.15191v1

中文摘要檢索增強生成(RAG)作為一種有前景的框架,能夠緩解大型語言模型(LLMs)中的幻覺問題,但其整體性能依賴於底層的檢索系統。在金融領域,諸如10-K報告等文檔由於領域特定的詞彙和多層次的表格數據而帶來了獨特的挑戰。在本研究中,我們引入了一種高效的端到端RAG管道,通過三個階段(預檢索檢索後檢索)來增強金融文檔的檢索能力。在預檢索階段,採用了多種查詢語料庫預處理技術來豐富輸入數據。在檢索階段,我們利用領域特定知識對最先進的(SOTA)嵌入模型進行了微調,並實施了一種結合密集表示稀疏表示的混合檢索策略。最後,在後檢索階段,通過直接偏好優化(DPO)訓練和文檔選擇方法進一步優化結果。在七個金融問答數據集FinDERFinQABenchFinanceBenchTATQAFinQAConvFinQAMultiHiertt)上的評估表明,檢索性能顯著提升,從而生成了更準確且上下文適當的生成結果。這些發現突顯了定製檢索技術在提升RAG系統在金融應用中的有效性方面的關鍵作用。完整的可復現管道可在GitHub上獲取:https://github.com/seohyunwoo-0407/GAR。