WikiEdge:ArXiv速递/2025-03-19

摘要

原文标题：An extensive simulation study evaluating the interaction of resampling techniques across multiple causal discovery contexts
中文标题：一项广泛的模拟研究评估重采样技术在多种因果发现情境中的交互作用
发布日期：2025-03-19 17:18:18+00:00
作者：Ritwick Banerjee, Bryan Andrews, Erich Kummerfeld
分类：stat.ME, cs.AI
原文链接：http://arxiv.org/abs/2503.15436v1

中文摘要：尽管探索性因果分析在现代科学和医学中的存在加速增长，但用于验证因果模型的可用非实验方法尚未得到很好的表征。最流行的方法之一是在对数据进行重采样后评估模型特征的稳定性，类似于统计学中用于估计置信区间的重采样方法。然而，这种方法的许多方面几乎没有受到关注，例如重采样方法的选择是否应取决于样本大小、使用的算法或算法调优参数。我们提出了理论结果，证明某些重采样方法能够很好地模拟为算法调优参数分配特定值的过程。我们还报告了大量模拟实验的结果，这些结果验证了理论结果，并提供了大量数据，以帮助研究人员进一步表征因果发现分析中的重采样。理论工作和模拟结果共同提供了关于在实践中应如何选择重采样方法和调优参数的具体指导。

摘要

原文标题：Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems
中文标题：优化检索增强生成系统中金融问答文档的检索策略
发布日期：2025-03-19 13:21:49+00:00
作者：Sejong Kim, Hyunseo Song, Hyunwoo Seo, Hyunjun Kim
分类：cs.IR
原文链接：http://arxiv.org/abs/2503.15191v1

中文摘要：检索增强生成（RAG）作为一种有前景的框架，能够缓解大型语言模型（LLMs）中的幻觉问题，但其整体性能依赖于底层的检索系统。在金融领域，诸如10-K报告等文档由于领域特定的词汇和多层次的表格数据而带来了独特的挑战。在本研究中，我们引入了一种高效的端到端RAG管道，通过三个阶段（预检索、检索和后检索）来增强金融文档的检索能力。在预检索阶段，采用了多种查询和语料库预处理技术来丰富输入数据。在检索阶段，我们利用领域特定知识对最先进的（SOTA）嵌入模型进行了微调，并实施了一种结合密集表示和稀疏表示的混合检索策略。最后，在后检索阶段，通过直接偏好优化（DPO）训练和文档选择方法进一步优化结果。在七个金融问答数据集（FinDER、FinQABench、FinanceBench、TATQA、FinQA、ConvFinQA和MultiHiertt）上的评估表明，检索性能显著提升，从而生成了更准确且上下文适当的生成结果。这些发现突显了定制检索技术在提升RAG系统在金融应用中的有效性方面的关键作用。完整的可复现管道可在GitHub上获取：https://github.com/seohyunwoo-0407/GAR。

WikiEdge:ArXiv速递/2025-03-19

摘要

摘要

导航菜单

搜索