WikiEdge:ArXiv速递/2025-03-19：修订间差异

2025年3月20日 (四) 10:16的版本

摘要

原文标题：An extensive simulation study evaluating the interaction of resampling techniques across multiple causal discovery contexts
中文标题：一项广泛的模拟研究评估重采样技术在多种因果发现情境中的交互作用
发布日期：2025-03-19 17:18:18+00:00
作者：Ritwick Banerjee, Bryan Andrews, Erich Kummerfeld
分类：stat.ME, cs.AI
原文链接：http://arxiv.org/abs/2503.15436v1

中文摘要：尽管探索性因果分析在现代科学和医学中的存在加速增长，但用于验证因果模型的可用非实验方法尚未得到很好的表征。最流行的方法之一是在对数据进行重采样后评估模型特征的稳定性，类似于统计学中用于估计置信区间的重采样方法。然而，这种方法的许多方面几乎没有受到关注，例如重采样方法的选择是否应取决于样本大小、使用的算法或算法调优参数。我们提出了理论结果，证明某些重采样方法能够很好地模拟为算法调优参数分配特定值的过程。我们还报告了大量模拟实验的结果，这些结果验证了理论结果，并提供了大量数据，以帮助研究人员进一步表征因果发现分析中的重采样。理论工作和模拟结果共同提供了关于在实践中应如何选择重采样方法和调优参数的具体指导。

摘要

原文标题：Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems
中文标题：优化检索增强生成系统中金融问答文档的检索策略
发布日期：2025-03-19 13:21:49+00:00
作者：Sejong Kim, Hyunseo Song, Hyunwoo Seo, Hyunjun Kim
分类：cs.IR
原文链接：http://arxiv.org/abs/2503.15191v1

中文摘要：检索增强生成（RAG）作为一种有前景的框架，能够缓解大型语言模型（LLMs）中的幻觉问题，但其整体性能依赖于底层的检索系统。在金融领域，诸如10-K报告等文档由于领域特定的词汇和多层次的表格数据而带来了独特的挑战。在本研究中，我们引入了一种高效的端到端RAG管道，通过三个阶段（预检索、检索和后检索）来增强金融文档的检索能力。在预检索阶段，采用了多种查询和语料库预处理技术来丰富输入数据。在检索阶段，我们利用领域特定知识对最先进的（SOTA）嵌入模型进行了微调，并实施了一种结合密集表示和稀疏表示的混合检索策略。最后，在后检索阶段，通过直接偏好优化（DPO）训练和文档选择方法进一步优化结果。在七个金融问答数据集（FinDER、FinQABench、FinanceBench、TATQA、FinQA、ConvFinQA和MultiHiertt）上的评估表明，检索性能显著提升，从而生成了更准确且上下文适当的生成结果。这些发现突显了定制检索技术在提升RAG系统在金融应用中的有效性方面的关键作用。完整的可复现管道可在GitHub上获取：https://github.com/seohyunwoo-0407/GAR。

@@ 第7行： / 第7行： @@
 *'''原文链接'''：http://arxiv.org/abs/2503.15436v1
 '''中文摘要'''：尽管[[探索性因果分析]]在现代[[科学]]和[[医学]]中的存在加速增长，但用于验证[[因果模型]]的可用非实验方法尚未得到很好的表征。最流行的方法之一是在对[[数据]]进行[[重采样]]后评估[[模型特征]]的稳定性，类似于[[统计学]]中用于估计[[置信区间]]的重采样方法。然而，这种方法的许多方面几乎没有受到关注，例如重采样方法的选择是否应取决于[[样本大小]]、使用的[[算法]]或[[算法调优参数]]。我们提出了理论结果，证明某些重采样方法能够很好地模拟为算法调优参数分配特定值的过程。我们还报告了大量[[模拟实验]]的结果，这些结果验证了理论结果，并提供了大量数据，以帮助研究人员进一步表征[[因果发现分析]]中的重采样。理论工作和模拟结果共同提供了关于在实践中应如何选择重采样方法和调优参数的具体指导。
+== 摘要 ==
+* '''原文标题'''：Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems
+* '''中文标题'''：优化检索增强生成系统中金融问答文档的检索策略
+* '''发布日期'''：2025-03-19 13:21:49+00:00
+* '''作者'''：Sejong Kim, Hyunseo Song, Hyunwoo Seo, Hyunjun Kim
+* '''分类'''：cs.IR
+*'''原文链接'''：http://arxiv.org/abs/2503.15191v1
+'''中文摘要'''：[[检索增强生成]]（RAG）作为一种有前景的框架，能够缓解[[大型语言模型]]（LLMs）中的[[幻觉问题]]，但其整体性能依赖于底层的[[检索系统]]。在[[金融领域]]，诸如[[10-K报告]]等文档由于领域特定的词汇和多层次的[[表格数据]]而带来了独特的挑战。在本研究中，我们引入了一种高效的端到端RAG管道，通过三个阶段（[[预检索]]、[[检索]]和[[后检索]]）来增强金融文档的检索能力。在预检索阶段，采用了多种[[查询]]和[[语料库预处理]]技术来丰富输入数据。在检索阶段，我们利用领域特定知识对最先进的（SOTA）[[嵌入模型]]进行了微调，并实施了一种结合[[密集表示]]和[[稀疏表示]]的混合检索策略。最后，在后检索阶段，通过[[直接偏好优化]]（DPO）训练和[[文档选择]]方法进一步优化结果。在七个[[金融问答数据集]]（[[FinDER]]、[[FinQABench]]、[[FinanceBench]]、[[TATQA]]、[[FinQA]]、[[ConvFinQA]]和[[MultiHiertt]]）上的评估表明，检索性能显著提升，从而生成了更准确且上下文适当的生成结果。这些发现突显了定制检索技术在提升RAG系统在金融应用中的有效性方面的关键作用。完整的可复现管道可在[[GitHub]]上获取：https://github.com/seohyunwoo-0407/GAR。

WikiEdge:ArXiv速递/2025-03-19：修订间差异

2025年3月20日 (四) 10:16的版本

摘要

摘要

导航菜单

搜索