WikiEdge:ArXiv-2311.08516/abs

标题：LLMs cannot find reasoning errors, but can correct them given the error location
中文标题：大型语言模型无法发现推理错误，但可以在给定错误位置的情况下进行修正
发布日期：2023-11-14 20:12:38+00:00
作者：Gladys Tyen, Hassan Mansoor, Victor Cărbune, Peter Chen, Tony Mak
分类：cs.AI, cs.CL, cs.LG
原文链接：http://arxiv.org/abs/2311.08516

摘要：尽管自我纠正已显示出在提高大型语言模型（LLMs）输出的风格和质量方面的潜力（例如，Chen et al., 2023b; Madaan et al., 2023），但最近对逻辑或推理错误的自我纠正尝试往往导致正确答案变为错误，从而导致整体表现变差（Huang et al., 2023）。在本文中，我们表明，较差的自我纠正表现源于LLMs无法发现逻辑错误，而不是它们纠正已知错误的能力。首先，我们对几种最先进的LLMs在其错误发现能力上进行了基准测试，结果表明它们在这一任务上普遍表现不佳，即使在高度客观、明确的情况下也是如此。其次，我们使用回溯设置测试了LLMs的纠正能力——与错误发现分开，向模型提供真实错误位置的信息。我们表明，这提升了我们五个推理任务的下游任务表现，表明LLMs的纠正能力是稳健的。最后，我们展示了在没有真实标签或领域内训练数据的情况下获取错误位置信息是可能的。我们使用域外数据训练了一个小型分类器，其错误发现表现优于提示大型模型。我们发布了LLM生成逻辑错误的数据集BIG-Bench Mistake，以促进对定位LLM推理错误的进一步研究。

WikiEdge:ArXiv-2311.08516/abs

导航菜单

搜索