查看“WikiEdge:ArXiv-2311.08516/abs”的源代码
←
WikiEdge:ArXiv-2311.08516/abs
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2311.08516/abs|action=edit}} 编辑]</div> * '''标题''':LLMs cannot find reasoning errors, but can correct them given the error location * '''中文标题''':大型语言模型无法发现推理错误,但可以在给定错误位置的情况下进行修正 * '''发布日期''':2023-11-14 20:12:38+00:00 * '''作者''':Gladys Tyen, Hassan Mansoor, Victor Cărbune, Peter Chen, Tony Mak * '''分类''':cs.AI, cs.CL, cs.LG * '''原文链接''':http://arxiv.org/abs/2311.08516 '''摘要''':尽管自我纠正已显示出在提高[[大型语言模型]](LLMs)输出的风格和质量方面的潜力(例如,[[Chen et al.]], 2023b; [[Madaan et al.]], 2023),但最近对逻辑或推理错误的自我纠正尝试往往导致正确答案变为错误,从而导致整体表现变差([[Huang et al.]], 2023)。在本文中,我们表明,较差的自我纠正表现源于LLMs无法发现逻辑错误,而不是它们纠正已知错误的能力。首先,我们对几种最先进的LLMs在其错误发现能力上进行了基准测试,结果表明它们在这一任务上普遍表现不佳,即使在高度客观、明确的情况下也是如此。其次,我们使用回溯设置测试了LLMs的纠正能力——与错误发现分开,向模型提供真实错误位置的信息。我们表明,这提升了我们五个推理任务的下游任务表现,表明LLMs的纠正能力是稳健的。最后,我们展示了在没有真实标签或领域内训练数据的情况下获取错误位置信息是可能的。我们使用域外数据训练了一个小型分类器,其错误发现表现优于提示大型模型。我们发布了LLM生成逻辑错误的数据集[[BIG-Bench Mistake]],以促进对定位LLM推理错误的进一步研究。
返回
WikiEdge:ArXiv-2311.08516/abs
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息