查看“WikiEdge:ArXiv-2311.08516/summary”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2311.08516/summary|action=edit}} 编辑]</div>
这篇论文探讨了大型语言模型（[[LLMs]]）在自我修正逻辑或推理错误方面的能力。主要内容包括：
# '''引言'''：
#* 介绍了大型语言模型（[[LLMs]]）在[[自然语言处理]]（[[NLP]]）领域的主导地位，以及它们在零样本或少样本提示下解决任务的能力。讨论了自我修正的概念，即让[[LLMs]]纠正自己的输出，以及在推理任务中[[LLMs]]在识别和修复错误方面的挑战。
# '''BIG-Bench Mistake数据集'''：
#* 描述了[[BIG-Bench Mistake]]数据集的创建，该数据集包含使用[[PaLM 2]]生成的[[CoT]]风格痕迹，并标注了第一个逻辑错误的地点。数据集涵盖了[[BIG-bench]]数据集中的五个任务：单词排序、跟踪洗牌对象、逻辑推理、多步算术和[[Dyck语言]]。
# '''LLMs能否找到CoT痕迹中的推理错误？'''：
#* 展示了在[[BIG-Bench Mistake]]数据集上测试的几个最先进的[[LLMs]]在错误发现能力上的挣扎，即使是在非常客观、明确的情况下也是如此。
# '''LLMs能否纠正CoT痕迹中的推理错误？'''：
#* 通过将[[BIG-Bench Mistake]]中的错误位置信息作为oracle反馈输入模型，并提示其进行原始[[CoT]]痕迹的修正版本，测试了[[LLMs]]独立于其发现错误的能力之外的纠正能力。
# '''使用训练有素的分类器获取错误位置信息'''：
#* 讨论了在没有oracle标签的情况下，如何通过训练一个小型分类器来获取错误位置信息，以及如何使用这种分类器来提高[[LLMs]]在少样本情况下的错误发现准确性。
# '''相关工作'''：
#* 简要回顾了与[[LLMs]]自我修正相关的现有研究，包括数据集和自我修正技术。
# '''结论'''：
#* 总结了[[LLMs]]在发现错误和纠正输出方面的能力，提出了错误发现是阻碍自我修正策略在推理任务上表现良好的重要瓶颈，并展示了通过训练分类器来克服这一瓶颈的初步证据。