WikiEdge:ArXiv-2311.08516/methods

这篇研究论文的工作方法主要围绕以下几个方面：

自我修正能力测试（Self-Correction Ability Testing）：
- 通过在多个任务上测试多个最先进的大型语言模型（LLMs），来评估它们在发现逻辑错误方面的能力。这些任务包括单词排序、追踪洗牌对象、逻辑推理、多步算术和Dyck语言。
错误定位与修正（Error Localization and Correction）：
- 利用回溯设置（backtracking setup），将真实错误位置信息输入模型，测试LLMs在独立于错误发现的情况下修正错误的能力。这表明，即使LLMs在少量样本条件下难以发现错误，也可以通过训练小型分类器来提高错误定位的准确性。
数据集构建与发布（Dataset Construction and Release）：
- 构建并发布了BIG-Bench Mistake数据集，这是一个包含CoT风格推理步骤的数据集，用于进一步研究LLMs在推理错误定位上的能力。
分类器训练（Classifier Training）：
- 训练了一个小型分类器，使用领域外数据来展示在没有领域内训练数据的情况下，如何提高错误发现的准确性。这一方法为未来开发更复杂的错误发现方法提供了概念验证。

导航菜单