查看“WikiEdge:ArXiv-2402.12875/summary”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2402.12875/summary|action=edit}} 编辑]</div>
这篇论文深入探讨了[[链式思考]]（[[Chain of Thought]], [[CoT]]）如何增强[[大型语言模型]]（[[Large Language Models]], [[LLMs]]）在算术和符号推理任务中的准确性。主要内容包括：
# '''引言'''：介绍了大型语言模型在复杂推理任务中表现出色，通过生成中间步骤或链式思考（CoT）来解锁这些高级推理能力。论文假设CoT允许进行更多序列计算，这是标准[[变换器]]所不能的。
# '''符号和预备知识'''：定义了自然数集和实数集，引入了[[ReLU函数]]、向量和矩阵的相关操作，以及多项式增长率和二进制表示等概念。详细描述了仅解码器变换器的结构，包括嵌入层、位置编码层、输出层和解码器层。
# '''带有链式思考的变换器的表达能力理论'''：从理论上研究了带有CoT的变换器的表达能力，定义了有限精度模型，并提出了更紧确的表达能力上界。证明了带有T步CoT的恒定深度变换器可以解决任何可由[[布尔电路]]解决的问题。
# '''CoT使变换器更具表达力'''：展示了CoT如何显著提高变换器在固有序列问题上的准确性，包括置换群的组合、迭代平方和电路值问题等任务。
# '''相关工作'''：讨论了神经网络在算法推理方面的能力，包括自注意力机制的低复杂度电路创建能力，以及从训练模型中提取可解释符号计算的可能性。
# '''结论'''：总结了CoT通过表达能力的角度增强了仅解码器变换器的能力，并通过电路复杂性的语言定义了新的复杂性类别CoT。实验验证了理论，并发现对于固有序列问题，使用CoT的变换器能够更准确地表达真实函数。