查看“WikiEdge:ArXiv-2402.12875/background”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2402.12875/background|action=edit}} 编辑]</div>
这篇文献的背景主要集中在以下几个方面：
# '''大型语言模型（[[Large Language Models]]，LLMs）的复杂推理能力'''：
#* LLMs在复杂推理任务中表现出色，例如解决[[数学问题]]和[[代码生成]]，其性能远超标准的[[监督学习]]技术。
#* 通过生成中间步骤或[[思维链]]（[[Chain of Thought]]，CoT），LLMs能够解锁更高级的推理能力，这可以通过训练或通过少量样本提示来实现。
# '''思维链（CoT）对模型性能的影响'''：
#* CoT的有效性不仅限于训练或示例调整，甚至在[[零样本提示]]和使用不正确推理步骤的示例中也表现出色，表明CoT提示的形式与内容同等重要。
# '''CoT的理论理解'''：
#* 尽管CoT在实践中有效，但其背后的机制尚不清楚。本研究旨在通过[[表达能力]]的理论视角来研究CoT如何增强LLMs的推理能力。
# '''并行计算与串行计算的对比'''：
#* 标准的[[解码器]]仅[[Transformers]]（直接输出答案）被认为是高效的并行计算机，而CoT允许模型进行串行计算，这在没有CoT的情况下是缺乏的，尤其是在深度较低时。
综上所述，这篇文献的背景强调了CoT在提高LLMs解决固有串行问题的能力方面的重要性，并探讨了其背后的理论基础。