WikiEdge:ArXiv-2402.12875/abs
跳转到导航
跳转到搜索
- 标题:Chain of Thought Empowers Transformers to Solve Inherently Serial Problems
- 中文标题:思维链赋能 Transformer 解决固有串行问题
- 发布日期:2024-02-20 10:11:03+00:00
- 作者:Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma
- 分类:cs.LG, cs.CC, stat.ML
- 原文链接:http://arxiv.org/abs/2402.12875
摘要:通过指示模型生成一系列中间步骤,即思维链(CoT),是一种提高大型语言模型(LLMs)在算术和符号推理任务上准确性的有效方法。然而,CoT 背后的机制仍然不清楚。本研究通过表达能力的视角提供了对解码器仅为 Transformer 的 CoT 力量的理论理解。从概念上讲,CoT 赋予模型执行固有串行计算的能力,而这在 Transformer 中是缺乏的,尤其是在深度较低的情况下。给定输入长度 $n$,之前的研究表明,具有有限精度 $\mathsf{poly}(n)$ 嵌入大小的常量深度 Transformer 在没有 CoT 的情况下只能解决 $\mathsf{TC}^0$ 中的问题。我们首先展示了一个更紧的表达能力上界,对于具有常量位精度的常量深度 Transformer,它们只能解决 $\mathsf{AC}^0$ 中的问题,这是 $\mathsf{TC}^0$ 的一个真子集。然而,通过 $T$ 步 CoT,使用常量位精度和 $O(\log n)$ 嵌入大小的常量深度 Transformer 可以解决任何可以通过大小为 $T$ 的布尔电路解决的问题。从经验上看,启用 CoT 显著提高了对于并行计算困难的任务的准确性,包括置换群的组合、迭代平方和电路值问题,尤其是对于低深度的 Transformer 。