WikiEdge:ArXiv-2402.12875/abs:修订间差异

来自WikiEdge
跳转到导航 跳转到搜索
David留言 | 贡献
Saved page by David
 
无编辑摘要
 
第1行: 第1行:
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2402.12875/abs|action=edit}} 编辑]</div>
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2402.12875/abs|action=edit}} 编辑]</div>
* '''标题''':Chain of Thought Empowers [[Transformers]] to Solve Inherently Serial Problems
* '''标题''':Chain of Thought Empowers [[Transformers]] to Solve Inherently Serial Problems
* '''中文标题''':思维链赋能变压器解决固有串行问题
* '''中文标题''':思维链赋能 Transformer 解决固有串行问题
* '''发布日期''':2024-02-20 10:11:03+00:00
* '''发布日期''':2024-02-20 10:11:03+00:00
* '''作者''':Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma
* '''作者''':Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma
* '''分类''':cs.LG, cs.CC, stat.ML
* '''分类''':cs.LG, cs.CC, stat.ML
* '''原文链接''':http://arxiv.org/abs/2402.12875
* '''原文链接''':http://arxiv.org/abs/2402.12875
'''摘要''':通过指示模型生成一系列中间步骤,即[[链式思维]](CoT),是一种提高大型语言模型([[LLMs]])在算术和符号推理任务上准确性的有效方法。然而,CoT 背后的机制仍然不清楚。本研究通过[[表达能力]]的视角提供了对解码器仅变换器的 CoT 力量的理论理解。从概念上讲,CoT 赋予模型执行固有串行计算的能力,而这在变换器中是缺乏的,尤其是在深度较低的情况下。给定输入长度 $n$,之前的研究表明,具有有限精度 $\mathsf{poly}(n)$ 嵌入大小的常量深度变换器在没有 CoT 的情况下只能解决 $\mathsf{TC}^0$ 中的问题。我们首先展示了一个更紧的表达能力上界,对于具有常量位精度的常量深度变换器,它们只能解决 $\mathsf{AC}^0$ 中的问题,这是 $\mathsf{TC}^0$ 的一个真子集。然而,通过 $T$ 步 CoT,使用常量位精度和 $O(\log n)$ 嵌入大小的常量深度变换器可以解决任何可以通过大小为 $T$ 的布尔电路解决的问题。从经验上看,启用 CoT 显著提高了对于并行计算困难的任务的准确性,包括置换群的组合、迭代平方和电路值问题,尤其是对于低深度变换器
'''摘要''':通过指示模型生成一系列中间步骤,即[[思维]](CoT),是一种提高大型语言模型([[LLMs]])在算术和符号推理任务上准确性的有效方法。然而,CoT 背后的机制仍然不清楚。本研究通过[[表达能力]]的视角提供了对解码器仅为 Transformer 的 CoT 力量的理论理解。从概念上讲,CoT 赋予模型执行固有串行计算的能力,而这在 Transformer 中是缺乏的,尤其是在深度较低的情况下。给定输入长度 $n$,之前的研究表明,具有有限精度 $\mathsf{poly}(n)$ 嵌入大小的常量深度 Transformer 在没有 CoT 的情况下只能解决 $\mathsf{TC}^0$ 中的问题。我们首先展示了一个更紧的表达能力上界,对于具有常量位精度的常量深度 Transformer,它们只能解决 $\mathsf{AC}^0$ 中的问题,这是 $\mathsf{TC}^0$ 的一个真子集。然而,通过 $T$ 步 CoT,使用常量位精度和 $O(\log n)$ 嵌入大小的常量深度 Transformer 可以解决任何可以通过大小为 $T$ 的布尔电路解决的问题。从经验上看,启用 CoT 显著提高了对于并行计算困难的任务的准确性,包括置换群的组合、迭代平方和电路值问题,尤其是对于低深度的 Transformer

2024年9月18日 (三) 08:03的最新版本

编辑
  • 标题:Chain of Thought Empowers Transformers to Solve Inherently Serial Problems
  • 中文标题:思维链赋能 Transformer 解决固有串行问题
  • 发布日期:2024-02-20 10:11:03+00:00
  • 作者:Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma
  • 分类:cs.LG, cs.CC, stat.ML
  • 原文链接http://arxiv.org/abs/2402.12875

摘要:通过指示模型生成一系列中间步骤,即思维链(CoT),是一种提高大型语言模型(LLMs)在算术和符号推理任务上准确性的有效方法。然而,CoT 背后的机制仍然不清楚。本研究通过表达能力的视角提供了对解码器仅为 Transformer 的 CoT 力量的理论理解。从概念上讲,CoT 赋予模型执行固有串行计算的能力,而这在 Transformer 中是缺乏的,尤其是在深度较低的情况下。给定输入长度 $n$,之前的研究表明,具有有限精度 $\mathsf{poly}(n)$ 嵌入大小的常量深度 Transformer 在没有 CoT 的情况下只能解决 $\mathsf{TC}^0$ 中的问题。我们首先展示了一个更紧的表达能力上界,对于具有常量位精度的常量深度 Transformer,它们只能解决 $\mathsf{AC}^0$ 中的问题,这是 $\mathsf{TC}^0$ 的一个真子集。然而,通过 $T$ 步 CoT,使用常量位精度和 $O(\log n)$ 嵌入大小的常量深度 Transformer 可以解决任何可以通过大小为 $T$ 的布尔电路解决的问题。从经验上看,启用 CoT 显著提高了对于并行计算困难的任务的准确性,包括置换群的组合、迭代平方和电路值问题,尤其是对于低深度的 Transformer 。