查看“WikiEdge:ArXiv-2402.12875/abs”的源代码
←
WikiEdge:ArXiv-2402.12875/abs
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2402.12875/abs|action=edit}} 编辑]</div> * '''标题''':Chain of Thought Empowers [[Transformers]] to Solve Inherently Serial Problems * '''中文标题''':思维链赋能变压器解决固有串行问题 * '''发布日期''':2024-02-20 10:11:03+00:00 * '''作者''':Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma * '''分类''':cs.LG, cs.CC, stat.ML * '''原文链接''':http://arxiv.org/abs/2402.12875 '''摘要''':通过指示模型生成一系列中间步骤,即[[链式思维]](CoT),是一种提高大型语言模型([[LLMs]])在算术和符号推理任务上准确性的有效方法。然而,CoT 背后的机制仍然不清楚。本研究通过[[表达能力]]的视角提供了对解码器仅变换器的 CoT 力量的理论理解。从概念上讲,CoT 赋予模型执行固有串行计算的能力,而这在变换器中是缺乏的,尤其是在深度较低的情况下。给定输入长度 $n$,之前的研究表明,具有有限精度 $\mathsf{poly}(n)$ 嵌入大小的常量深度变换器在没有 CoT 的情况下只能解决 $\mathsf{TC}^0$ 中的问题。我们首先展示了一个更紧的表达能力上界,对于具有常量位精度的常量深度变换器,它们只能解决 $\mathsf{AC}^0$ 中的问题,这是 $\mathsf{TC}^0$ 的一个真子集。然而,通过 $T$ 步 CoT,使用常量位精度和 $O(\log n)$ 嵌入大小的常量深度变换器可以解决任何可以通过大小为 $T$ 的布尔电路解决的问题。从经验上看,启用 CoT 显著提高了对于并行计算困难的任务的准确性,包括置换群的组合、迭代平方和电路值问题,尤其是对于低深度变换器。
返回
WikiEdge:ArXiv-2402.12875/abs
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息