查看“WikiEdge:ArXiv-2402.12875/summary”的源代码
←
WikiEdge:ArXiv-2402.12875/summary
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2402.12875/summary|action=edit}} 编辑]</div> 这篇论文深入探讨了[[链式思考]]([[Chain of Thought]], [[CoT]])如何增强[[大型语言模型]]([[Large Language Models]], [[LLMs]])在算术和符号推理任务中的准确性。主要内容包括: # '''引言''':介绍了大型语言模型在复杂推理任务中表现出色,通过生成中间步骤或链式思考(CoT)来解锁这些高级推理能力。论文假设CoT允许进行更多序列计算,这是标准[[变换器]]所不能的。 # '''符号和预备知识''':定义了自然数集和实数集,引入了[[ReLU函数]]、向量和矩阵的相关操作,以及多项式增长率和二进制表示等概念。详细描述了仅解码器变换器的结构,包括嵌入层、位置编码层、输出层和解码器层。 # '''带有链式思考的变换器的表达能力理论''':从理论上研究了带有CoT的变换器的表达能力,定义了有限精度模型,并提出了更紧确的表达能力上界。证明了带有T步CoT的恒定深度变换器可以解决任何可由[[布尔电路]]解决的问题。 # '''CoT使变换器更具表达力''':展示了CoT如何显著提高变换器在固有序列问题上的准确性,包括置换群的组合、迭代平方和电路值问题等任务。 # '''相关工作''':讨论了神经网络在算法推理方面的能力,包括自注意力机制的低复杂度电路创建能力,以及从训练模型中提取可解释符号计算的可能性。 # '''结论''':总结了CoT通过表达能力的角度增强了仅解码器变换器的能力,并通过电路复杂性的语言定义了新的复杂性类别CoT。实验验证了理论,并发现对于固有序列问题,使用CoT的变换器能够更准确地表达真实函数。
返回
WikiEdge:ArXiv-2402.12875/summary
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息