WikiEdge:ArXiv-2402.12875/abs
跳至導覽
跳至搜尋
- 標題:Chain of Thought Empowers Transformers to Solve Inherently Serial Problems
- 中文標題:思維鏈賦能 Transformer 解決固有串行問題
- 發佈日期:2024-02-20 10:11:03+00:00
- 作者:Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma
- 分類:cs.LG, cs.CC, stat.ML
- 原文連結:http://arxiv.org/abs/2402.12875
摘要:通過指示模型生成一系列中間步驟,即思維鏈(CoT),是一種提高大型語言模型(LLMs)在算術和符號推理任務上準確性的有效方法。然而,CoT 背後的機制仍然不清楚。本研究通過表達能力的視角提供了對解碼器僅為 Transformer 的 CoT 力量的理論理解。從概念上講,CoT 賦予模型執行固有串行計算的能力,而這在 Transformer 中是缺乏的,尤其是在深度較低的情況下。給定輸入長度 $n$,之前的研究表明,具有有限精度 $\mathsf{poly}(n)$ 嵌入大小的常量深度 Transformer 在沒有 CoT 的情況下只能解決 $\mathsf{TC}^0$ 中的問題。我們首先展示了一個更緊的表達能力上界,對於具有常量位精度的常量深度 Transformer,它們只能解決 $\mathsf{AC}^0$ 中的問題,這是 $\mathsf{TC}^0$ 的一個真子集。然而,通過 $T$ 步 CoT,使用常量位精度和 $O(\log n)$ 嵌入大小的常量深度 Transformer 可以解決任何可以通過大小為 $T$ 的布爾電路解決的問題。從經驗上看,啟用 CoT 顯著提高了對於並行計算困難的任務的準確性,包括置換群的組合、迭代平方和電路值問題,尤其是對於低深度的 Transformer 。