WikiEdge:ArXiv-2402.12875/abs

標題：Chain of Thought Empowers Transformers to Solve Inherently Serial Problems
中文標題：思維鏈賦能 Transformer 解決固有串行問題
發佈日期：2024-02-20 10:11:03+00:00
作者：Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma
分類：cs.LG, cs.CC, stat.ML
原文連結：http://arxiv.org/abs/2402.12875

摘要：通過指示模型生成一系列中間步驟，即思維鏈（CoT），是一種提高大型語言模型（LLMs）在算術和符號推理任務上準確性的有效方法。然而，CoT 背後的機制仍然不清楚。本研究通過表達能力的視角提供了對解碼器僅為 Transformer 的 CoT 力量的理論理解。從概念上講，CoT 賦予模型執行固有串行計算的能力，而這在 Transformer 中是缺乏的，尤其是在深度較低的情況下。給定輸入長度 $n$，之前的研究表明，具有有限精度 $\mathsf{poly}(n)$ 嵌入大小的常量深度 Transformer 在沒有 CoT 的情況下只能解決 $\mathsf{TC}^0$ 中的問題。我們首先展示了一個更緊的表達能力上界，對於具有常量位精度的常量深度 Transformer，它們只能解決 $\mathsf{AC}^0$ 中的問題，這是 $\mathsf{TC}^0$ 的一個真子集。然而，通過 $T$ 步 CoT，使用常量位精度和 $O(\log n)$ 嵌入大小的常量深度 Transformer 可以解決任何可以通過大小為 $T$ 的布爾電路解決的問題。從經驗上看，啟用 CoT 顯著提高了對於並行計算困難的任務的準確性，包括置換群的組合、迭代平方和電路值問題，尤其是對於低深度的 Transformer 。

WikiEdge:ArXiv-2402.12875/abs

導覽菜單

搜尋