WikiEdge:ArXiv-2402.12875/questions:修订间差异
跳转到导航
跳转到搜索
Saved page by David |
无编辑摘要 |
||
第1行: | 第1行: | ||
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2402.12875/questions|action=edit}} 编辑]</div> | <div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2402.12875/questions|action=edit}} 编辑]</div> | ||
作者面对的是大型语言模型([[LLMs]])在解决算术和符号推理任务时的准确性问题。具体问题包括: | 作者面对的是大型语言模型([[LLMs]])在解决算术和符号推理任务时的准确性问题。具体问题包括: | ||
* 并行计算的局限性:传统的[[Transformer]]模型在处理需要串行计算的问题时存在固有的局限性,尤其是在模型深度较低时。 | |||
* 表达能力的限制:先前研究表明,具有有限精度多项式([[poly(n)]])嵌入大小的恒定深度 Transformer 在没有[[思维链]]([[CoT]])的情况下,只能解决[[TC0]]类问题,而对于需要更复杂计算的问题则束手无策。 | |||
* 思维链([[CoT]])的有效性:尽管[[CoT]]已被证明可以显著提高[[LLMs]]在复杂推理任务上的准确性,但其背后的机制尚不清楚,需要进一步的理论分析和实证研究来揭示其提升模型推理能力的原因。 |