WikiEdge:ArXiv-2402.12875/terms:修订间差异
跳转到导航
跳转到搜索
Saved page by David |
小无编辑摘要 |
||
第1行: | 第1行: | ||
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2402.12875/terms|action=edit}} 编辑]</div> | <div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2402.12875/terms|action=edit}} 编辑]</div> | ||
这篇文章的术语表如下: | 这篇文章的术语表如下: | ||
* [[链 | * [[思维链]](Chain of Thought, CoT):指在生成最终答案之前,模型生成一系列中间步骤的过程,对于提高[[大型语言模型]]在算术和符号推理任务上的准确性非常有效。 | ||
* [[大型语言模型]](Large Language Models, LLMs):在复杂推理任务中展现出卓越能力的模型,如数学问题解决和代码生成。 | * [[大型语言模型]](Large Language Models, LLMs):在复杂推理任务中展现出卓越能力的模型,如数学问题解决和代码生成。 | ||
* [[自注意力机制]](Self-Attention Mechanism):一种允许模型在序列的不同部分之间建立直接依赖关系的机制,是[[Transformer]]架构的关键组成部分。 | * [[自注意力机制]](Self-Attention Mechanism):一种允许模型在序列的不同部分之间建立直接依赖关系的机制,是[[Transformer]]架构的关键组成部分。 |
2024年9月18日 (三) 08:12的最新版本
这篇文章的术语表如下:
- 思维链(Chain of Thought, CoT):指在生成最终答案之前,模型生成一系列中间步骤的过程,对于提高大型语言模型在算术和符号推理任务上的准确性非常有效。
- 大型语言模型(Large Language Models, LLMs):在复杂推理任务中展现出卓越能力的模型,如数学问题解决和代码生成。
- 自注意力机制(Self-Attention Mechanism):一种允许模型在序列的不同部分之间建立直接依赖关系的机制,是Transformer架构的关键组成部分。
- 并行计算(Parallel Computing):指同时使用多个计算资源来执行计算任务,以提高处理速度和效率。
- 串行计算(Serial Computing):与并行计算相对,指按顺序逐步执行计算任务,通常在单个处理器上完成。
- 嵌入尺寸(Embedding Size):在自然语言处理中,指将词汇映射到的高维空间中的维度大小。
- 精度(Precision):在计算模型中,指浮点数表示中有效数字的位数,影响计算的准确性。
- 并行时间(Parallel Time):指并行算法完成计算所需的时间,通常与问题规模和处理器数量有关。
- AC0:一种计算复杂性类,包含可以使用常数深度和多项式宽度的电路解决的问题。
- TC0:另一种计算复杂性类,与AC0类似,但允许使用MAJORITY门,这是一种可以并行计算多数函数的门。