WikiEdge:ArXiv-2301.06627
- 标题:Dissociating language and thought in large language models
- 中文标题:解构大型语言模型中的语言和思维
- 发布日期:2023-01-16 22:41:19+00:00
- 作者:Kyle Mahowald, Anna A. Ivanova, Idan A. Blank, Nancy Kanwisher, Joshua B. Tenenbaum, Evelina Fedorenko
- 分类:cs.CL, cs.AI
- 原文链接:http://arxiv.org/abs/2301.06627v3
摘要:大型语言模型(LLMs)在迄今为止的所有模型中,最接近于掌握人类语言,然而对它们的语言和认知能力的看法仍然存在分歧。在这里,我们使用语言形式能力——语言规则和模式的知识——和功能语言能力——理解和使用语言——之间的区别来评估LLMs。我们将这种区别基于人类神经科学,它已经显示出形式和功能能力依赖于不同的神经机制。尽管LLMs在形式能力上表现出惊人的优势,但它们在功能能力任务上的表现仍然不稳定,通常需要专门的微调和/或与外部模块的耦合。我们认为,以人类方式使用语言的模型需要掌握这两种能力,这反过来可能需要形式语言能力的专门机制的出现,这与功能能力是不同的。