WikiEdge:ArXiv-2301.06627

来自WikiEdge
David留言 | 贡献2024年9月21日 (六) 19:03的版本 (Saved page by David)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索
  • 标题:Dissociating language and thought in large language models
  • 中文标题:解构大型语言模型中的语言和思维
  • 发布日期:2023-01-16 22:41:19+00:00
  • 作者:Kyle Mahowald, Anna A. Ivanova, Idan A. Blank, Nancy Kanwisher, Joshua B. Tenenbaum, Evelina Fedorenko
  • 分类:cs.CL, cs.AI
  • 原文链接http://arxiv.org/abs/2301.06627v3

摘要:大型语言模型(LLMs)在迄今为止的所有模型中,最接近于掌握人类语言,然而对它们的语言和认知能力的看法仍然存在分歧。在这里,我们使用语言形式能力——语言规则和模式的知识——和功能语言能力——理解和使用语言——之间的区别来评估LLMs。我们将这种区别基于人类神经科学,它已经显示出形式和功能能力依赖于不同的神经机制。尽管LLMs在形式能力上表现出惊人的优势,但它们在功能能力任务上的表现仍然不稳定,通常需要专门的微调和/或与外部模块的耦合。我们认为,以人类方式使用语言的模型需要掌握这两种能力,这反过来可能需要形式语言能力的专门机制的出现,这与功能能力是不同的。