WikiEdge:ArXiv-2409.17172
- 标题:What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning
- 中文标题:你第一次看到 $a^2+b^2=c^2$ 时会问什么?评估大型语言模型在好奇驱动的提问上的表现
- 发布日期:2024-09-19 22:12:16+00:00
- 作者:Shashidhar Reddy Javaji, Zining Zhu
- 分类:cs.CL, cs.AI, cs.LG
- 原文链接:http://arxiv.org/abs/2409.17172v1
摘要:大型语言模型(LLMs)可以存储大量的知识,然而它们获取新知识的潜力尚未知。我们提出了一个新的评估框架来评估这种能力。该框架提示LLMs生成关于介绍科学知识的陈述的问题,模拟一个好奇的人第一次面对这个陈述时的情况。我们对生成的问题的质量进行评分,从而评估LLM的知识获取潜力。我们应用了受控的消融研究来验证我们的评分程序。此外,我们创建了一个合成数据集,包括1101个在物理、化学和数学中具有不同难度级别的陈述,300个一般知识陈述,和567个错误的陈述。我们进行了人类评估来验证我们的模型评估,所有三个考虑的指标上的加权Cohen's kappa约为0.7。我们发现,尽管像GPT-4和Mistral 8x7b这样的大型模型擅长生成连贯和相关的问题,但较小的Phi-2模型同样或更有效。这表明,大小并不是决定模型知识获取潜力的唯一因素。所提出的框架量化了一个常被忽视的关键模型能力,并为开发更有知识的AI系统提供了研究机会。