查看“WikiEdge:ArXiv-2409.17172”的源代码

* '''标题'''：What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning
* '''中文标题'''：你第一次看到 $a^2+b^2=c^2$ 时会问什么？评估大型语言模型在好奇驱动的提问上的表现
* '''发布日期'''：2024-09-19 22:12:16+00:00
* '''作者'''：Shashidhar Reddy Javaji, Zining Zhu
* '''分类'''：cs.CL, cs.AI, cs.LG
*'''原文链接'''：http://arxiv.org/abs/2409.17172v1
'''摘要'''：大型语言模型（LLMs）可以存储大量的知识，然而它们获取新知识的潜力尚未知。我们提出了一个新的评估框架来评估这种能力。该框架提示LLMs生成关于介绍科学知识的陈述的问题，模拟一个好奇的人第一次面对这个陈述时的情况。我们对生成的问题的质量进行评分，从而评估LLM的知识获取潜力。我们应用了受控的消融研究来验证我们的评分程序。此外，我们创建了一个合成数据集，包括1101个在物理、化学和数学中具有不同难度级别的陈述，300个一般知识陈述，和567个错误的陈述。我们进行了人类评估来验证我们的模型评估，所有三个考虑的指标上的加权Cohen's kappa约为0.7。我们发现，尽管像GPT-4和Mistral 8x7b这样的大型模型擅长生成连贯和相关的问题，但较小的Phi-2模型同样或更有效。这表明，大小并不是决定模型知识获取潜力的唯一因素。所提出的框架量化了一个常被忽视的关键模型能力，并为开发更有知识的AI系统提供了研究机会。