WikiEdge:ArXiv-2409.17172:修订间差异
跳转到导航
跳转到搜索
Saved page by David |
Updated page by David |
||
第6行: | 第6行: | ||
*'''原文链接''':http://arxiv.org/abs/2409.17172v1 | *'''原文链接''':http://arxiv.org/abs/2409.17172v1 | ||
'''摘要''':大型语言模型(LLMs)可以存储大量的知识,然而它们获取新知识的潜力尚未知。我们提出了一个新的评估框架来评估这种能力。该框架提示LLMs生成关于介绍科学知识的陈述的问题,模拟一个好奇的人第一次面对这个陈述时的情况。我们对生成的问题的质量进行评分,从而评估LLM的知识获取潜力。我们应用了受控的消融研究来验证我们的评分程序。此外,我们创建了一个合成数据集,包括1101个在物理、化学和数学中具有不同难度级别的陈述,300个一般知识陈述,和567个错误的陈述。我们进行了人类评估来验证我们的模型评估,所有三个考虑的指标上的加权Cohen's kappa约为0.7。我们发现,尽管像GPT-4和Mistral 8x7b这样的大型模型擅长生成连贯和相关的问题,但较小的Phi-2模型同样或更有效。这表明,大小并不是决定模型知识获取潜力的唯一因素。所提出的框架量化了一个常被忽视的关键模型能力,并为开发更有知识的AI系统提供了研究机会。 | '''摘要''':大型语言模型(LLMs)可以存储大量的知识,然而它们获取新知识的潜力尚未知。我们提出了一个新的评估框架来评估这种能力。该框架提示LLMs生成关于介绍科学知识的陈述的问题,模拟一个好奇的人第一次面对这个陈述时的情况。我们对生成的问题的质量进行评分,从而评估LLM的知识获取潜力。我们应用了受控的消融研究来验证我们的评分程序。此外,我们创建了一个合成数据集,包括1101个在物理、化学和数学中具有不同难度级别的陈述,300个一般知识陈述,和567个错误的陈述。我们进行了人类评估来验证我们的模型评估,所有三个考虑的指标上的加权Cohen's kappa约为0.7。我们发现,尽管像GPT-4和Mistral 8x7b这样的大型模型擅长生成连贯和相关的问题,但较小的Phi-2模型同样或更有效。这表明,大小并不是决定模型知识获取潜力的唯一因素。所提出的框架量化了一个常被忽视的关键模型能力,并为开发更有知识的AI系统提供了研究机会。 | ||
== 问题与动机 == | |||
作者的研究问题包括: | |||
* [[大型语言模型]](LLMs)在存储大量知识的同时,它们获取新知识的潜力如何? | |||
* 如何评估LLMs提出问题的能力,即它们在面对新知识时的好奇心驱动的问题生成能力? | |||
* 不同大小的LLMs在生成与[[科学知识]]介绍相关的、具有好奇心的问题方面的表现如何? | |||
* 模型规模是否是决定LLMs知识获取潜力的唯一因素? | |||
* 如何通过评估框架量化LLMs的关键能力,尤其是它们提出问题的能力? | |||
* 在[[教育]]、[[推理]]、[[事实检查]]等领域,提问的重要性如何体现在LLMs的评估中? | |||
* 如何设计一个评估框架来模拟人类首次面对一个新陈述时的好奇心驱动的问题生成? | |||
* 如何通过人工评估和受控的消融研究来验证LLMs生成的问题的质量? | |||
* 如何创建一个包含不同难度级别的[[物理]]、[[化学]]和[[数学]]陈述的综合数据集,以及包含错误陈述的数据集,来挑战模型的批判性探究技能? | |||
* 如何通过增量噪声添加技术来验证LLM评估器的有效性? | |||
* 如何通过人类评估来验证LLMs生成的问题与人类评估之间的一致性? | |||
* 如何通过引入噪声来评估LLMs在处理质量受损数据输入时的表现? |
2024年9月28日 (六) 03:34的版本
- 标题:What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning
- 中文标题:你第一次看到 $a^2+b^2=c^2$ 时会问什么?评估大型语言模型在好奇驱动的提问上的表现
- 发布日期:2024-09-19 22:12:16+00:00
- 作者:Shashidhar Reddy Javaji, Zining Zhu
- 分类:cs.CL, cs.AI, cs.LG
- 原文链接:http://arxiv.org/abs/2409.17172v1
摘要:大型语言模型(LLMs)可以存储大量的知识,然而它们获取新知识的潜力尚未知。我们提出了一个新的评估框架来评估这种能力。该框架提示LLMs生成关于介绍科学知识的陈述的问题,模拟一个好奇的人第一次面对这个陈述时的情况。我们对生成的问题的质量进行评分,从而评估LLM的知识获取潜力。我们应用了受控的消融研究来验证我们的评分程序。此外,我们创建了一个合成数据集,包括1101个在物理、化学和数学中具有不同难度级别的陈述,300个一般知识陈述,和567个错误的陈述。我们进行了人类评估来验证我们的模型评估,所有三个考虑的指标上的加权Cohen's kappa约为0.7。我们发现,尽管像GPT-4和Mistral 8x7b这样的大型模型擅长生成连贯和相关的问题,但较小的Phi-2模型同样或更有效。这表明,大小并不是决定模型知识获取潜力的唯一因素。所提出的框架量化了一个常被忽视的关键模型能力,并为开发更有知识的AI系统提供了研究机会。
问题与动机
作者的研究问题包括:
- 大型语言模型(LLMs)在存储大量知识的同时,它们获取新知识的潜力如何?
- 如何评估LLMs提出问题的能力,即它们在面对新知识时的好奇心驱动的问题生成能力?
- 不同大小的LLMs在生成与科学知识介绍相关的、具有好奇心的问题方面的表现如何?
- 模型规模是否是决定LLMs知识获取潜力的唯一因素?
- 如何通过评估框架量化LLMs的关键能力,尤其是它们提出问题的能力?
- 在教育、推理、事实检查等领域,提问的重要性如何体现在LLMs的评估中?
- 如何设计一个评估框架来模拟人类首次面对一个新陈述时的好奇心驱动的问题生成?
- 如何通过人工评估和受控的消融研究来验证LLMs生成的问题的质量?
- 如何创建一个包含不同难度级别的物理、化学和数学陈述的综合数据集,以及包含错误陈述的数据集,来挑战模型的批判性探究技能?
- 如何通过增量噪声添加技术来验证LLM评估器的有效性?
- 如何通过人类评估来验证LLMs生成的问题与人类评估之间的一致性?
- 如何通过引入噪声来评估LLMs在处理质量受损数据输入时的表现?