查看“WikiEdge:ArXiv-2409.17172”的源代码
←
WikiEdge:ArXiv-2409.17172
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
* '''标题''':What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning * '''中文标题''':你第一次看到 $a^2+b^2=c^2$ 时会问什么?评估大型语言模型在好奇驱动的提问上的表现 * '''发布日期''':2024-09-19 22:12:16+00:00 * '''作者''':Shashidhar Reddy Javaji, Zining Zhu * '''分类''':cs.CL, cs.AI, cs.LG *'''原文链接''':http://arxiv.org/abs/2409.17172v1 '''摘要''':大型语言模型(LLMs)可以存储大量的知识,然而它们获取新知识的潜力尚未知。我们提出了一个新的评估框架来评估这种能力。该框架提示LLMs生成关于介绍科学知识的陈述的问题,模拟一个好奇的人第一次面对这个陈述时的情况。我们对生成的问题的质量进行评分,从而评估LLM的知识获取潜力。我们应用了受控的消融研究来验证我们的评分程序。此外,我们创建了一个合成数据集,包括1101个在物理、化学和数学中具有不同难度级别的陈述,300个一般知识陈述,和567个错误的陈述。我们进行了人类评估来验证我们的模型评估,所有三个考虑的指标上的加权Cohen's kappa约为0.7。我们发现,尽管像GPT-4和Mistral 8x7b这样的大型模型擅长生成连贯和相关的问题,但较小的Phi-2模型同样或更有效。这表明,大小并不是决定模型知识获取潜力的唯一因素。所提出的框架量化了一个常被忽视的关键模型能力,并为开发更有知识的AI系统提供了研究机会。 == 问题与动机 == 作者的研究问题包括: * [[大型语言模型]](LLMs)在存储大量知识的同时,它们获取新知识的潜力如何? * 如何评估LLMs提出问题的能力,即它们在面对新知识时的好奇心驱动的问题生成能力? * 不同大小的LLMs在生成与[[科学知识]]介绍相关的、具有好奇心的问题方面的表现如何? * 模型规模是否是决定LLMs知识获取潜力的唯一因素? * 如何通过评估框架量化LLMs的关键能力,尤其是它们提出问题的能力? * 在[[教育]]、[[推理]]、[[事实检查]]等领域,提问的重要性如何体现在LLMs的评估中? * 如何设计一个评估框架来模拟人类首次面对一个新陈述时的好奇心驱动的问题生成? * 如何通过人工评估和受控的消融研究来验证LLMs生成的问题的质量? * 如何创建一个包含不同难度级别的[[物理]]、[[化学]]和[[数学]]陈述的综合数据集,以及包含错误陈述的数据集,来挑战模型的批判性探究技能? * 如何通过增量噪声添加技术来验证LLM评估器的有效性? * 如何通过人类评估来验证LLMs生成的问题与人类评估之间的一致性? * 如何通过引入噪声来评估LLMs在处理质量受损数据输入时的表现? == 背景介绍 == 这篇文献的背景主要集中在以下几个方面: # '''大型语言模型的知识获取潜力''': #* 尽管[[大型语言模型]](LLMs)能够存储大量的知识,但它们获取新知识的能力仍然是未知的。 #* 传统的评估方法,如[[提问]]和指令遵循,未能充分揭示LLMs在发现新知识方面的潜力。 #* 本研究从人类如何发现新知识的启发出发,即出于[[好奇心]]提问。 # '''提问在学习和知识获取中的关键作用''': #* 提问是支撑学习和知识获取的关键认知技能。 #* 通过提问,人们寻求理解周围的世界,探索事物的工作原理,并挑战现有的信念。 #* 这种探究行为不仅帮助人类学习新信息,还促进了批判性思维、分析和创新。 #* 在教育中,提问与分析、综合和评估等高阶思维技能密切相关。 #* 提问的复杂性和深度通常反映了个人对主题的掌握和理解程度。 #* 在推理和事实核查中,提问也起着至关重要的作用,因为提出有见地的问题需要逻辑思考、澄清假设、识别知识差距和探索替代观点。 #* [[OpenAI]]的o1模型使用其自身的“思维链”方法,通过结构化推理和迭代询问/提问来提炼和增强其输出。 #* 经过深思熟虑的问题对于彻底和逻辑的推理至关重要。 #* 提问对于事实核查同样重要,好的问题通过识别信息中的空白、偏见和不一致性来指导验证过程。 #* 有效的事实核查需要背景和细微差别,好的问题可以帮助揭示虚假或误导性的信息。 #* 提问在许多其他领域也发挥着重要作用,如激发创造力、促进讨论和推动创新。 #* 受人类提问的启发,本研究提出了一个框架,直接评估LLMs发现新知识的潜力。 #* 该框架设置了一个任务,即好奇心驱动的问题生成(CDQG),其中我们提示模型将自己想象成第一次遇到新陈述的人类,引发最直接产生的疑问。 #* 然后我们根据三个关键指标—相关性、连贯性和多样性—对这些问题进行评分,这些评分基于心理学文献中的根源。 #* 我们使用最好的LLMs来计算这些分数,并通过人类判断和严格的消融研究来验证这些分数。 #* 为了促进严格和普遍的评估,我们收集了一个包含[[物理]]、[[化学]]和[[数学]]陈述的数据集,这些陈述涵盖了不同的难度级别。 #* 值得注意的是,我们的数据集包括一个特殊部分的错误陈述,旨在挑战模型的关键探究技能。 #* 我们评估了各种模型,从像Phi-2这样的较小模型到像GPT-4和Gemini这样的较大模型。 #* 虽然较大的模型在连贯性和相关性方面得分较高,但较小的Phi-2模型得分相当好(甚至更好),表明大小可能不是知识获取潜力的唯一因素。 综上所述,这篇文献的背景强调了评估LLMs在模拟人类探究方面的能力的重要性,并提出了一个评估框架来量化通常被忽视的关键模型能力,为开发更具知识性的[[AI系统]]提供了研究机会。
返回
WikiEdge:ArXiv-2409.17172
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息