WikiEdge:ArXiv-2409.17172
- 標題:What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning
- 中文標題:你第一次看到 $a^2+b^2=c^2$ 時會問什麼?評估大型語言模型在好奇驅動的提問上的表現
- 發佈日期:2024-09-19 22:12:16+00:00
- 作者:Shashidhar Reddy Javaji, Zining Zhu
- 分類:cs.CL, cs.AI, cs.LG
- 原文連結:http://arxiv.org/abs/2409.17172v1
摘要:大型語言模型(LLMs)可以存儲大量的知識,然而它們獲取新知識的潛力尚未知。我們提出了一個新的評估框架來評估這種能力。該框架提示LLMs生成關於介紹科學知識的陳述的問題,模擬一個好奇的人第一次面對這個陳述時的情況。我們對生成的問題的質量進行評分,從而評估LLM的知識獲取潛力。我們應用了受控的消融研究來驗證我們的評分程序。此外,我們創建了一個合成數據集,包括1101個在物理、化學和數學中具有不同難度級別的陳述,300個一般知識陳述,和567個錯誤的陳述。我們進行了人類評估來驗證我們的模型評估,所有三個考慮的指標上的加權Cohen's kappa約為0.7。我們發現,儘管像GPT-4和Mistral 8x7b這樣的大型模型擅長生成連貫和相關的問題,但較小的Phi-2模型同樣或更有效。這表明,大小並不是決定模型知識獲取潛力的唯一因素。所提出的框架量化了一個常被忽視的關鍵模型能力,並為開發更有知識的AI系統提供了研究機會。
問題與動機
作者的研究問題包括:
- 大型語言模型(LLMs)在存儲大量知識的同時,它們獲取新知識的潛力如何?
- 如何評估LLMs提出問題的能力,即它們在面對新知識時的好奇心驅動的問題生成能力?
- 不同大小的LLMs在生成與科學知識介紹相關的、具有好奇心的問題方面的表現如何?
- 模型規模是否是決定LLMs知識獲取潛力的唯一因素?
- 如何通過評估框架量化LLMs的關鍵能力,尤其是它們提出問題的能力?
- 在教育、推理、事實檢查等領域,提問的重要性如何體現在LLMs的評估中?
- 如何設計一個評估框架來模擬人類首次面對一個新陳述時的好奇心驅動的問題生成?
- 如何通過人工評估和受控的消融研究來驗證LLMs生成的問題的質量?
- 如何創建一個包含不同難度級別的物理、化學和數學陳述的綜合數據集,以及包含錯誤陳述的數據集,來挑戰模型的批判性探究技能?
- 如何通過增量噪聲添加技術來驗證LLM評估器的有效性?
- 如何通過人類評估來驗證LLMs生成的問題與人類評估之間的一致性?
- 如何通過引入噪聲來評估LLMs在處理質量受損數據輸入時的表現?