WikiEdge:ArXiv-2409.17172
- 標題:What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning
- 中文標題:你第一次看到 $a^2+b^2=c^2$ 時會問什麼?評估大型語言模型在好奇驅動的提問上的表現
- 發布日期:2024-09-19 22:12:16+00:00
- 作者:Shashidhar Reddy Javaji, Zining Zhu
- 分類:cs.CL, cs.AI, cs.LG
- 原文鏈接:http://arxiv.org/abs/2409.17172v1
摘要:大型語言模型(LLMs)可以存儲大量的知識,然而它們獲取新知識的潛力尚未知。我們提出了一個新的評估框架來評估這種能力。該框架提示LLMs生成關於介紹科學知識的陳述的問題,模擬一個好奇的人第一次面對這個陳述時的情況。我們對生成的問題的質量進行評分,從而評估LLM的知識獲取潛力。我們應用了受控的消融研究來驗證我們的評分程序。此外,我們創建了一個合成數據集,包括1101個在物理、化學和數學中具有不同難度級別的陳述,300個一般知識陳述,和567個錯誤的陳述。我們進行了人類評估來驗證我們的模型評估,所有三個考慮的指標上的加權Cohen's kappa約為0.7。我們發現,儘管像GPT-4和Mistral 8x7b這樣的大型模型擅長生成連貫和相關的問題,但較小的Phi-2模型同樣或更有效。這表明,大小並不是決定模型知識獲取潛力的唯一因素。所提出的框架量化了一個常被忽視的關鍵模型能力,並為開發更有知識的AI系統提供了研究機會。