WikiEdge:ArXiv-2409.17172

出自WikiEdge
於 2024年9月28日 (六) 03:33 由 David留言 | 貢獻 所做的修訂 (Saved page by David)
(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)
跳至導覽 跳至搜尋
  • 標題:What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning
  • 中文標題:你第一次看到 $a^2+b^2=c^2$ 時會問什麼?評估大型語言模型在好奇驅動的提問上的表現
  • 發布日期:2024-09-19 22:12:16+00:00
  • 作者:Shashidhar Reddy Javaji, Zining Zhu
  • 分類:cs.CL, cs.AI, cs.LG
  • 原文連結http://arxiv.org/abs/2409.17172v1

摘要:大型語言模型(LLMs)可以存儲大量的知識,然而它們獲取新知識的潛力尚未知。我們提出了一個新的評估框架來評估這種能力。該框架提示LLMs生成關於介紹科學知識的陳述的問題,模擬一個好奇的人第一次面對這個陳述時的情況。我們對生成的問題的質量進行評分,從而評估LLM的知識獲取潛力。我們應用了受控的消融研究來驗證我們的評分程序。此外,我們創建了一個合成數據集,包括1101個在物理、化學和數學中具有不同難度級別的陳述,300個一般知識陳述,和567個錯誤的陳述。我們進行了人類評估來驗證我們的模型評估,所有三個考慮的指標上的加權Cohen's kappa約為0.7。我們發現,儘管像GPT-4和Mistral 8x7b這樣的大型模型擅長生成連貫和相關的問題,但較小的Phi-2模型同樣或更有效。這表明,大小並不是決定模型知識獲取潛力的唯一因素。所提出的框架量化了一個常被忽視的關鍵模型能力,並為開發更有知識的AI系統提供了研究機會。