WikiEdge:ArXiv-2409.17172

標題：What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning
中文標題：你第一次看到 $a^2+b^2=c^2$ 時會問什麼？評估大型語言模型在好奇驅動的提問上的表現
發布日期：2024-09-19 22:12:16+00:00
作者：Shashidhar Reddy Javaji, Zining Zhu
分類：cs.CL, cs.AI, cs.LG
原文連結：http://arxiv.org/abs/2409.17172v1

摘要：大型語言模型（LLMs）可以存儲大量的知識，然而它們獲取新知識的潛力尚未知。我們提出了一個新的評估框架來評估這種能力。該框架提示LLMs生成關於介紹科學知識的陳述的問題，模擬一個好奇的人第一次面對這個陳述時的情況。我們對生成的問題的質量進行評分，從而評估LLM的知識獲取潛力。我們應用了受控的消融研究來驗證我們的評分程序。此外，我們創建了一個合成數據集，包括1101個在物理、化學和數學中具有不同難度級別的陳述，300個一般知識陳述，和567個錯誤的陳述。我們進行了人類評估來驗證我們的模型評估，所有三個考慮的指標上的加權Cohen's kappa約為0.7。我們發現，儘管像GPT-4和Mistral 8x7b這樣的大型模型擅長生成連貫和相關的問題，但較小的Phi-2模型同樣或更有效。這表明，大小並不是決定模型知識獲取潛力的唯一因素。所提出的框架量化了一個常被忽視的關鍵模型能力，並為開發更有知識的AI系統提供了研究機會。

WikiEdge:ArXiv-2409.17172

導覽選單

搜尋