WikiEdge:MedRxiv-2024.09.18.24313828

出自WikiEdge
於 2024年9月23日 (一) 09:37 由 David留言 | 貢獻 所做的修訂 (Saved page by David)
(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)
跳至導覽 跳至搜尋
  • 標題:Leveraging large language models for systematic reviewing: A case study using HIV medication adherence research
  • 中文標題:利用大型語言模型進行系統性審查:以HIV藥物依從性研究為例
  • 發布日期:2024-09-19
  • 作者:Lessani, M. N.; Li, Z.; Qiao, S.; Ning, H.; Aggarwal, A.; Yuan, G. F.; Pasha, A.; Stirratt, M.; Scott-Sheldon, L. A. J.
  • 分類:hiv aids
  • 原文鏈接:10.1101/2024.09.18.24313828

摘要:背景:HIV領域的科學文獻積累迅速,準確且高效地評估相關文獻成為了一項重大挑戰。本研究探索了使用大型語言模型(LLMs),如ChatGPT,為系統評審選擇相關研究的潛力。方法:科學論文最初是通過使用預定義關鍵詞的布爾搜索策略從文獻數據庫搜索中獲得的。在15,839個獨特的記錄中,三位評審員根據預先指定的納入和排除標準,手動識別出39篇相關論文。在ChatGPT實驗中,超過10%的記錄被隨機選擇為實驗數據集,包括39篇手動識別的手稿。這些獨特的記錄(n=1,680)通過使用相同的預先指定的標準進行了ChatGPT-4的篩選。採用了四種策略,包括標準提示,即輸入-輸出(IO),零射擊學習的思維鏈(0-CoT),少射擊學習的CoT(FS-CoT),以及集成所有三種提示策略的多數投票。通過召回率,F分數和精確度度量來評估模型的性能。結果:不同ChatGPT配置的召回率(模型從所有輸入數據/記錄中成功識別和檢索的真實摘要的百分比)為0.82(IO),0.97(0-CoT),FS-CoT和多數投票提示都達到了召回率1.0。F分數為0.34(IO),0.29(0-CoT),0.39(FS-CoT),和0.46(多數投票)。精確度度量為0.22(IO),0.17(0-CoT),0.24(FS-CoT),和0.30 (多數投票)。計算時間分別為IO,0-CoT,FS-CoT,和多數投票的2.32,4.55,6.44,和13.30小時。處理1,680個獨特記錄的費用分別約為$63,$73,$186,和$325。結論:像ChatGPT這樣的LLMs對於系統評審是可行的,能夠有效地識別符合預先指定標準的研究。當採用更複雜的提示設計時,觀察到了更大的效率,即集成IO,0-CoT和FS-CoT提示技術(即,多數投票)。與手動方法相比,LLMs可以加快系統評審中的研究選擇過程,成本影響最小。