WikiEdge:MedRxiv-2024.09.18.24313828

出自WikiEdge
於 2024年9月23日 (一) 09:41 由 David對話 | 貢獻 所做的修訂 (Updated page by David)
跳至導覽 跳至搜尋
  • 標題:Leveraging large language models for systematic reviewing: A case study using HIV medication adherence research
  • 中文標題:利用大型語言模型進行系統性審查:以HIV藥物依從性研究為例
  • 發佈日期:2024-09-19
  • 作者:Lessani, M. N.; Li, Z.; Qiao, S.; Ning, H.; Aggarwal, A.; Yuan, G. F.; Pasha, A.; Stirratt, M.; Scott-Sheldon, L. A. J.
  • 分類:hiv aids
  • 原文連結:10.1101/2024.09.18.24313828

摘要:背景:HIV領域的科學文獻積累迅速,準確且高效地評估相關文獻成為了一項重大挑戰。本研究探索了使用大型語言模型(LLMs),如ChatGPT,為系統評審選擇相關研究的潛力。方法:科學論文最初是通過使用預定義關鍵詞的布爾搜索策略從文獻數據庫搜索中獲得的。在15,839個獨特的記錄中,三位評審員根據預先指定的納入和排除標準,手動識別出39篇相關論文。在ChatGPT實驗中,超過10%的記錄被隨機選擇為實驗數據集,包括39篇手動識別的手稿。這些獨特的記錄(n=1,680)通過使用相同的預先指定的標準進行了ChatGPT-4的篩選。採用了四種策略,包括標準提示,即輸入-輸出(IO),零射擊學習的思維鏈(0-CoT),少射擊學習的CoT(FS-CoT),以及集成所有三種提示策略的多數投票。通過召回率,F分數和精確度度量來評估模型的性能。結果:不同ChatGPT配置的召回率(模型從所有輸入數據/記錄中成功識別和檢索的真實摘要的百分比)為0.82(IO),0.97(0-CoT),FS-CoT和多數投票提示都達到了召回率1.0。F分數為0.34(IO),0.29(0-CoT),0.39(FS-CoT),和0.46(多數投票)。精確度度量為0.22(IO),0.17(0-CoT),0.24(FS-CoT),和0.30 (多數投票)。計算時間分別為IO,0-CoT,FS-CoT,和多數投票的2.32,4.55,6.44,和13.30小時。處理1,680個獨特記錄的費用分別約為$63,$73,$186,和$325。結論:像ChatGPT這樣的LLMs對於系統評審是可行的,能夠有效地識別符合預先指定標準的研究。當採用更複雜的提示設計時,觀察到了更大的效率,即集成IO,0-CoT和FS-CoT提示技術(即,多數投票)。與手動方法相比,LLMs可以加快系統評審中的研究選擇過程,成本影響最小。

問題與動機

作者面對的研究問題包括:

背景介紹

這篇文獻的研究背景主要集中在以下幾個方面:

科學文獻的快速增長

  • 科學文獻的快速增長給全面科學綜述帶來了顯著挑戰,這對於指導臨床決策公共政策至關重要。
  • 據估計,自1996年以來,已發表了超過6400萬篇科學手稿,新發表論文的增長率逐年上升。
  • 2020年至2022年間,發表論文的數量從468萬增加到514萬,增長率約為4.89%。

大型語言模型(LLMs)的應用潛力

  • 人們越來越關注如何利用大型語言模型(如ChatGPT)提高系統綜述中篩選過程的效率,這一過程傳統上是勞動密集型和耗時的。
  • LLMs因其在多個領域的卓越能力而受到學術界和工業界的關注,這些模型在處理廣泛的一般主題時表現出色。
  • 然而,當關注點轉向更專業或狹窄的主題時,使用標準提示(IO)的ChatGPT可能難以提供準確和相關的信息。
  • 提示工程(Prompt engineering)技術可以與標準提示相結合,以提高模型在專業任務中的表現。

HIV治療依從性研究的複雜性

  • HIV治療依從性干預研究的參與者具有多樣化的人口統計背景、共病狀況(如藥物使用、心理健康狀況)和社會邊緣身份(如種族/民族、性取向和性別少數群體)。
  • 治療依從性干預措施包括多種不同的方法和多層次組成部分(如諮詢、同伴支持、短訊提醒、減少HIV污名等)。
  • HIV藥物依從性干預研究的結果從行為結果(ART使用或使用)到臨床結果(如CD4計數和病毒載量),可能包括多種測量工具,如自我報告、藥片計數、電子健康記錄和藥物水平測定。

綜上所述,這篇文獻的背景強調了科學文獻的快速增長、大型語言模型在提高系統綜述篩選效率方面的應用潛力,以及HIV治療依從性研究的複雜性。