WikiEdge:MedRxiv-2024.09.18.24313828
- 標題:Leveraging large language models for systematic reviewing: A case study using HIV medication adherence research
- 中文標題:利用大型語言模型進行系統性審查:以HIV藥物依從性研究為例
- 發布日期:2024-09-19
- 作者:Lessani, M. N.; Li, Z.; Qiao, S.; Ning, H.; Aggarwal, A.; Yuan, G. F.; Pasha, A.; Stirratt, M.; Scott-Sheldon, L. A. J.
- 分類:hiv aids
- 原文鏈接:10.1101/2024.09.18.24313828
摘要:背景:HIV領域的科學文獻積累迅速,準確且高效地評估相關文獻成為了一項重大挑戰。本研究探索了使用大型語言模型(LLMs),如ChatGPT,為系統評審選擇相關研究的潛力。方法:科學論文最初是通過使用預定義關鍵詞的布爾搜索策略從文獻數據庫搜索中獲得的。在15,839個獨特的記錄中,三位評審員根據預先指定的納入和排除標準,手動識別出39篇相關論文。在ChatGPT實驗中,超過10%的記錄被隨機選擇為實驗數據集,包括39篇手動識別的手稿。這些獨特的記錄(n=1,680)通過使用相同的預先指定的標準進行了ChatGPT-4的篩選。採用了四種策略,包括標準提示,即輸入-輸出(IO),零射擊學習的思維鏈(0-CoT),少射擊學習的CoT(FS-CoT),以及集成所有三種提示策略的多數投票。通過召回率,F分數和精確度度量來評估模型的性能。結果:不同ChatGPT配置的召回率(模型從所有輸入數據/記錄中成功識別和檢索的真實摘要的百分比)為0.82(IO),0.97(0-CoT),FS-CoT和多數投票提示都達到了召回率1.0。F分數為0.34(IO),0.29(0-CoT),0.39(FS-CoT),和0.46(多數投票)。精確度度量為0.22(IO),0.17(0-CoT),0.24(FS-CoT),和0.30 (多數投票)。計算時間分別為IO,0-CoT,FS-CoT,和多數投票的2.32,4.55,6.44,和13.30小時。處理1,680個獨特記錄的費用分別約為$63,$73,$186,和$325。結論:像ChatGPT這樣的LLMs對於系統評審是可行的,能夠有效地識別符合預先指定標準的研究。當採用更複雜的提示設計時,觀察到了更大的效率,即集成IO,0-CoT和FS-CoT提示技術(即,多數投票)。與手動方法相比,LLMs可以加快系統評審中的研究選擇過程,成本影響最小。
問題與動機
作者面對的研究問題包括:
- 如何利用大型語言模型(LLMs)來提高系統評價中相關文獻選擇的準確性和效率?
- 不同的提示工程技巧在HIV相關文獻篩選中的效果如何?
- 在系統評價中,如何設計有效的提示以提高LLMs的性能?
- 大型語言模型(如ChatGPT)在系統評價中的可行性和效果如何?
- 在系統評價中,如何平衡準確性和成本效益?
背景介紹
這篇文獻的研究背景主要集中在以下幾個方面:
綜上所述,這篇文獻的背景強調了科學文獻的快速增長、大型語言模型在提高系統綜述篩選效率方面的應用潛力,以及HIV治療依從性研究的複雜性。
章節摘要
這篇論文探討了利用大型語言模型(LLMs)進行系統性回顧的潛力,以HIV藥物依從性研究為例。以下是按章節概括的結果:
- 背景:
- 研究目的:
- 評估ChatGPT在加速相關科學文獻篩選過程中的可行性,同時保持準確性。
- 比較不同提示工程技術在HIV相關文獻篩選中的能力。
- 方法:
- 實驗結果:
- 不同ChatGPT配置的召回率分別為0.82(IO)、0.97(0-CoT)、1.0(FS-CoT和多數投票)。
- 多數投票提示設計在所有評估參數中表現最佳,具有顯著更高的F分數。
- 展示了不同提示設計下的混淆矩陣,以視覺方式評估每個模型的分類準確性。
- 資源分配分析:
- LLMs使用令牌處理文本,令牌是文本中的字符序列。
- 不同提示設計中的令牌長度會有所不同,影響計算時間和成本。
- 討論與局限性:
- 討論了使用ChatGPT進行系統性回顧的可行性。
- 強調了提示策略在提高ChatGPT性能中的關鍵作用。
- 提出了未來改進的方向,包括測試更先進的提示技術。
- 結論:
- LLMs,如ChatGPT,對於系統性回顧是可行的,能夠高效地識別符合預定義標準的手稿。
- 更複雜的提示方法,如本研究中設計的多數投票方法,可以進一步提高效率。
- 隨着GPT新版本的發布,其功能和成本效益可能會進一步提高。
- 資金來源:
研究方法
這篇論文通過探索大型語言模型(LLMs)在系統評價中的應用,特別是針對HIV藥物治療依從性研究,來評估和比較不同的提示工程策略。以下是該研究方法論的主要組成部分:
數據收集與初步篩選
- 從多個電子數據庫中使用布爾搜索策略和預定義關鍵詞檢索科學論文。
- 從15,839條獨特記錄中,三位評審員手動篩選出39篇符合預設納入和排除標準的論文。
ChatGPT實驗設計
- 隨機選擇超過10%的記錄作為實驗數據集,包括39篇手動識別的手稿。
- 使用ChatGPT-4模型對1,680條獨特記錄進行篩選,採用與手動篩選相同的預設標準。
提示技術應用
- 應用四種不同的提示技術:輸入輸出(IO)、零樣本學習的思維鏈(0-CoT)、少樣本學習的思維鏈(FS-CoT)和多數投票(Majority Voting)。
- 每種技術都旨在以不同的方式引導ChatGPT模型,以提高其在特定任務上的表現。
模型設置與評估
- 使用ChatGPT-4模型通過API進行實驗,所有定義的標準都整合到單一輸入提示中。
- 評估模型表現時使用了查准率、查全率和F分數等指標。
結果分析與資源分配
- 對比分析了不同提示設計下模型的表現,Majority Voting提示設計在所有評估參數上表現最佳。
- 分析了不同提示設計下的資源分配,包括計算時間和處理成本。
討論與限制
這篇論文的方法論分析結果表明,大型語言模型如ChatGPT在系統評價中是可行的,能夠有效地識別符合預定義標準的手稿。此外,採用更複雜的提示方法,如本研究所設計的多數投票方法,可以進一步提高效率。然而,這些模型的表現在很大程度上依賴於提示的設計,這在科學領域內對於結果的可重複性和有效性至關重要。