WikiEdge:MedRxiv-2024.09.18.24313828

出自WikiEdge
跳至導覽 跳至搜尋
  • 標題:Leveraging large language models for systematic reviewing: A case study using HIV medication adherence research
  • 中文標題:利用大型語言模型進行系統性審查:以HIV藥物依從性研究為例
  • 發佈日期:2024-09-19
  • 作者:Lessani, M. N.; Li, Z.; Qiao, S.; Ning, H.; Aggarwal, A.; Yuan, G. F.; Pasha, A.; Stirratt, M.; Scott-Sheldon, L. A. J.
  • 分類:hiv aids
  • 原文連結:10.1101/2024.09.18.24313828

摘要:背景:HIV領域的科學文獻積累迅速,準確且高效地評估相關文獻成為了一項重大挑戰。本研究探索了使用大型語言模型(LLMs),如ChatGPT,為系統評審選擇相關研究的潛力。方法:科學論文最初是通過使用預定義關鍵詞的布爾搜索策略從文獻數據庫搜索中獲得的。在15,839個獨特的記錄中,三位評審員根據預先指定的納入和排除標準,手動識別出39篇相關論文。在ChatGPT實驗中,超過10%的記錄被隨機選擇為實驗數據集,包括39篇手動識別的手稿。這些獨特的記錄(n=1,680)通過使用相同的預先指定的標準進行了ChatGPT-4的篩選。採用了四種策略,包括標準提示,即輸入-輸出(IO),零射擊學習的思維鏈(0-CoT),少射擊學習的CoT(FS-CoT),以及集成所有三種提示策略的多數投票。通過召回率,F分數和精確度度量來評估模型的性能。結果:不同ChatGPT配置的召回率(模型從所有輸入數據/記錄中成功識別和檢索的真實摘要的百分比)為0.82(IO),0.97(0-CoT),FS-CoT和多數投票提示都達到了召回率1.0。F分數為0.34(IO),0.29(0-CoT),0.39(FS-CoT),和0.46(多數投票)。精確度度量為0.22(IO),0.17(0-CoT),0.24(FS-CoT),和0.30 (多數投票)。計算時間分別為IO,0-CoT,FS-CoT,和多數投票的2.32,4.55,6.44,和13.30小時。處理1,680個獨特記錄的費用分別約為$63,$73,$186,和$325。結論:像ChatGPT這樣的LLMs對於系統評審是可行的,能夠有效地識別符合預先指定標準的研究。當採用更複雜的提示設計時,觀察到了更大的效率,即集成IO,0-CoT和FS-CoT提示技術(即,多數投票)。與手動方法相比,LLMs可以加快系統評審中的研究選擇過程,成本影響最小。

問題與動機

作者面對的研究問題包括:

背景介紹

這篇文獻的研究背景主要集中在以下幾個方面:

  • 科學文獻的快速增長
    • 科學文獻的快速增長給全面科學綜述帶來了顯著挑戰,這對於指導臨床決策公共政策至關重要。
    • 據估計,自1996年以來,已發表了超過6400萬篇科學手稿,新發表論文的增長率逐年上升。
    • 2020年至2022年間,發表論文的數量從468萬增加到514萬,增長率約為4.89%。
  • 大型語言模型(LLMs)的應用潛力
    • 人們越來越關注如何利用大型語言模型(如ChatGPT)提高系統綜述中篩選過程的效率,這一過程傳統上是勞動密集型和耗時的。
    • LLMs因其在多個領域的卓越能力而受到學術界和工業界的關注,這些模型在處理廣泛的一般主題時表現出色。
    • 然而,當關注點轉向更專業或狹窄的主題時,使用標準提示(IO)的ChatGPT可能難以提供準確和相關的信息。
    • 提示工程(Prompt engineering)技術可以與標準提示相結合,以提高模型在專業任務中的表現。
  • HIV治療依從性研究的複雜性
    • HIV治療依從性干預研究的參與者具有多樣化的人口統計背景、共病狀況(如藥物使用、心理健康狀況)和社會邊緣身份(如種族/民族、性取向和性別少數群體)。
    • 治療依從性干預措施包括多種不同的方法和多層次組成部分(如諮詢、同伴支持、短訊提醒、減少HIV污名等)。
    • HIV藥物依從性干預研究的結果從行為結果(ART使用或使用)到臨床結果(如CD4計數和病毒載量),可能包括多種測量工具,如自我報告、藥片計數、電子健康記錄和藥物水平測定。

綜上所述,這篇文獻的背景強調了科學文獻的快速增長、大型語言模型在提高系統綜述篩選效率方面的應用潛力,以及HIV治療依從性研究的複雜性。

章節摘要

這篇論文探討了利用大型語言模型(LLMs)進行系統性回顧的潛力,以HIV藥物依從性研究為例。以下是按章節概括的結果:

  1. 背景
    • 科學文獻的快速增長對全面科學回顧構成挑戰,這對於指導臨床決策公共政策至關重要。
    • 大型語言模型(LLMs),如ChatGPT,因其在多個領域的卓越能力而受到關注。
    • 提出了使用LLMs進行系統性回顧的篩選過程,以提高效率。
  2. 研究目的
    • 評估ChatGPT在加速相關科學文獻篩選過程中的可行性,同時保持準確性。
    • 比較不同提示工程技術在HIV相關文獻篩選中的能力。
  3. 方法
    • 根據PRISMA指南,從多個電子數據庫中檢索相關科學文獻。
    • 三名訓練有素的研究助理根據預定義的納入和排除標準獨立篩選標題和摘要。
    • 使用ChatGPT-4模型通過API進行實驗,採用不同的提示技術。
  4. 實驗結果
    • 不同ChatGPT配置的召回率分別為0.82(IO)、0.97(0-CoT)、1.0(FS-CoT和多數投票)。
    • 多數投票提示設計在所有評估參數中表現最佳,具有顯著更高的F分數。
    • 展示了不同提示設計下的混淆矩陣,以視覺方式評估每個模型的分類準確性。
  5. 資源分配分析
    • LLMs使用令牌處理文本,令牌是文本中的字符序列。
    • 不同提示設計中的令牌長度會有所不同,影響計算時間和成本。
  6. 討論與局限性
    • 討論了使用ChatGPT進行系統性回顧的可行性。
    • 強調了提示策略在提高ChatGPT性能中的關鍵作用。
    • 提出了未來改進的方向,包括測試更先進的提示技術。
  7. 結論
    • LLMs,如ChatGPT,對於系統性回顧是可行的,能夠高效地識別符合預定義標準的手稿。
    • 更複雜的提示方法,如本研究中設計的多數投票方法,可以進一步提高效率。
    • 隨着GPT新版本的發佈,其功能和成本效益可能會進一步提高。
  8. 資金來源
    • 研究由NIH/NIMH Contract#75N95022P00690資助。

研究方法

這篇論文通過探索大型語言模型(LLMs)在系統評價中的應用,特別是針對HIV藥物治療依從性研究,來評估和比較不同的提示工程策略。以下是該研究方法論的主要組成部分:

  1. 數據收集與初步篩選
    • 從多個電子數據庫中使用布爾搜索策略和預定義關鍵詞檢索科學論文。
    • 從15,839條獨特記錄中,三位評審員手動篩選出39篇符合預設納入和排除標準的論文。
  2. ChatGPT實驗設計
    • 隨機選擇超過10%的記錄作為實驗數據集,包括39篇手動識別的手稿。
    • 使用ChatGPT-4模型對1,680條獨特記錄進行篩選,採用與手動篩選相同的預設標準。
  3. 提示技術應用
    • 應用四種不同的提示技術:輸入輸出(IO)、零樣本學習的思維鏈(0-CoT)、少樣本學習的思維鏈(FS-CoT)和多數投票(Majority Voting)。
    • 每種技術都旨在以不同的方式引導ChatGPT模型,以提高其在特定任務上的表現。
  4. 模型設置與評估
    • 使用ChatGPT-4模型通過API進行實驗,所有定義的標準都整合到單一輸入提示中。
    • 評估模型表現時使用了查准率、查全率和F分數等指標。
  5. 結果分析與資源分配
    • 對比分析了不同提示設計下模型的表現,Majority Voting提示設計在所有評估參數上表現最佳。
    • 分析了不同提示設計下的資源分配,包括計算時間和處理成本。
  6. 討論與限制
    • 討論了使用ChatGPT進行系統評價的可行性,以及不同提示技術在準確性和效率方面的比較。
    • 指出了LLMs在文本分析方面的能力,以及其在科學社區中的有效性評估中所面臨的挑戰。
    • 提出了未來研究的方向,包括測試更先進的提示技術、在其他學科中應用ChatGPT進行文獻評價的可行性,以及更詳細的成本評估。

這篇論文的方法論分析結果表明,大型語言模型如ChatGPT在系統評價中是可行的,能夠有效地識別符合預定義標準的手稿。此外,採用更複雜的提示方法,如本研究所設計的多數投票方法,可以進一步提高效率。然而,這些模型的表現在很大程度上依賴於提示的設計,這在科學領域內對於結果的可重複性和有效性至關重要。

研究結論

根據提供的文獻內容,這篇論文的主要結論可以概括如下:

  1. LLMs(例如ChatGPT)在系統評價中是可行的,能夠有效地識別符合預定義納入和排除標準的研究。
  2. 更複雜的提示方法,如本研究中基於IO0-CoTFS-CoT提示技術設計的多數投票方法,可以進一步提高效率。
  3. 與手動方法相比,這些模型在研究選擇方面更加高效,成本影響最小。
  4. 隨着GPT新版本的發佈,其功能和成本有所改進。例如,GPT-4o在成本減半的同時提高了速度。
  5. 新版本的GPT模型不僅在研究選擇方面有潛力,而且在從選定研究中提取知識並產生全面的文獻綜述方面也有潛力。
  6. 將來,這些模型還將具備基於審查手稿識別研究空白的能力,這將為學者、臨床醫生和政策制定者帶來重大改進。

術語表

這篇文章的術語表如下:

  • 系統性回顧(Systematic Review):系統性回顧是一種研究方法,通過明確的方法論來識別、選擇、分析和解讀所有相關研究,以回答一個特定的研究問題。
  • HIV藥物依從性(HIV Medication Adherence):指HIV感染者按照醫囑正確服用抗逆轉錄病毒藥物的程度。
  • 大型語言模型(Large Language Models, LLMs):指能夠處理和生成自然語言文本的複雜計算模型,如ChatGPT。
  • ChatGPT:一種由OpenAI開發的大型語言模型,能夠進行對話式的交互。
  • 召回率(Recall):在信息檢索中,召回率是指檢索出的相關文檔數量與所有相關文檔總數的比例。
  • F分數(F-score):一種綜合考慮查准率和查全率的指標,用於評估分類模型的性能。
  • 精確度(Precision):在信息檢索中,精確度是指檢索出的相關文檔數量與檢索出的文檔總數的比例。
  • 隨機對照試驗(Randomized Controlled Trials, RCTs):一種實驗設計,通過隨機分配實驗對象到處理組和對照組,以評估醫療干預措施的效果。
  • 元分析(Meta-Analysis):一種統計方法,用於綜合多個研究的結果,以提供更精確的估計。
  • 公共健康(Public Health):涉及保護和改善社區健康的科學和實踐。
  • 科學文獻(Scientific Literature):指經過同行評審並發表的學術論文、文章和其他出版物的總和。
  • 標準化病人報告結果(Patient-Reported Outcomes, PROs):指直接來自病人報告的數據,用於評估病人的健康狀態或治療效果。
  • 臨床結果(Clinical Outcomes):指醫療干預後的直接健康結果,如症狀改善、生命質量或生存率。
  • 客觀藥物依從性(Objective Medication Adherence):指通過客觀方法如藥丸計數、電子健康記錄或藥物水平測定來衡量的藥物依從性。
  • 干預效能(Intervention Efficacy):指在理想條件下,干預措施產生預期效果的能力。
  • 有效性(Effectiveness):指在實際應用中,干預措施產生預期效果的能力。
  • 包容性標準(Inclusion Criteria):指確定研究是否符合特定系統性回顧或元分析的標準。
  • 排除性標準(Exclusion Criteria):指確定研究是否不符合特定系統性回顧或元分析的標準。
  • 同行評審(Peer Review):一種評估過程,其中學者的作品由同領域的其他學者評估,以保證作品的質量。
  • 關鍵詞搜索策略(Boolean Search Strategy):一種信息檢索方法,使用布爾邏輯運算符(AND, OR, NOT)結合關鍵詞來查找信息。