WikiEdge:MedRxiv-2024.09.18.24313828

標題：Leveraging large language models for systematic reviewing: A case study using HIV medication adherence research
中文標題：利用大型語言模型進行系統性審查：以HIV藥物依從性研究為例
發布日期：2024-09-19
作者：Lessani, M. N.; Li, Z.; Qiao, S.; Ning, H.; Aggarwal, A.; Yuan, G. F.; Pasha, A.; Stirratt, M.; Scott-Sheldon, L. A. J.
分類：hiv aids
原文鏈接：10.1101/2024.09.18.24313828

摘要：背景：HIV領域的科學文獻積累迅速，準確且高效地評估相關文獻成為了一項重大挑戰。本研究探索了使用大型語言模型（LLMs），如ChatGPT，為系統評審選擇相關研究的潛力。方法：科學論文最初是通過使用預定義關鍵詞的布爾搜索策略從文獻數據庫搜索中獲得的。在15,839個獨特的記錄中，三位評審員根據預先指定的納入和排除標準，手動識別出39篇相關論文。在ChatGPT實驗中，超過10%的記錄被隨機選擇為實驗數據集，包括39篇手動識別的手稿。這些獨特的記錄（n=1,680）通過使用相同的預先指定的標準進行了ChatGPT-4的篩選。採用了四種策略，包括標準提示，即輸入-輸出（IO），零射擊學習的思維鏈（0-CoT），少射擊學習的CoT（FS-CoT），以及集成所有三種提示策略的多數投票。通過召回率，F分數和精確度度量來評估模型的性能。結果：不同ChatGPT配置的召回率（模型從所有輸入數據/記錄中成功識別和檢索的真實摘要的百分比）為0.82（IO），0.97（0-CoT），FS-CoT和多數投票提示都達到了召回率1.0。F分數為0.34（IO），0.29（0-CoT），0.39（FS-CoT），和0.46（多數投票）。精確度度量為0.22(IO)，0.17(0-CoT)，0.24(FS-CoT)，和0.30 (多數投票)。計算時間分別為IO，0-CoT，FS-CoT，和多數投票的2.32，4.55，6.44，和13.30小時。處理1,680個獨特記錄的費用分別約為$63，$73，$186，和$325。結論：像ChatGPT這樣的LLMs對於系統評審是可行的，能夠有效地識別符合預先指定標準的研究。當採用更複雜的提示設計時，觀察到了更大的效率，即集成IO，0-CoT和FS-CoT提示技術（即，多數投票）。與手動方法相比，LLMs可以加快系統評審中的研究選擇過程，成本影響最小。

問題與動機

作者面對的研究問題包括：

如何利用大型語言模型（LLMs）來提高系統評價中相關文獻選擇的準確性和效率？
不同的提示工程技巧在HIV相關文獻篩選中的效果如何？
在系統評價中，如何設計有效的提示以提高LLMs的性能？
大型語言模型（如ChatGPT)在系統評價中的可行性和效果如何？
在系統評價中，如何平衡準確性和成本效益？

背景介紹

這篇文獻的研究背景主要集中在以下幾個方面：

科學文獻的快速增長
- 科學文獻的快速增長給全面科學綜述帶來了顯著挑戰，這對於指導臨床決策或公共政策至關重要。
- 據估計，自1996年以來，已發表了超過6400萬篇科學手稿，新發表論文的增長率逐年上升。
- 2020年至2022年間，發表論文的數量從468萬增加到514萬，增長率約為4.89%。
大型語言模型（LLMs）的應用潛力
- 人們越來越關注如何利用大型語言模型（如ChatGPT)提高系統綜述中篩選過程的效率，這一過程傳統上是勞動密集型和耗時的。
- LLMs因其在多個領域的卓越能力而受到學術界和工業界的關注，這些模型在處理廣泛的一般主題時表現出色。
- 然而，當關注點轉向更專業或狹窄的主題時，使用標準提示（IO）的ChatGPT可能難以提供準確和相關的信息。
- 提示工程（Prompt engineering）技術可以與標準提示相結合，以提高模型在專業任務中的表現。
HIV治療依從性研究的複雜性
- HIV治療依從性干預研究的參與者具有多樣化的人口統計背景、共病狀況（如藥物使用、心理健康狀況）和社會邊緣身份（如種族/民族、性取向和性別少數群體）。
- 治療依從性干預措施包括多種不同的方法和多層次組成部分（如諮詢、同伴支持、短信提醒、減少HIV污名等）。
- HIV藥物依從性干預研究的結果從行為結果（ART使用或使用）到臨床結果（如CD4計數和病毒載量），可能包括多種測量工具，如自我報告、藥片計數、電子健康記錄和藥物水平測定。

綜上所述，這篇文獻的背景強調了科學文獻的快速增長、大型語言模型在提高系統綜述篩選效率方面的應用潛力，以及HIV治療依從性研究的複雜性。

章節摘要

這篇論文探討了利用大型語言模型（LLMs）進行系統性回顧的潛力，以HIV藥物依從性研究為例。以下是按章節概括的結果：

背景：
- 科學文獻的快速增長對全面科學回顧構成挑戰，這對於指導臨床決策或公共政策至關重要。
- 大型語言模型（LLMs），如ChatGPT，因其在多個領域的卓越能力而受到關注。
- 提出了使用LLMs進行系統性回顧的篩選過程，以提高效率。
研究目的：
- 評估ChatGPT在加速相關科學文獻篩選過程中的可行性，同時保持準確性。
- 比較不同提示工程技術在HIV相關文獻篩選中的能力。
方法：
- 根據PRISMA指南，從多個電子數據庫中檢索相關科學文獻。
- 三名訓練有素的研究助理根據預定義的納入和排除標準獨立篩選標題和摘要。
- 使用ChatGPT-4模型通過API進行實驗，採用不同的提示技術。
實驗結果：
- 不同ChatGPT配置的召回率分別為0.82（IO）、0.97（0-CoT）、1.0（FS-CoT和多數投票）。
- 多數投票提示設計在所有評估參數中表現最佳，具有顯著更高的F分數。
- 展示了不同提示設計下的混淆矩陣，以視覺方式評估每個模型的分類準確性。
資源分配分析：
- LLMs使用令牌處理文本，令牌是文本中的字符序列。
- 不同提示設計中的令牌長度會有所不同，影響計算時間和成本。
討論與局限性：
- 討論了使用ChatGPT進行系統性回顧的可行性。
- 強調了提示策略在提高ChatGPT性能中的關鍵作用。
- 提出了未來改進的方向，包括測試更先進的提示技術。
結論：
- LLMs，如ChatGPT，對於系統性回顧是可行的，能夠高效地識別符合預定義標準的手稿。
- 更複雜的提示方法，如本研究中設計的多數投票方法，可以進一步提高效率。
- 隨着GPT新版本的發布，其功能和成本效益可能會進一步提高。
資金來源：
- 研究由NIH/NIMH Contract#75N95022P00690資助。

研究方法

這篇論文通過探索大型語言模型（LLMs）在系統評價中的應用，特別是針對HIV藥物治療依從性研究，來評估和比較不同的提示工程策略。以下是該研究方法論的主要組成部分：

數據收集與初步篩選

- 從多個電子數據庫中使用布爾搜索策略和預定義關鍵詞檢索科學論文。
- 從15,839條獨特記錄中，三位評審員手動篩選出39篇符合預設納入和排除標準的論文。

ChatGPT實驗設計

- 隨機選擇超過10%的記錄作為實驗數據集，包括39篇手動識別的手稿。
- 使用ChatGPT-4模型對1,680條獨特記錄進行篩選，採用與手動篩選相同的預設標準。

提示技術應用

- 應用四種不同的提示技術：輸入輸出（IO）、零樣本學習的思維鏈（0-CoT）、少樣本學習的思維鏈（FS-CoT）和多數投票（Majority Voting）。
- 每種技術都旨在以不同的方式引導ChatGPT模型，以提高其在特定任務上的表現。

模型設置與評估

- 使用ChatGPT-4模型通過API進行實驗，所有定義的標準都整合到單一輸入提示中。
- 評估模型表現時使用了查准率、查全率和F分數等指標。

結果分析與資源分配

- 對比分析了不同提示設計下模型的表現，Majority Voting提示設計在所有評估參數上表現最佳。
- 分析了不同提示設計下的資源分配，包括計算時間和處理成本。

討論與限制

- 討論了使用ChatGPT進行系統評價的可行性，以及不同提示技術在準確性和效率方面的比較。
- 指出了LLMs在文本分析方面的能力，以及其在科學社區中的有效性評估中所面臨的挑戰。
- 提出了未來研究的方向，包括測試更先進的提示技術、在其他學科中應用ChatGPT進行文獻評價的可行性，以及更詳細的成本評估。

這篇論文的方法論分析結果表明，大型語言模型如ChatGPT在系統評價中是可行的，能夠有效地識別符合預定義標準的手稿。此外，採用更複雜的提示方法，如本研究所設計的多數投票方法，可以進一步提高效率。然而，這些模型的表現在很大程度上依賴於提示的設計，這在科學領域內對於結果的可重複性和有效性至關重要。

WikiEdge:MedRxiv-2024.09.18.24313828

目次

問題與動機

背景介紹

章節摘要

研究方法

數據收集與初步篩選

ChatGPT實驗設計

提示技術應用

模型設置與評估

結果分析與資源分配

討論與限制

導覽選單

WikiEdge:MedRxiv-2024.09.18.24313828

問題與動機

背景介紹

章節摘要

研究方法

數據收集與初步篩選

ChatGPT實驗設計

提示技術應用

模型設置與評估

結果分析與資源分配

討論與限制

導覽選單

搜尋