查看“WikiEdge:MedRxiv-2024.09.18.24313828”的源代码

* '''标题'''：Leveraging large language models for systematic reviewing: A case study using HIV medication adherence research
* '''中文标题'''：利用大型语言模型进行系统性审查：以HIV药物依从性研究为例
* '''发布日期'''：2024-09-19
* '''作者'''：Lessani, M. N.; Li, Z.; Qiao, S.; Ning, H.; Aggarwal, A.; Yuan, G. F.; Pasha, A.; Stirratt, M.; Scott-Sheldon, L. A. J.
* '''分类'''：hiv aids
*'''原文链接'''：10.1101/2024.09.18.24313828
'''摘要'''：背景：HIV领域的科学文献积累迅速，准确且高效地评估相关文献成为了一项重大挑战。本研究探索了使用大型语言模型（LLMs），如ChatGPT，为系统评审选择相关研究的潜力。方法：科学论文最初是通过使用预定义关键词的布尔搜索策略从文献数据库搜索中获得的。在15,839个独特的记录中，三位评审员根据预先指定的纳入和排除标准，手动识别出39篇相关论文。在ChatGPT实验中，超过10%的记录被随机选择为实验数据集，包括39篇手动识别的手稿。这些独特的记录（n=1,680）通过使用相同的预先指定的标准进行了ChatGPT-4的筛选。采用了四种策略，包括标准提示，即输入-输出（IO），零射击学习的思维链（0-CoT），少射击学习的CoT（FS-CoT），以及集成所有三种提示策略的多数投票。通过召回率，F分数和精确度度量来评估模型的性能。结果：不同ChatGPT配置的召回率（模型从所有输入数据/记录中成功识别和检索的真实摘要的百分比）为0.82（IO），0.97（0-CoT），FS-CoT和多数投票提示都达到了召回率1.0。F分数为0.34（IO），0.29（0-CoT），0.39（FS-CoT），和0.46（多数投票）。精确度度量为0.22(IO)，0.17(0-CoT)，0.24(FS-CoT)，和0.30 (多数投票)。计算时间分别为IO，0-CoT，FS-CoT，和多数投票的2.32，4.55，6.44，和13.30小时。处理1,680个独特记录的费用分别约为$63，$73，$186，和$325。结论：像ChatGPT这样的LLMs对于系统评审是可行的，能够有效地识别符合预先指定标准的研究。当采用更复杂的提示设计时，观察到了更大的效率，即集成IO，0-CoT和FS-CoT提示技术（即，多数投票）。与手动方法相比，LLMs可以加快系统评审中的研究选择过程，成本影响最小。

== 问题与动机 ==
作者面对的研究问题包括：
* 如何利用[[大型语言模型]]（LLMs）来提高[[系统评价]]中[[相关文献选择]]的准确性和效率？
* 不同的[[提示工程]]技巧在[[HIV]]相关文献筛选中的效果如何？
* 在[[系统评价]]中，如何设计有效的[[提示]]以提高LLMs的性能？
* [[大型语言模型]]（如[[ChatGPT]])在[[系统评价]]中的可行性和效果如何？
* 在[[系统评价]]中，如何平衡[[准确性]]和[[成本效益]]？

== 背景介绍 ==
这篇文献的研究背景主要集中在以下几个方面：
* '''[[科学文献的快速增长]]'''
** [[科学文献]]的快速增长给全面[[科学综述]]带来了显著挑战，这对于指导[[临床决策]]或[[公共政策]]至关重要。
** 据估计，自1996年以来，已发表了超过6400万篇科学手稿，新发表论文的增长率逐年上升。
** 2020年至2022年间，发表论文的数量从468万增加到514万，增长率约为4.89%。
* '''[[大型语言模型（LLMs）的应用潜力]]'''
** 人们越来越关注如何利用[[大型语言模型]]（如[[ChatGPT]])提高系统综述中筛选过程的效率，这一过程传统上是劳动密集型和耗时的。
** [[LLMs]]因其在多个领域的卓越能力而受到学术界和工业界的关注，这些模型在处理广泛的一般主题时表现出色。
** 然而，当关注点转向更专业或狭窄的主题时，使用标准提示（IO）的[[ChatGPT]]可能难以提供准确和相关的信息。
** [[提示工程]]（Prompt engineering）技术可以与标准提示相结合，以提高模型在专业任务中的表现。
* '''[[HIV治疗依从性研究的复杂性]]'''
** [[HIV治疗依从性]]干预研究的参与者具有多样化的人口统计背景、共病状况（如药物使用、心理健康状况）和社会边缘身份（如种族/民族、性取向和性别少数群体）。
** 治疗依从性干预措施包括多种不同的方法和多层次组成部分（如咨询、同伴支持、短信提醒、减少[[HIV]]污名等）。
** [[HIV]]药物依从性干预研究的结果从行为结果（[[ART]]使用或使用）到临床结果（如[[CD4]]计数和病毒载量），可能包括多种测量工具，如自我报告、药片计数、[[电子健康记录]]和药物水平测定。
综上所述，这篇文献的背景强调了[[科学文献]]的快速增长、[[大型语言模型]]在提高系统综述筛选效率方面的应用潜力，以及[[HIV治疗依从性]]研究的复杂性。

== 章节摘要 ==
这篇论文探讨了利用[[大型语言模型]]（LLMs）进行系统性回顾的潜力，以[[HIV]]药物依从性研究为例。以下是按章节概括的结果：

# '''背景'''：
#* [[科学文献]]的快速增长对全面科学回顾构成挑战，这对于指导[[临床决策]]或[[公共政策]]至关重要。
#* 大型语言模型（LLMs），如[[ChatGPT]]，因其在多个领域的卓越能力而受到关注。
#* 提出了使用LLMs进行系统性回顾的筛选过程，以提高效率。
# '''研究目的'''：
#* 评估ChatGPT在加速相关科学文献筛选过程中的可行性，同时保持准确性。
#* 比较不同[[提示工程技术]]在HIV相关文献筛选中的能力。
# '''方法'''：
#* 根据[[PRISMA]]指南，从多个电子数据库中检索相关科学文献。
#* 三名训练有素的研究助理根据预定义的纳入和排除标准独立筛选标题和摘要。
#* 使用[[ChatGPT-4]]模型通过API进行实验，采用不同的提示技术。
# '''实验结果'''：
#* 不同ChatGPT配置的召回率分别为0.82（IO）、0.97（0-CoT）、1.0（FS-CoT和多数投票）。
#* 多数投票提示设计在所有评估参数中表现最佳，具有显著更高的F分数。
#* 展示了不同提示设计下的[[混淆矩阵]]，以视觉方式评估每个模型的分类准确性。
# '''资源分配分析'''：
#* LLMs使用令牌处理文本，令牌是文本中的字符序列。
#* 不同提示设计中的令牌长度会有所不同，影响计算时间和成本。
# '''讨论与局限性'''：
#* 讨论了使用ChatGPT进行系统性回顾的可行性。
#* 强调了提示策略在提高ChatGPT性能中的关键作用。
#* 提出了未来改进的方向，包括测试更先进的提示技术。
# '''结论'''：
#* LLMs，如ChatGPT，对于系统性回顾是可行的，能够高效地识别符合预定义标准的手稿。
#* 更复杂的提示方法，如本研究中设计的多数投票方法，可以进一步提高效率。
#* 随着[[GPT]]新版本的发布，其功能和成本效益可能会进一步提高。
# '''资金来源'''：
#* 研究由[[NIH]]/[[NIMH]] Contract#75N95022P00690资助。

== 研究方法 ==
这篇论文通过探索[[大型语言模型]]（LLMs）在[[系统评价]]中的应用，特别是针对[[HIV]]药物治疗依从性研究，来评估和比较不同的[[提示工程]]策略。以下是该研究方法论的主要组成部分：
# '''数据收集与初步筛选'''
#* 从多个电子数据库中使用[[布尔搜索]]策略和预定义关键词检索科学论文。
#* 从15,839条独特记录中，三位评审员手动筛选出39篇符合预设纳入和排除标准的论文。
# '''[[ChatGPT]]实验设计'''
#* 随机选择超过10%的记录作为实验数据集，包括39篇手动识别的手稿。
#* 使用[[ChatGPT-4]]模型对1,680条独特记录进行筛选，采用与手动筛选相同的预设标准。
# '''提示技术应用'''
#* 应用四种不同的提示技术：输入输出（IO）、零样本学习的思维链（0-CoT）、少样本学习的思维链（FS-CoT）和多数投票（Majority Voting）。
#* 每种技术都旨在以不同的方式引导[[ChatGPT]]模型，以提高其在特定任务上的表现。
# '''模型设置与评估'''
#* 使用[[ChatGPT-4]]模型通过API进行实验，所有定义的标准都整合到单一输入提示中。
#* 评估模型表现时使用了查准率、查全率和F分数等指标。
# '''结果分析与资源分配'''
#* 对比分析了不同提示设计下模型的表现，Majority Voting提示设计在所有评估参数上表现最佳。
#* 分析了不同提示设计下的资源分配，包括计算时间和处理成本。
# '''讨论与限制'''
#* 讨论了使用[[ChatGPT]]进行系统评价的可行性，以及不同提示技术在准确性和效率方面的比较。
#* 指出了LLMs在文本分析方面的能力，以及其在科学社区中的有效性评估中所面临的挑战。
#* 提出了未来研究的方向，包括测试更先进的提示技术、在其他学科中应用[[ChatGPT]]进行文献评价的可行性，以及更详细的成本评估。
这篇论文的方法论分析结果表明，大型语言模型如[[ChatGPT]]在系统评价中是可行的，能够有效地识别符合预定义标准的手稿。此外，采用更复杂的提示方法，如本研究所设计的多数投票方法，可以进一步提高效率。然而，这些模型的表现在很大程度上依赖于提示的设计，这在科学领域内对于结果的可重复性和有效性至关重要。

== 研究结论 ==
根据提供的文献内容，这篇论文的主要结论可以概括如下：
# [[LLMs]]（例如[[ChatGPT]])在[[系统评价]]中是可行的，能够有效地识别符合预定义纳入和排除标准的研究。
# 更复杂的提示方法，如本研究中基于[[IO]]、[[0-CoT]]和[[FS-CoT]]提示技术设计的多数投票方法，可以进一步提高效率。
# 与手动方法相比，这些模型在研究选择方面更加高效，成本影响最小。
# 随着[[GPT]]新版本的发布，其功能和成本有所改进。例如，[[GPT-4o]]在成本减半的同时提高了速度。
# 新版本的GPT模型不仅在研究选择方面有潜力，而且在从选定研究中提取知识并产生全面的[[文献综述]]方面也有潜力。
# 将来，这些模型还将具备基于审查手稿识别研究空白的能力，这将为学者、临床医生和[[政策制定者]]带来重大改进。

== 术语表 ==
这篇文章的术语表如下：                                                                                                                                                                                                                                                         
* [[系统性回顾]]（Systematic Review）：系统性回顾是一种研究方法，通过明确的方法论来识别、选择、分析和解读所有相关研究，以回答一个特定的研究问题。                                                                                                                              
* [[HIV药物依从性]]（HIV Medication Adherence）：指HIV感染者按照医嘱正确服用抗逆转录病毒药物的程度。                                                                                                                                                                           
* [[大型语言模型]]（Large Language Models, LLMs）：指能够处理和生成自然语言文本的复杂计算模型，如ChatGPT。                                                                                                                                                                     
* [[ChatGPT]]：一种由OpenAI开发的大型语言模型，能够进行对话式的交互。                                                                                                                                                                                                          
* [[召回率]]（Recall）：在信息检索中，召回率是指检索出的相关文档数量与所有相关文档总数的比例。                                                                                                                                                                                 
* [[F分数]]（F-score）：一种综合考虑查准率和查全率的指标，用于评估分类模型的性能。                                                                                                                                                                                             
* [[精确度]]（Precision）：在信息检索中，精确度是指检索出的相关文档数量与检索出的文档总数的比例。                                                                                                                                                                              
* [[随机对照试验]]（Randomized Controlled Trials, RCTs）：一种实验设计，通过随机分配实验对象到处理组和对照组，以评估医疗干预措施的效果。                                                                                                                                       
* [[元分析]]（Meta-Analysis）：一种统计方法，用于综合多个研究的结果，以提供更精确的估计。                                                                                                                                                                                      
* [[公共健康]]（Public Health）：涉及保护和改善社区健康的科学和实践。                                                                                                                                                                                                          
* [[科学文献]]（Scientific Literature）：指经过同行评审并发表的学术论文、文章和其他出版物的总和。                                                                                                                                                                              
* [[标准化病人报告结果]]（Patient-Reported Outcomes, PROs）：指直接来自病人报告的数据，用于评估病人的健康状态或治疗效果。                                                                                                                                                      
* [[临床结果]]（Clinical Outcomes）：指医疗干预后的直接健康结果，如症状改善、生命质量或生存率。                                                                                                                                                                                
* [[客观药物依从性]]（Objective Medication Adherence）：指通过客观方法如药丸计数、电子健康记录或药物水平测定来衡量的药物依从性。                                                                                                                                               
* [[干预效能]]（Intervention Efficacy）：指在理想条件下，干预措施产生预期效果的能力。                                                                                                                                                                                          
* [[有效性]]（Effectiveness）：指在实际应用中，干预措施产生预期效果的能力。                                                                                                                                                                                                    
* [[包容性标准]]（Inclusion Criteria）：指确定研究是否符合特定系统性回顾或元分析的标准。                                                                                                                                                                                       
* [[排除性标准]]（Exclusion Criteria）：指确定研究是否不符合特定系统性回顾或元分析的标准。                                                                                                                                                                                     
* [[同行评审]]（Peer Review）：一种评估过程，其中学者的作品由同领域的其他学者评估，以保证作品的质量。                                                                                                                                                                          
* [[关键词搜索策略]]（Boolean Search Strategy）：一种信息检索方法，使用布尔逻辑运算符（AND, OR, NOT）结合关键词来查找信息。