查看“WikiEdge:MedRxiv-2024.09.18.24313828”的源代码

* '''标题'''：Leveraging large language models for systematic reviewing: A case study using HIV medication adherence research
* '''中文标题'''：利用大型语言模型进行系统性审查：以HIV药物依从性研究为例
* '''发布日期'''：2024-09-19
* '''作者'''：Lessani, M. N.; Li, Z.; Qiao, S.; Ning, H.; Aggarwal, A.; Yuan, G. F.; Pasha, A.; Stirratt, M.; Scott-Sheldon, L. A. J.
* '''分类'''：hiv aids
*'''原文链接'''：10.1101/2024.09.18.24313828
'''摘要'''：背景：HIV领域的科学文献积累迅速，准确且高效地评估相关文献成为了一项重大挑战。本研究探索了使用大型语言模型（LLMs），如ChatGPT，为系统评审选择相关研究的潜力。方法：科学论文最初是通过使用预定义关键词的布尔搜索策略从文献数据库搜索中获得的。在15,839个独特的记录中，三位评审员根据预先指定的纳入和排除标准，手动识别出39篇相关论文。在ChatGPT实验中，超过10%的记录被随机选择为实验数据集，包括39篇手动识别的手稿。这些独特的记录（n=1,680）通过使用相同的预先指定的标准进行了ChatGPT-4的筛选。采用了四种策略，包括标准提示，即输入-输出（IO），零射击学习的思维链（0-CoT），少射击学习的CoT（FS-CoT），以及集成所有三种提示策略的多数投票。通过召回率，F分数和精确度度量来评估模型的性能。结果：不同ChatGPT配置的召回率（模型从所有输入数据/记录中成功识别和检索的真实摘要的百分比）为0.82（IO），0.97（0-CoT），FS-CoT和多数投票提示都达到了召回率1.0。F分数为0.34（IO），0.29（0-CoT），0.39（FS-CoT），和0.46（多数投票）。精确度度量为0.22(IO)，0.17(0-CoT)，0.24(FS-CoT)，和0.30 (多数投票)。计算时间分别为IO，0-CoT，FS-CoT，和多数投票的2.32，4.55，6.44，和13.30小时。处理1,680个独特记录的费用分别约为$63，$73，$186，和$325。结论：像ChatGPT这样的LLMs对于系统评审是可行的，能够有效地识别符合预先指定标准的研究。当采用更复杂的提示设计时，观察到了更大的效率，即集成IO，0-CoT和FS-CoT提示技术（即，多数投票）。与手动方法相比，LLMs可以加快系统评审中的研究选择过程，成本影响最小。

== 问题与动机 ==
作者面对的研究问题包括：
* 如何利用[[大型语言模型]]（LLMs）来提高[[系统评价]]中[[相关文献选择]]的准确性和效率？
* 不同的[[提示工程]]技巧在[[HIV]]相关文献筛选中的效果如何？
* 在[[系统评价]]中，如何设计有效的[[提示]]以提高LLMs的性能？
* [[大型语言模型]]（如[[ChatGPT]])在[[系统评价]]中的可行性和效果如何？
* 在[[系统评价]]中，如何平衡[[准确性]]和[[成本效益]]？

== 背景介绍 ==
这篇文献的研究背景主要集中在以下几个方面：
* '''[[科学文献的快速增长]]'''
** [[科学文献]]的快速增长给全面[[科学综述]]带来了显著挑战，这对于指导[[临床决策]]或[[公共政策]]至关重要。
** 据估计，自1996年以来，已发表了超过6400万篇科学手稿，新发表论文的增长率逐年上升。
** 2020年至2022年间，发表论文的数量从468万增加到514万，增长率约为4.89%。
* '''[[大型语言模型（LLMs）的应用潜力]]'''
** 人们越来越关注如何利用[[大型语言模型]]（如[[ChatGPT]])提高系统综述中筛选过程的效率，这一过程传统上是劳动密集型和耗时的。
** [[LLMs]]因其在多个领域的卓越能力而受到学术界和工业界的关注，这些模型在处理广泛的一般主题时表现出色。
** 然而，当关注点转向更专业或狭窄的主题时，使用标准提示（IO）的[[ChatGPT]]可能难以提供准确和相关的信息。
** [[提示工程]]（Prompt engineering）技术可以与标准提示相结合，以提高模型在专业任务中的表现。
* '''[[HIV治疗依从性研究的复杂性]]'''
** [[HIV治疗依从性]]干预研究的参与者具有多样化的人口统计背景、共病状况（如药物使用、心理健康状况）和社会边缘身份（如种族/民族、性取向和性别少数群体）。
** 治疗依从性干预措施包括多种不同的方法和多层次组成部分（如咨询、同伴支持、短信提醒、减少[[HIV]]污名等）。
** [[HIV]]药物依从性干预研究的结果从行为结果（[[ART]]使用或使用）到临床结果（如[[CD4]]计数和病毒载量），可能包括多种测量工具，如自我报告、药片计数、[[电子健康记录]]和药物水平测定。
综上所述，这篇文献的背景强调了[[科学文献]]的快速增长、[[大型语言模型]]在提高系统综述筛选效率方面的应用潜力，以及[[HIV治疗依从性]]研究的复杂性。

== 章节摘要 ==
这篇论文探讨了利用[[大型语言模型]]（LLMs）进行系统性回顾的潜力，以[[HIV]]药物依从性研究为例。以下是按章节概括的结果：

# '''背景'''：
#* [[科学文献]]的快速增长对全面科学回顾构成挑战，这对于指导[[临床决策]]或[[公共政策]]至关重要。
#* 大型语言模型（LLMs），如[[ChatGPT]]，因其在多个领域的卓越能力而受到关注。
#* 提出了使用LLMs进行系统性回顾的筛选过程，以提高效率。
# '''研究目的'''：
#* 评估ChatGPT在加速相关科学文献筛选过程中的可行性，同时保持准确性。
#* 比较不同[[提示工程技术]]在HIV相关文献筛选中的能力。
# '''方法'''：
#* 根据[[PRISMA]]指南，从多个电子数据库中检索相关科学文献。
#* 三名训练有素的研究助理根据预定义的纳入和排除标准独立筛选标题和摘要。
#* 使用[[ChatGPT-4]]模型通过API进行实验，采用不同的提示技术。
# '''实验结果'''：
#* 不同ChatGPT配置的召回率分别为0.82（IO）、0.97（0-CoT）、1.0（FS-CoT和多数投票）。
#* 多数投票提示设计在所有评估参数中表现最佳，具有显著更高的F分数。
#* 展示了不同提示设计下的[[混淆矩阵]]，以视觉方式评估每个模型的分类准确性。
# '''资源分配分析'''：
#* LLMs使用令牌处理文本，令牌是文本中的字符序列。
#* 不同提示设计中的令牌长度会有所不同，影响计算时间和成本。
# '''讨论与局限性'''：
#* 讨论了使用ChatGPT进行系统性回顾的可行性。
#* 强调了提示策略在提高ChatGPT性能中的关键作用。
#* 提出了未来改进的方向，包括测试更先进的提示技术。
# '''结论'''：
#* LLMs，如ChatGPT，对于系统性回顾是可行的，能够高效地识别符合预定义标准的手稿。
#* 更复杂的提示方法，如本研究中设计的多数投票方法，可以进一步提高效率。
#* 随着[[GPT]]新版本的发布，其功能和成本效益可能会进一步提高。
# '''资金来源'''：
#* 研究由[[NIH]]/[[NIMH]] Contract#75N95022P00690资助。