WikiEdge:MedRxiv-2024.09.18.24313828：修订间差异

2024年9月23日 (一) 09:42的版本

标题：Leveraging large language models for systematic reviewing: A case study using HIV medication adherence research
中文标题：利用大型语言模型进行系统性审查：以HIV药物依从性研究为例
发布日期：2024-09-19
作者：Lessani, M. N.; Li, Z.; Qiao, S.; Ning, H.; Aggarwal, A.; Yuan, G. F.; Pasha, A.; Stirratt, M.; Scott-Sheldon, L. A. J.
分类：hiv aids
原文链接：10.1101/2024.09.18.24313828

摘要：背景：HIV领域的科学文献积累迅速，准确且高效地评估相关文献成为了一项重大挑战。本研究探索了使用大型语言模型（LLMs），如ChatGPT，为系统评审选择相关研究的潜力。方法：科学论文最初是通过使用预定义关键词的布尔搜索策略从文献数据库搜索中获得的。在15,839个独特的记录中，三位评审员根据预先指定的纳入和排除标准，手动识别出39篇相关论文。在ChatGPT实验中，超过10%的记录被随机选择为实验数据集，包括39篇手动识别的手稿。这些独特的记录（n=1,680）通过使用相同的预先指定的标准进行了ChatGPT-4的筛选。采用了四种策略，包括标准提示，即输入-输出（IO），零射击学习的思维链（0-CoT），少射击学习的CoT（FS-CoT），以及集成所有三种提示策略的多数投票。通过召回率，F分数和精确度度量来评估模型的性能。结果：不同ChatGPT配置的召回率（模型从所有输入数据/记录中成功识别和检索的真实摘要的百分比）为0.82（IO），0.97（0-CoT），FS-CoT和多数投票提示都达到了召回率1.0。F分数为0.34（IO），0.29（0-CoT），0.39（FS-CoT），和0.46（多数投票）。精确度度量为0.22(IO)，0.17(0-CoT)，0.24(FS-CoT)，和0.30 (多数投票)。计算时间分别为IO，0-CoT，FS-CoT，和多数投票的2.32，4.55，6.44，和13.30小时。处理1,680个独特记录的费用分别约为$63，$73，$186，和$325。结论：像ChatGPT这样的LLMs对于系统评审是可行的，能够有效地识别符合预先指定标准的研究。当采用更复杂的提示设计时，观察到了更大的效率，即集成IO，0-CoT和FS-CoT提示技术（即，多数投票）。与手动方法相比，LLMs可以加快系统评审中的研究选择过程，成本影响最小。

问题与动机

作者面对的研究问题包括：

如何利用大型语言模型（LLMs）来提高系统评价中相关文献选择的准确性和效率？
不同的提示工程技巧在HIV相关文献筛选中的效果如何？
在系统评价中，如何设计有效的提示以提高LLMs的性能？
大型语言模型（如ChatGPT)在系统评价中的可行性和效果如何？
在系统评价中，如何平衡准确性和成本效益？

背景介绍

这篇文献的研究背景主要集中在以下几个方面：

科学文献的快速增长 ==
- 科学文献的快速增长给全面科学综述带来了显著挑战，这对于指导临床决策或公共政策至关重要。
- 据估计，自1996年以来，已发表了超过6400万篇科学手稿，新发表论文的增长率逐年上升。
- 2020年至2022年间，发表论文的数量从468万增加到514万，增长率约为4.89%。
大型语言模型（LLMs）的应用潜力 ==
- 人们越来越关注如何利用大型语言模型（如ChatGPT)提高系统综述中筛选过程的效率，这一过程传统上是劳动密集型和耗时的。
- LLMs因其在多个领域的卓越能力而受到学术界和工业界的关注，这些模型在处理广泛的一般主题时表现出色。
- 然而，当关注点转向更专业或狭窄的主题时，使用标准提示（IO）的ChatGPT可能难以提供准确和相关的信息。
- 提示工程（Prompt engineering）技术可以与标准提示相结合，以提高模型在专业任务中的表现。
HIV治疗依从性研究的复杂性 ==
- HIV治疗依从性干预研究的参与者具有多样化的人口统计背景、共病状况（如药物使用、心理健康状况）和社会边缘身份（如种族/民族、性取向和性别少数群体）。
- 治疗依从性干预措施包括多种不同的方法和多层次组成部分（如咨询、同伴支持、短信提醒、减少HIV污名等）。
- HIV药物依从性干预研究的结果从行为结果（ART使用或使用）到临床结果（如CD4计数和病毒载量），可能包括多种测量工具，如自我报告、药片计数、电子健康记录和药物水平测定。

综上所述，这篇文献的背景强调了科学文献的快速增长、大型语言模型在提高系统综述筛选效率方面的应用潜力，以及HIV治疗依从性研究的复杂性。

@@ 第17行： / 第17行： @@
 == 背景介绍 ==
 这篇文献的研究背景主要集中在以下几个方面：
-== '''[[科学文献的快速增长]]''' ==
+* '''[[科学文献的快速增长]]''' ==
-* [[科学文献]]的快速增长给全面[[科学综述]]带来了显著挑战，这对于指导[[临床决策]]或[[公共政策]]至关重要。
+** [[科学文献]]的快速增长给全面[[科学综述]]带来了显著挑战，这对于指导[[临床决策]]或[[公共政策]]至关重要。
-* 据估计，自1996年以来，已发表了超过6400万篇科学手稿，新发表论文的增长率逐年上升。
+** 据估计，自1996年以来，已发表了超过6400万篇科学手稿，新发表论文的增长率逐年上升。
-* 2020年至2022年间，发表论文的数量从468万增加到514万，增长率约为4.89%。
+** 2020年至2022年间，发表论文的数量从468万增加到514万，增长率约为4.89%。
-== '''[[大型语言模型（LLMs）的应用潜力]]''' ==
+* '''[[大型语言模型（LLMs）的应用潜力]]''' ==
-* 人们越来越关注如何利用[[大型语言模型]]（如[[ChatGPT]])提高系统综述中筛选过程的效率，这一过程传统上是劳动密集型和耗时的。
+** 人们越来越关注如何利用[[大型语言模型]]（如[[ChatGPT]])提高系统综述中筛选过程的效率，这一过程传统上是劳动密集型和耗时的。
-* [[LLMs]]因其在多个领域的卓越能力而受到学术界和工业界的关注，这些模型在处理广泛的一般主题时表现出色。
+** [[LLMs]]因其在多个领域的卓越能力而受到学术界和工业界的关注，这些模型在处理广泛的一般主题时表现出色。
-* 然而，当关注点转向更专业或狭窄的主题时，使用标准提示（IO）的[[ChatGPT]]可能难以提供准确和相关的信息。
+** 然而，当关注点转向更专业或狭窄的主题时，使用标准提示（IO）的[[ChatGPT]]可能难以提供准确和相关的信息。
-* [[提示工程]]（Prompt engineering）技术可以与标准提示相结合，以提高模型在专业任务中的表现。
+** [[提示工程]]（Prompt engineering）技术可以与标准提示相结合，以提高模型在专业任务中的表现。
-== '''[[HIV治疗依从性研究的复杂性]]''' ==
+* '''[[HIV治疗依从性研究的复杂性]]''' ==
-* [[HIV治疗依从性]]干预研究的参与者具有多样化的人口统计背景、共病状况（如药物使用、心理健康状况）和社会边缘身份（如种族/民族、性取向和性别少数群体）。
+** [[HIV治疗依从性]]干预研究的参与者具有多样化的人口统计背景、共病状况（如药物使用、心理健康状况）和社会边缘身份（如种族/民族、性取向和性别少数群体）。
-* 治疗依从性干预措施包括多种不同的方法和多层次组成部分（如咨询、同伴支持、短信提醒、减少[[HIV]]污名等）。
+** 治疗依从性干预措施包括多种不同的方法和多层次组成部分（如咨询、同伴支持、短信提醒、减少[[HIV]]污名等）。
-* [[HIV]]药物依从性干预研究的结果从行为结果（[[ART]]使用或使用）到临床结果（如[[CD4]]计数和病毒载量），可能包括多种测量工具，如自我报告、药片计数、[[电子健康记录]]和药物水平测定。
+** [[HIV]]药物依从性干预研究的结果从行为结果（[[ART]]使用或使用）到临床结果（如[[CD4]]计数和病毒载量），可能包括多种测量工具，如自我报告、药片计数、[[电子健康记录]]和药物水平测定。
 综上所述，这篇文献的背景强调了[[科学文献]]的快速增长、[[大型语言模型]]在提高系统综述筛选效率方面的应用潜力，以及[[HIV治疗依从性]]研究的复杂性。

WikiEdge:MedRxiv-2024.09.18.24313828：修订间差异

2024年9月23日 (一) 09:42的版本

问题与动机

背景介绍

导航菜单

搜索