WikiEdge:MedRxiv-2024.09.18.24313828:修订间差异
Updated page by David |
小 →章节摘要 |
||
第39行: | 第39行: | ||
#* 大型语言模型(LLMs),如[[ChatGPT]],因其在多个领域的卓越能力而受到关注。 | #* 大型语言模型(LLMs),如[[ChatGPT]],因其在多个领域的卓越能力而受到关注。 | ||
#* 提出了使用LLMs进行系统性回顾的筛选过程,以提高效率。 | #* 提出了使用LLMs进行系统性回顾的筛选过程,以提高效率。 | ||
# '''研究目的''': | # '''研究目的''': | ||
#* 评估ChatGPT在加速相关科学文献筛选过程中的可行性,同时保持准确性。 | #* 评估ChatGPT在加速相关科学文献筛选过程中的可行性,同时保持准确性。 | ||
#* 比较不同[[提示工程技术]]在HIV相关文献筛选中的能力。 | #* 比较不同[[提示工程技术]]在HIV相关文献筛选中的能力。 | ||
# '''方法''': | # '''方法''': | ||
#* 根据[[PRISMA]]指南,从多个电子数据库中检索相关科学文献。 | #* 根据[[PRISMA]]指南,从多个电子数据库中检索相关科学文献。 | ||
#* 三名训练有素的研究助理根据预定义的纳入和排除标准独立筛选标题和摘要。 | #* 三名训练有素的研究助理根据预定义的纳入和排除标准独立筛选标题和摘要。 | ||
#* 使用[[ChatGPT-4]]模型通过API进行实验,采用不同的提示技术。 | #* 使用[[ChatGPT-4]]模型通过API进行实验,采用不同的提示技术。 | ||
# '''实验结果''': | # '''实验结果''': | ||
#* 不同ChatGPT配置的召回率分别为0.82(IO)、0.97(0-CoT)、1.0(FS-CoT和多数投票)。 | #* 不同ChatGPT配置的召回率分别为0.82(IO)、0.97(0-CoT)、1.0(FS-CoT和多数投票)。 | ||
#* 多数投票提示设计在所有评估参数中表现最佳,具有显著更高的F分数。 | #* 多数投票提示设计在所有评估参数中表现最佳,具有显著更高的F分数。 | ||
#* 展示了不同提示设计下的[[混淆矩阵]],以视觉方式评估每个模型的分类准确性。 | #* 展示了不同提示设计下的[[混淆矩阵]],以视觉方式评估每个模型的分类准确性。 | ||
# '''资源分配分析''': | # '''资源分配分析''': | ||
#* LLMs使用令牌处理文本,令牌是文本中的字符序列。 | #* LLMs使用令牌处理文本,令牌是文本中的字符序列。 | ||
#* 不同提示设计中的令牌长度会有所不同,影响计算时间和成本。 | #* 不同提示设计中的令牌长度会有所不同,影响计算时间和成本。 | ||
# '''讨论与局限性''': | # '''讨论与局限性''': | ||
#* 讨论了使用ChatGPT进行系统性回顾的可行性。 | #* 讨论了使用ChatGPT进行系统性回顾的可行性。 | ||
#* 强调了提示策略在提高ChatGPT性能中的关键作用。 | #* 强调了提示策略在提高ChatGPT性能中的关键作用。 | ||
#* 提出了未来改进的方向,包括测试更先进的提示技术。 | #* 提出了未来改进的方向,包括测试更先进的提示技术。 | ||
# '''结论''': | # '''结论''': | ||
#* LLMs,如ChatGPT,对于系统性回顾是可行的,能够高效地识别符合预定义标准的手稿。 | #* LLMs,如ChatGPT,对于系统性回顾是可行的,能够高效地识别符合预定义标准的手稿。 | ||
#* 更复杂的提示方法,如本研究中设计的多数投票方法,可以进一步提高效率。 | #* 更复杂的提示方法,如本研究中设计的多数投票方法,可以进一步提高效率。 | ||
#* 随着[[GPT]]新版本的发布,其功能和成本效益可能会进一步提高。 | #* 随着[[GPT]]新版本的发布,其功能和成本效益可能会进一步提高。 | ||
# '''资金来源''': | # '''资金来源''': | ||
#* 研究由[[NIH]]/[[NIMH]] Contract#75N95022P00690资助。 | #* 研究由[[NIH]]/[[NIMH]] Contract#75N95022P00690资助。 |
2024年9月23日 (一) 09:44的版本
- 标题:Leveraging large language models for systematic reviewing: A case study using HIV medication adherence research
- 中文标题:利用大型语言模型进行系统性审查:以HIV药物依从性研究为例
- 发布日期:2024-09-19
- 作者:Lessani, M. N.; Li, Z.; Qiao, S.; Ning, H.; Aggarwal, A.; Yuan, G. F.; Pasha, A.; Stirratt, M.; Scott-Sheldon, L. A. J.
- 分类:hiv aids
- 原文链接:10.1101/2024.09.18.24313828
摘要:背景:HIV领域的科学文献积累迅速,准确且高效地评估相关文献成为了一项重大挑战。本研究探索了使用大型语言模型(LLMs),如ChatGPT,为系统评审选择相关研究的潜力。方法:科学论文最初是通过使用预定义关键词的布尔搜索策略从文献数据库搜索中获得的。在15,839个独特的记录中,三位评审员根据预先指定的纳入和排除标准,手动识别出39篇相关论文。在ChatGPT实验中,超过10%的记录被随机选择为实验数据集,包括39篇手动识别的手稿。这些独特的记录(n=1,680)通过使用相同的预先指定的标准进行了ChatGPT-4的筛选。采用了四种策略,包括标准提示,即输入-输出(IO),零射击学习的思维链(0-CoT),少射击学习的CoT(FS-CoT),以及集成所有三种提示策略的多数投票。通过召回率,F分数和精确度度量来评估模型的性能。结果:不同ChatGPT配置的召回率(模型从所有输入数据/记录中成功识别和检索的真实摘要的百分比)为0.82(IO),0.97(0-CoT),FS-CoT和多数投票提示都达到了召回率1.0。F分数为0.34(IO),0.29(0-CoT),0.39(FS-CoT),和0.46(多数投票)。精确度度量为0.22(IO),0.17(0-CoT),0.24(FS-CoT),和0.30 (多数投票)。计算时间分别为IO,0-CoT,FS-CoT,和多数投票的2.32,4.55,6.44,和13.30小时。处理1,680个独特记录的费用分别约为$63,$73,$186,和$325。结论:像ChatGPT这样的LLMs对于系统评审是可行的,能够有效地识别符合预先指定标准的研究。当采用更复杂的提示设计时,观察到了更大的效率,即集成IO,0-CoT和FS-CoT提示技术(即,多数投票)。与手动方法相比,LLMs可以加快系统评审中的研究选择过程,成本影响最小。
问题与动机
作者面对的研究问题包括:
- 如何利用大型语言模型(LLMs)来提高系统评价中相关文献选择的准确性和效率?
- 不同的提示工程技巧在HIV相关文献筛选中的效果如何?
- 在系统评价中,如何设计有效的提示以提高LLMs的性能?
- 大型语言模型(如ChatGPT)在系统评价中的可行性和效果如何?
- 在系统评价中,如何平衡准确性和成本效益?
背景介绍
这篇文献的研究背景主要集中在以下几个方面:
综上所述,这篇文献的背景强调了科学文献的快速增长、大型语言模型在提高系统综述筛选效率方面的应用潜力,以及HIV治疗依从性研究的复杂性。
章节摘要
这篇论文探讨了利用大型语言模型(LLMs)进行系统性回顾的潜力,以HIV药物依从性研究为例。以下是按章节概括的结果:
- 背景:
- 研究目的:
- 评估ChatGPT在加速相关科学文献筛选过程中的可行性,同时保持准确性。
- 比较不同提示工程技术在HIV相关文献筛选中的能力。
- 方法:
- 实验结果:
- 不同ChatGPT配置的召回率分别为0.82(IO)、0.97(0-CoT)、1.0(FS-CoT和多数投票)。
- 多数投票提示设计在所有评估参数中表现最佳,具有显著更高的F分数。
- 展示了不同提示设计下的混淆矩阵,以视觉方式评估每个模型的分类准确性。
- 资源分配分析:
- LLMs使用令牌处理文本,令牌是文本中的字符序列。
- 不同提示设计中的令牌长度会有所不同,影响计算时间和成本。
- 讨论与局限性:
- 讨论了使用ChatGPT进行系统性回顾的可行性。
- 强调了提示策略在提高ChatGPT性能中的关键作用。
- 提出了未来改进的方向,包括测试更先进的提示技术。
- 结论:
- LLMs,如ChatGPT,对于系统性回顾是可行的,能够高效地识别符合预定义标准的手稿。
- 更复杂的提示方法,如本研究中设计的多数投票方法,可以进一步提高效率。
- 随着GPT新版本的发布,其功能和成本效益可能会进一步提高。
- 资金来源: