查看“WikiEdge:MedRxiv-2024.09.18.24313828”的源代码

* '''标题'''：Leveraging large language models for systematic reviewing: A case study using HIV medication adherence research
* '''中文标题'''：利用大型语言模型进行系统性审查：以HIV药物依从性研究为例
* '''发布日期'''：2024-09-19
* '''作者'''：Lessani, M. N.; Li, Z.; Qiao, S.; Ning, H.; Aggarwal, A.; Yuan, G. F.; Pasha, A.; Stirratt, M.; Scott-Sheldon, L. A. J.
* '''分类'''：hiv aids
*'''原文链接'''：10.1101/2024.09.18.24313828
'''摘要'''：背景：HIV领域的科学文献积累迅速，准确且高效地评估相关文献成为了一项重大挑战。本研究探索了使用大型语言模型（LLMs），如ChatGPT，为系统评审选择相关研究的潜力。方法：科学论文最初是通过使用预定义关键词的布尔搜索策略从文献数据库搜索中获得的。在15,839个独特的记录中，三位评审员根据预先指定的纳入和排除标准，手动识别出39篇相关论文。在ChatGPT实验中，超过10%的记录被随机选择为实验数据集，包括39篇手动识别的手稿。这些独特的记录（n=1,680）通过使用相同的预先指定的标准进行了ChatGPT-4的筛选。采用了四种策略，包括标准提示，即输入-输出（IO），零射击学习的思维链（0-CoT），少射击学习的CoT（FS-CoT），以及集成所有三种提示策略的多数投票。通过召回率，F分数和精确度度量来评估模型的性能。结果：不同ChatGPT配置的召回率（模型从所有输入数据/记录中成功识别和检索的真实摘要的百分比）为0.82（IO），0.97（0-CoT），FS-CoT和多数投票提示都达到了召回率1.0。F分数为0.34（IO），0.29（0-CoT），0.39（FS-CoT），和0.46（多数投票）。精确度度量为0.22(IO)，0.17(0-CoT)，0.24(FS-CoT)，和0.30 (多数投票)。计算时间分别为IO，0-CoT，FS-CoT，和多数投票的2.32，4.55，6.44，和13.30小时。处理1,680个独特记录的费用分别约为$63，$73，$186，和$325。结论：像ChatGPT这样的LLMs对于系统评审是可行的，能够有效地识别符合预先指定标准的研究。当采用更复杂的提示设计时，观察到了更大的效率，即集成IO，0-CoT和FS-CoT提示技术（即，多数投票）。与手动方法相比，LLMs可以加快系统评审中的研究选择过程，成本影响最小。

== 问题与动机 ==
作者面对的研究问题包括：
* 如何利用[[大型语言模型]]（LLMs）来提高[[系统评价]]中[[相关文献选择]]的准确性和效率？
* 不同的[[提示工程]]技巧在[[HIV]]相关文献筛选中的效果如何？
* 在[[系统评价]]中，如何设计有效的[[提示]]以提高LLMs的性能？
* [[大型语言模型]]（如[[ChatGPT]])在[[系统评价]]中的可行性和效果如何？
* 在[[系统评价]]中，如何平衡[[准确性]]和[[成本效益]]？