查看“WikiEdge:ArXiv-2311.17371/methods”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2311.17371/methods|action=edit}} 编辑]</div>
这篇研究论文的工作方法主要围绕[[多智能体辩论]]（[[Multi-Agent Debate]]，MAD）策略在[[大型语言模型]]（[[LLMs]]）中的应用和评估。以下是这部分的主要内容：
# '''[[多智能体辩论]]（[[Multi-Agent Debate]]，MAD）'''：
#* 探讨了MAD策略在提升LLMs回答问题准确性方面的潜力。MAD通过模拟辩论的方式，让多个智能体就某一问题展开讨论，以期望通过交互式推理得到更可靠的答案。
# '''[[辩论策略]]和[[提示策略]]（[[Debating and Prompting Strategies]]）'''：
#* 评估了多种辩论和提示策略，包括[[自我一致性]]（[[Self-consistency]]）、[[集成优化]]（[[Ensemble Refinement]]）和[[多角色]]（[[Multi-Persona]]）等，以探索它们在成本、时间和准确性之间的权衡。
# '''[[系统实现]]和[[评估]]（[[System Implementation]]和[[Evaluation]]）'''：
#* 实现了单智能体和MAD系统的多种配置，并提供了统一的[[API]]，以便研究社区能够轻松构建和评估MAD系统。使用[[GPT-3]]作为基础智能体，通过API调用进行实验。
# '''[[数据集]]和[[性能评估]]（[[Datasets]]和[[Performance Evaluation]]）'''：
#* 使用了包括[[医学问答]]（[[MedQA]]）、[[生物医学研究问答]]（[[PubMedQA]]）和[[常识推理]]（[[CosmosQA]]）在内的多个数据集来评估不同策略的性能。评估指标包括准确率、成本和所需API调用次数。
# '''[[超参数调整]]（[[Hyperparameter Tuning]]）'''：
#* 发现MAD系统对超参数设置非常敏感，通过调整智能体间的一致性水平等超参数，可以显著提高系统性能。
# '''[[开源工具]]和进一步研究（[[Open-Source Tools]]和[[Further Research]]）'''：
#* 为了促进这一领域的进一步研究，研究者提供了一个包含多种先进协议和评估脚本的开源代码库，以便研究社区可以跨流行的研究数据集进行基准测试。