查看“WikiEdge:ArXiv-2311.17371/summary”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2311.17371/summary|action=edit}} 编辑]</div>
这篇论文探讨了[[多智能体辩论]]（MAD）策略在[[大型语言模型]]（LLMs）中的应用，并与其他提示策略进行了比较。研究的主要内容包括：
# '''引言'''：介绍了大型语言模型（LLMs）在问答助手领域的应用潜力，以及提高这些模型准确性和可靠性的重要性。提出了多智能体辩论（MAD）作为一种提升LLMs回答真实性的策略。
# '''多智能体辩论'''：分析了当前问答系统中使用的生成性LLMs，并讨论了通过多智能体辩论来提高模型的推理能力。介绍了几种不同的MAD策略，包括[[Society of Minds]]、[[Multi-Persona]]、[[ChatEval]]、[[Self-consistency]]和[[Ensemble Refinement]]等。
# '''实验'''：使用[[GPT-3]]作为基础智能体，通过一系列数据集对不同的系统进行评估，包括三个医疗数据集和三个需要推理的通用数据集。实验结果表明，尽管MAD策略在某些情况下表现出色，但并非在所有情况下都优于其他策略，如[[Medprompt]]和[[Self-consistency]]。
# '''辩论的效用'''：进一步探讨了辩论在提示策略中的效用，发现在需要复杂和常识推理的数据集上，MAD策略可能具有优势。然而，实验结果显示，没有一种策略在所有数据集上都占优。
# '''MAD对超参数的敏感性'''：研究了MAD对超参数选择的敏感性，并发现通过调整辩论中智能体之间的一致性水平，可以显著提高性能。
# '''通过调整一致性改善MAD'''：提出了一种新的MAD提示策略，通过调整辩论中智能体之间的一致性水平来提高性能。实验表明，这种方法可以显著提高某些系统的性能。
# '''辩论行为分析'''：最后，通过分析MAD系统在[[MedQA]]测试集上的表现，探讨了不同系统在辩论中的行为动态。
# '''使用其他API进行评估'''：评估了[[GPT-4]]和[[Mixtral 8x7B]]在MedQA数据集上的性能，并尝试将[[GPT-3.5]]上的最佳一致性调节值应用到这些模型上。
# '''结论'''：尽管MAD方法在某些情况下可能不如其他集成方法，但通过调整超参数，特别是智能体之间的一致性水平，MAD具有提高性能的潜力。研究还提供了一个开源工具包，以促进这一领域的进一步研究。