查看“WikiEdge:ArXiv-2311.17371/abs”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2311.17371/abs|action=edit}} 编辑]</div>
* '''标题'''：Should we be going MAD? A Look at [[多智能体辩论]] Strategies for [[大型语言模型]]
* '''中文标题'''：我们应该去进行多智能体辩论吗？对大型语言模型的辩论策略的探讨
* '''发布日期'''：2023-11-29 05:54:41+00:00
* '''作者'''：Andries Smit, Paul Duckworth, Nathan Grinsztajn, Thomas D. Barrett, Arnu Pretorius
* '''分类'''：cs.CL, cs.AI
* '''原文链接'''：http://arxiv.org/abs/2311.17371
'''摘要'''：最近在[[大型语言模型]]（LLMs）方面的进展凸显了它们在各个领域回答询问的潜力。然而，确保生成代理提供准确和可靠的答案仍然是一个持续的挑战。在这种背景下，[[多代理辩论]]（MAD）作为一种增强LLMs真实性的有前景的策略应运而生。我们基准测试了一系列辩论和提示策略，以探索成本、时间和准确性之间的权衡。重要的是，我们发现当前形式的多代理辩论系统并没有可靠地优于其他提出的提示策略，例如[[自一致性]]和使用多条推理路径的集成。然而，在进行超参数调优时，某些MAD系统，如[[多角色]]（Multi-Persona），表现得更好。这表明，MAD协议可能并不比其他方法本质上更差，而是对不同的超参数设置更为敏感，且难以优化。我们基于这些结果提供了改进辩论策略的见解，例如调整代理的协议一致性水平，这可以显著提升性能，甚至超越我们评估的所有其他非辩论协议。我们向社区提供了一个开源库，其中包含多个最先进的协议以及用于在流行研究数据集上进行基准测试的评估脚本。