查看“WikiEdge:ArXiv-2311.17371/abs”的源代码
←
WikiEdge:ArXiv-2311.17371/abs
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2311.17371/abs|action=edit}} 编辑]</div> * '''标题''':Should we be going MAD? A Look at [[多智能体辩论]] Strategies for [[大型语言模型]] * '''中文标题''':我们应该去进行多智能体辩论吗?对大型语言模型的辩论策略的探讨 * '''发布日期''':2023-11-29 05:54:41+00:00 * '''作者''':Andries Smit, Paul Duckworth, Nathan Grinsztajn, Thomas D. Barrett, Arnu Pretorius * '''分类''':cs.CL, cs.AI * '''原文链接''':http://arxiv.org/abs/2311.17371 '''摘要''':最近在[[大型语言模型]](LLMs)方面的进展凸显了它们在各个领域回答询问的潜力。然而,确保生成代理提供准确和可靠的答案仍然是一个持续的挑战。在这种背景下,[[多代理辩论]](MAD)作为一种增强LLMs真实性的有前景的策略应运而生。我们基准测试了一系列辩论和提示策略,以探索成本、时间和准确性之间的权衡。重要的是,我们发现当前形式的多代理辩论系统并没有可靠地优于其他提出的提示策略,例如[[自一致性]]和使用多条推理路径的集成。然而,在进行超参数调优时,某些MAD系统,如[[多角色]](Multi-Persona),表现得更好。这表明,MAD协议可能并不比其他方法本质上更差,而是对不同的超参数设置更为敏感,且难以优化。我们基于这些结果提供了改进辩论策略的见解,例如调整代理的协议一致性水平,这可以显著提升性能,甚至超越我们评估的所有其他非辩论协议。我们向社区提供了一个开源库,其中包含多个最先进的协议以及用于在流行研究数据集上进行基准测试的评估脚本。
返回
WikiEdge:ArXiv-2311.17371/abs
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息