查看“WikiEdge:ArXiv-2311.17371/summary”的源代码
←
WikiEdge:ArXiv-2311.17371/summary
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2311.17371/summary|action=edit}} 编辑]</div> 这篇论文探讨了[[多智能体辩论]](MAD)策略在[[大型语言模型]](LLMs)中的应用,并与其他提示策略进行了比较。研究的主要内容包括: # '''引言''':介绍了大型语言模型(LLMs)在问答助手领域的应用潜力,以及提高这些模型准确性和可靠性的重要性。提出了多智能体辩论(MAD)作为一种提升LLMs回答真实性的策略。 # '''多智能体辩论''':分析了当前问答系统中使用的生成性LLMs,并讨论了通过多智能体辩论来提高模型的推理能力。介绍了几种不同的MAD策略,包括[[Society of Minds]]、[[Multi-Persona]]、[[ChatEval]]、[[Self-consistency]]和[[Ensemble Refinement]]等。 # '''实验''':使用[[GPT-3]]作为基础智能体,通过一系列数据集对不同的系统进行评估,包括三个医疗数据集和三个需要推理的通用数据集。实验结果表明,尽管MAD策略在某些情况下表现出色,但并非在所有情况下都优于其他策略,如[[Medprompt]]和[[Self-consistency]]。 # '''辩论的效用''':进一步探讨了辩论在提示策略中的效用,发现在需要复杂和常识推理的数据集上,MAD策略可能具有优势。然而,实验结果显示,没有一种策略在所有数据集上都占优。 # '''MAD对超参数的敏感性''':研究了MAD对超参数选择的敏感性,并发现通过调整辩论中智能体之间的一致性水平,可以显著提高性能。 # '''通过调整一致性改善MAD''':提出了一种新的MAD提示策略,通过调整辩论中智能体之间的一致性水平来提高性能。实验表明,这种方法可以显著提高某些系统的性能。 # '''辩论行为分析''':最后,通过分析MAD系统在[[MedQA]]测试集上的表现,探讨了不同系统在辩论中的行为动态。 # '''使用其他API进行评估''':评估了[[GPT-4]]和[[Mixtral 8x7B]]在MedQA数据集上的性能,并尝试将[[GPT-3.5]]上的最佳一致性调节值应用到这些模型上。 # '''结论''':尽管MAD方法在某些情况下可能不如其他集成方法,但通过调整超参数,特别是智能体之间的一致性水平,MAD具有提高性能的潜力。研究还提供了一个开源工具包,以促进这一领域的进一步研究。
返回
WikiEdge:ArXiv-2311.17371/summary
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息