查看“WikiEdge:ArXiv-2311.17371/methods”的源代码
←
WikiEdge:ArXiv-2311.17371/methods
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2311.17371/methods|action=edit}} 编辑]</div> 这篇研究论文的工作方法主要围绕[[多智能体辩论]]([[Multi-Agent Debate]],MAD)策略在[[大型语言模型]]([[LLMs]])中的应用和评估。以下是这部分的主要内容: # '''[[多智能体辩论]]([[Multi-Agent Debate]],MAD)''': #* 探讨了MAD策略在提升LLMs回答问题准确性方面的潜力。MAD通过模拟辩论的方式,让多个智能体就某一问题展开讨论,以期望通过交互式推理得到更可靠的答案。 # '''[[辩论策略]]和[[提示策略]]([[Debating and Prompting Strategies]])''': #* 评估了多种辩论和提示策略,包括[[自我一致性]]([[Self-consistency]])、[[集成优化]]([[Ensemble Refinement]])和[[多角色]]([[Multi-Persona]])等,以探索它们在成本、时间和准确性之间的权衡。 # '''[[系统实现]]和[[评估]]([[System Implementation]]和[[Evaluation]])''': #* 实现了单智能体和MAD系统的多种配置,并提供了统一的[[API]],以便研究社区能够轻松构建和评估MAD系统。使用[[GPT-3]]作为基础智能体,通过API调用进行实验。 # '''[[数据集]]和[[性能评估]]([[Datasets]]和[[Performance Evaluation]])''': #* 使用了包括[[医学问答]]([[MedQA]])、[[生物医学研究问答]]([[PubMedQA]])和[[常识推理]]([[CosmosQA]])在内的多个数据集来评估不同策略的性能。评估指标包括准确率、成本和所需API调用次数。 # '''[[超参数调整]]([[Hyperparameter Tuning]])''': #* 发现MAD系统对超参数设置非常敏感,通过调整智能体间的一致性水平等超参数,可以显著提高系统性能。 # '''[[开源工具]]和进一步研究([[Open-Source Tools]]和[[Further Research]])''': #* 为了促进这一领域的进一步研究,研究者提供了一个包含多种先进协议和评估脚本的开源代码库,以便研究社区可以跨流行的研究数据集进行基准测试。
返回
WikiEdge:ArXiv-2311.17371/methods
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息