WikiEdge:ArXiv-2311.17371/methods

编辑

这篇研究论文的工作方法主要围绕多智能体辩论（Multi-Agent Debate，MAD）策略在大型语言模型（LLMs）中的应用和评估。以下是这部分的主要内容：

多智能体辩论（Multi-Agent Debate，MAD）：
- 探讨了MAD策略在提升LLMs回答问题准确性方面的潜力。MAD通过模拟辩论的方式，让多个智能体就某一问题展开讨论，以期望通过交互式推理得到更可靠的答案。
辩论策略和提示策略（Debating and Prompting Strategies）：
- 评估了多种辩论和提示策略，包括自我一致性（Self-consistency）、集成优化（Ensemble Refinement）和多角色（Multi-Persona）等，以探索它们在成本、时间和准确性之间的权衡。
系统实现和评估（System Implementation和Evaluation）：
- 实现了单智能体和MAD系统的多种配置，并提供了统一的API，以便研究社区能够轻松构建和评估MAD系统。使用GPT-3作为基础智能体，通过API调用进行实验。
数据集和性能评估（Datasets和Performance Evaluation）：
- 使用了包括医学问答（MedQA）、生物医学研究问答（PubMedQA）和常识推理（CosmosQA）在内的多个数据集来评估不同策略的性能。评估指标包括准确率、成本和所需API调用次数。
超参数调整（Hyperparameter Tuning）：
- 发现MAD系统对超参数设置非常敏感，通过调整智能体间的一致性水平等超参数，可以显著提高系统性能。
开源工具和进一步研究（Open-Source Tools和Further Research）：
- 为了促进这一领域的进一步研究，研究者提供了一个包含多种先进协议和评估脚本的开源代码库，以便研究社区可以跨流行的研究数据集进行基准测试。

WikiEdge:ArXiv-2311.17371/methods

导航菜单

搜索