查看“WikiEdge:ArXiv-2408.15658/summary”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.15658/summary|action=edit}} 编辑]</div>
这篇论文是关于自我修正的大型语言模型在数据科学代码生成方面的实证研究，主要内容可以概括如下：
# '''引言'''：介绍了代码生成的目标是基于给定的规格或需求自动生成源代码，以减少手动实现工作并使开发者能够专注于更创新的活动。大型语言模型（[[LLMs]]）在软件工程任务，尤其是代码生成方面的潜力。
# '''相关工作'''：
#* **LLMs与自动化程序修复**：讨论了软件缺陷的挑战以及自动化程序修复（[[APR]]）技术的发展，以及LLMs在APR中的应用潜力。
#* **提高LLMs性能**：概述了通过人类反馈或自动化反馈源来提高LLMs性能的相关研究。
#* **自我修正的LLMs**：介绍了自我修正LLMs的概念，即模型通过生成反馈并细化自己的输出来进行事后更正。
#* **自我修正LLMs在APR中的应用**：探讨了LLMs在编程中的应用，以及APR如何超越传统边界，向完全自主编程的更集成方法发展。
# '''提出的方法'''：介绍了[[CoT-SelfEvolve]]框架，它结合了链式思考（[[CoT]]）提示和[[StackOverflow]]上的人类讨论见解，用于现有的SelfEvolve框架。该框架通过三个阶段操作：外部知识检索与初始代码生成、语法检查与执行、迭代细化与反馈分析。
# '''评估'''：
#* **实验设置**：使用了[[DS-1000]]数据集作为代码生成的基准，并构建了一个外部知识库，用于指导LLMs生成CoT提示。
#* **评估指标**：采用了不同的评估指标来衡量模型在不同尝试次数下的性能。
#* **结果**：展示了CoT-SelfEvolve模型在不同库上的性能，并与现有的SelfEvolve模型进行了比较。
# '''讨论'''：
#* **研究结果讨论**：比较了CoT-SelfEvolve与其他自我修正框架的性能，并讨论了[[Auto-CoT]]提示生成器对模型性能的影响。
#* **实际应用**：讨论了CoT-SelfEvolve框架在自动化代码生成中的潜在应用，以及如何将其集成到持续软件工程环境中。
#* **有效性威胁**：讨论了研究内部有效性的主要威胁，包括对专有LLMs的依赖和实验结果对LLMs特定设置的敏感性。
# '''结论'''：总结了CoT-SelfEvolve框架的主要贡献，并讨论了未来的研究方向，包括利用先前尝试的元数据来优化提示生成。