查看“WikiEdge:ArXiv-2408.15658/methods”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.15658/methods|action=edit}} 编辑]</div>
这篇文献的工作部分详细介绍了如何开发和评估提出的自修正大型语言模型（[[CoT-SelfEvolve]]）用于数据科学代码生成。以下是这部分的主要内容：
# '''自修正机制（[[Self-correcting Mechanism]]）'''：
#* 定义了自修正机制的概念，即通过迭代过程和反馈循环，使模型能够逐步改进自身生成的代码。
#  '''CoT-SelfEvolve框架（[[CoT-SelfEvolve Framework]]）'''：
#* 提出了[[CoT-SelfEvolve]]，这是一个基于现有[[SelfEvolve]]模型的新框架，通过结合[[链式思考]]（[[Chain of Thought]], [[CoT]]）提示和外部知识库（如[[StackOverflow]]）来增强代码生成的准确性和可靠性。
#  '''链式思考提示（[[Chain of Thought Prompting]]）'''：
#* 利用从开发者论坛提取的对话构建领域相关知识库，以指导[[LLMs]]。通过采用[[CoT]]模式，[[LLMs]]的学习过程可以模仿开发者逐步讨论和解决复杂问题的方式。
#  '''外部知识库整合（[[External Knowledge Base Integration]]）'''：
#* 通过从[[StackOverflow]]等开发者论坛提取的帖子和评论，构建了一个领域相关的知识库，用于指导[[LLMs]]生成更准确和实用的代码。
#  '''实验设置（[[Experimental Settings]]）'''：
#* 使用[[DS-1000]]数据集作为代码生成的基准测试，涵盖了1000个数据科学问题，涉及[[NumPy]]和[[Pandas]]等七个[[Python]]库。
#  '''评估指标（[[Evaluation Metrics]]）'''：
#* 采用[[pass@k]]指标来衡量模型在k次尝试内成功解决问题的能力，以更真实地评估模型性能。
#  '''实验结果（[[Experimental Results]]）'''：
#* 通过与现有模型的比较，展示了[[CoT-SelfEvolve]]在解决复杂问题上显著的性能提升，尤其是在多次迭代后。
#  '''方法论讨论（[[Methodological Discussion]]）'''：
#* 讨论了[[CoT-SelfEvolve]]如何通过整合外部知识源和自修正机制来提高代码生成的准确性，以及这种方法在持续软件工程环境中的潜在应用。