WikiEdge:ArXiv速递/2025-03-18
摘要
- 原文标题:Why Personalizing Deep Learning-Based Code Completion Tools Matters
- 中文标题:为什么个性化基于深度学习的代码补全工具很重要
- 发布日期:2025-03-18 12:26:06+00:00
- 作者:Alessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota
- 分类:cs.SE
- 原文链接:http://arxiv.org/abs/2503.14201v1
中文摘要:基于深度学习(DL)的代码补全工具通过实现高级代码生成,彻底改变了软件开发。这些工具利用从大量代码库中训练的模型,捕捉通用的编码模式。然而,针对特定组织或开发者微调这些模型以提升其在这些主体上的性能的影响尚未被探索。在本研究中,我们通过提供坚实的实证证据填补了这一空白。具体而言,我们考虑了来自两个组织(Apache 和 Spring)的 136 名开发者、两种模型架构(T5 和 Code Llama)以及三种模型规模(6000 万、7.5 亿和 70 亿可训练参数)。T5 模型(6000 万、7.5 亿)在超过 2000 个开源项目上进行了预训练和微调,排除了目标组织的数据,并与在组织和开发者特定数据集上微调的版本进行了比较。对于 Code Llama 模型(70 亿),我们比较了在线公开的预训练模型与通过参数高效微调在组织和开发者特定数据集上微调的同一模型的性能。我们的结果表明,组织和开发者特定的额外微调都能提升预测能力,其中前者表现尤为突出。这一发现在(i)两个目标组织(即 Apache 和 Spring)和(ii)完全不同的模型规模(从 6000 万到 70 亿可训练参数)中具有普遍性。最后,我们展示了在组织特定数据集上微调的 DL 模型能够达到与预训练代码模型相同的补全性能,而后者规模约为前者的 10 倍,从而在部署和推理成本上实现了显著节省(例如,需要更小的GPU)。