WikiEdge:ArXiv速遞/2025-03-18
摘要
- 原文標題:Why Personalizing Deep Learning-Based Code Completion Tools Matters
- 中文標題:為什麼個性化基於深度學習的代碼補全工具很重要
- 發佈日期:2025-03-18 12:26:06+00:00
- 作者:Alessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota
- 分類:cs.SE
- 原文連結:http://arxiv.org/abs/2503.14201v1
中文摘要:基於深度學習(DL)的代碼補全工具通過實現高級代碼生成,徹底改變了軟件開發。這些工具利用從大量代碼庫中訓練的模型,捕捉通用的編碼模式。然而,針對特定組織或開發者微調這些模型以提升其在這些主體上的性能的影響尚未被探索。在本研究中,我們通過提供堅實的實證證據填補了這一空白。具體而言,我們考慮了來自兩個組織(Apache 和 Spring)的 136 名開發者、兩種模型架構(T5 和 Code Llama)以及三種模型規模(6000 萬、7.5 億和 70 億可訓練參數)。T5 模型(6000 萬、7.5 億)在超過 2000 個開源項目上進行了預訓練和微調,排除了目標組織的數據,並與在組織和開發者特定數據集上微調的版本進行了比較。對於 Code Llama 模型(70 億),我們比較了在線公開的預訓練模型與通過參數高效微調在組織和開發者特定數據集上微調的同一模型的性能。我們的結果表明,組織和開發者特定的額外微調都能提升預測能力,其中前者表現尤為突出。這一發現在(i)兩個目標組織(即 Apache 和 Spring)和(ii)完全不同的模型規模(從 6000 萬到 70 億可訓練參數)中具有普遍性。最後,我們展示了在組織特定數據集上微調的 DL 模型能夠達到與預訓練代碼模型相同的補全性能,而後者規模約為前者的 10 倍,從而在部署和推理成本上實現了顯著節省(例如,需要更小的GPU)。