A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond

2024年03月21日
  • 简介
    神经代码智能——利用深度学习来理解、生成和优化代码——在整个社会中具有巨大的潜力,它缩小了自然语言和编程语言之间的差距,过去几年里,这个领域吸引了两个研究社区的研究人员的重视。本文系统地回顾了代码智能的发展历程,包括50多个代表性模型及其变体、20多个任务类别和超过680项相关工作。我们遵循历史进程,追踪不同研究阶段的范式转变(例如,从使用递归神经网络对代码进行建模到大型语言模型时代)。同时,我们还强调了模型、任务和评估在不同阶段的主要技术转变。对于应用程序,我们还观察到了共同演变的趋势。它从最初解决特定场景的尝试开始,通过在快速扩展期间探索各种任务,到目前集中解决日益复杂和多样化的现实挑战。在我们对发展轨迹的研究基础上,我们进一步调查了代码智能和更广泛的机器智能之间出现的新的跨领域机会,并阐述了代码智能在各个领域的实质影响。最后,我们深入探讨了这个领域所面临的机遇和挑战,同时阐明了我们对最有前途的研究方向的见解。与本文相关的一个正在进行中的、动态更新的项目和资源已发布在https://github.com/QiushiSun/NCISurvey上。
  • 图表
  • 解决问题
    系统性地回顾了代码智能领域的发展历程,总结了50多个代表性模型及其变种,20多个任务类别,680多个相关工作,探讨了该领域与机器智能的交叉点,提出了未来的研究方向。
  • 关键思路
    通过系统性的回顾,总结了代码智能领域的发展历程,揭示了该领域与机器智能的交叉点,提出了未来的研究方向。
  • 其它亮点
    论文从历史的角度出发,追踪了不同阶段模型、任务和评估的技术转变,同时还探讨了代码智能与更广泛的机器智能之间的新兴协同作用。论文还提供了一个动态更新的项目和资源,包括50多个代表性模型及其变种,20多个任务类别,680多个相关工作。
  • 相关研究
    在代码智能领域中,最近的相关研究包括《DeepCoder: Learning to Write Programs》、《Code2Vec: Learning Distributed Representations of Code》、《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论