- 简介大型语言模型正在成为软件开发中越来越受欢迎的工具。它们在建模和生成源代码方面的能力已经在多种情境下得到了证明,包括代码自动补全、摘要、翻译和查找。然而,它们通常难以为更复杂的任务生成代码。在本文中,我们探讨了最先进的语言模型生成并行代码的能力。我们提出了一个基准测试,PCGBench,包含一组420个任务,用于评估语言模型生成并行代码的能力,并评估了几个最先进的开源和闭源语言模型在这些任务上的性能。我们引入了比较并行代码生成性能的新指标,并使用它们来探讨每个大型语言模型在各种并行编程模型和计算问题类型上的表现。
- 图表
- 解决问题评估语言模型生成并行代码的能力
- 关键思路提出了一个评估语言模型生成并行代码能力的基准PCGBench,并使用新的度量标准对多个开源和闭源语言模型进行了评估
- 其它亮点论文提出了一个新的问题,即评估语言模型生成并行代码的能力,并提出了一个基准PCGBench,包含420个任务;使用了新的度量标准来评估多个语言模型的性能;实验结果表明,当前的语言模型在生成并行代码方面仍存在许多挑战和限制
- 与本论文相关的研究包括:1. CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing;2. Deep API Learning;3. Learning to Generate Pseudo-code from Source Code Using Hierarchical Attention Networks
沙发等你来抢
去评论
评论
沙发等你来抢