- 简介我们推出了Mercury,这是一代新型的商业化规模扩散模型(Diffusion Large Language Models,简称LLMs)。这些模型基于Transformer架构进行参数化,并经过训练可并行预测多个token。在本报告中,我们重点介绍了Mercury Coder,这是我们首批专为编程应用设计的扩散大语言模型。目前,Mercury Coder提供两种版本:Mini版和Small版。这些模型在速度与质量的前沿表现上树立了新的标杆。根据Artificial Analysis开展的独立评估,Mercury Coder Mini和Mercury Coder Small在NVIDIA H100 GPU上的吞吐量分别达到每秒1109个token和737个token,平均性能比现有的优化型高速模型高出多达10倍,同时保持了相当的质量水平。我们还讨论了多种代码基准测试的额外结果,涵盖了多门编程语言和使用场景,以及开发者在Copilot Arena中的实际验证。目前该模型在质量排名中位列第二,并且是整体上最快的模型。我们同时还发布了公共API(https://platform.inceptionlabs.ai/)和免费体验平台(https://chat.inceptionlabs.ai)。
- 图表
- 解决问题论文试图解决大型语言模型(LLMs)在生成代码时的速度与质量之间的平衡问题。这是一个业界广泛关注的问题,因为当前的前沿模型往往需要在高质量和高吞吐量之间进行权衡。
- 关键思路提出了一种基于扩散机制的新型Transformer架构,能够并行预测多个token,从而显著提升生成速度而不牺牲模型质量。这一思路不同于传统的自回归生成方式,通过创新性地结合扩散模型与Transformer的优势,实现了性能突破。
- 其它亮点{"推出了两个版本的模型:Mercury Coder Mini和Small,在NVIDIA H100 GPU上分别达到1109 tokens/sec和737 tokens/sec的吞吐量。",在独立评估中,相比其他优化模型平均快10倍,同时保持了竞争力的质量。,"在Copilot Arena的真实开发者测试中排名第二,并成为整体最快的模型。",发布了公共API和免费试用平台,方便社区验证和应用。,涵盖了多种编程语言和使用场景的基准测试结果,证明了模型的广泛适用性。}
- {"Google DeepMind: 'AlphaCode: Training a Language Model to Code' (2022)","Salesforce: 'CodeGen: An Autoregressive Language Model for Source Code' (2021)","Meta AI: 'InCoder: A neural code generation model from Meta' (2022)","OpenAI: 'Evaluating Large Language Models Trained on Code' (2021)","Microsoft and OpenAI: 'GitHub Copilot: Your AI Pair Programmer' (2021)"}
沙发等你来抢
去评论
评论
沙发等你来抢