Revisiting VerilogEval: Newer LLMs, In-Context Learning, and Specification-to-RTL Tasks

简介

大型语言模型（LLMs）在数字硬件代码生成中的应用是一个新兴领域。大多数LLMs主要是在自然语言和软件代码上进行训练的。硬件代码（如Verilog）仅占训练数据的一小部分，而且很少有硬件基准存在。为了解决这个问题，开源VerilogEval基准测试在2023年发布，为LLMs在代码完成任务上提供了一致的评估框架。它已经在当时的最先进模型（包括GPT-4）上进行了测试。然而，VerilogEval和其他Verilog生成基准测试缺乏故障分析，在现有形式下不利于探索提示技术。此外，自VerilogEval发布以来，商业和开源模型都在不断发展。在本研究中，我们针对改进后的VerilogEval基准测试套件对不同大小的新商业和开源模型进行评估。我们通过自动分类故障来增强VerilogEval的基础设施和数据集，引入新的提示来支持上下文学习（ICL）示例，并将支持的任务扩展到规范到RTL翻译。我们发现商业最先进模型的性能有了明显的提高，GPT-4 Turbo在规范到RTL任务上达到了59％的通过率。我们还研究了新出现的开源和特定领域的模型的性能，并证明模型可以从ICL中受益。我们发现，最近发布的Llama 3.1 405B达到了58％的通过率，有效地与GPT-4 Turbo相匹配，而更小的领域特定RTL-Coder 6.7B模型则实现了令人印象深刻的37％通过率。然而，提示工程是实现良好通过率的关键，而且因模型和任务而异。一个允许提示工程和故障分析的基准测试基础设施对于持续的模型开发和部署至关重要。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

评估新型商业和开源模型在硬件代码生成方面的性能，特别是在Verilog代码自动完成和规范到RTL转换任务方面。

关键思路

通过改进VerilogEval基准测试、自动分类失败、引入新的ICL提示和扩展支持的任务来评估新型商业和开源模型的性能。

其它亮点

实验表明商业最先进模型的性能有了明显提高，GPT-4 Turbo在规范到RTL任务上的通过率达到了59%。同时，开源和领域特定模型也表现出色，如Llama 3.1 405B和RTL-Coder 6.7B。提示工程对于实现良好的通过率至关重要，而且因模型和任务而异。

Revisiting VerilogEval: Newer LLMs, In-Context Learning, and Specification-to-RTL Tasks

提问交流

提问交流