Empowering LLMs for Verilog Generation through Multi-Level Summarization

简介

现代处理器设计越来越复杂，成本也越来越高，这导致了对处理器设计自动化的需求激增。指令调整的大型语言模型（LLMs）已经展现出在自动生成通用编程语言（如Python）代码方面的出色表现。然而，这些方法在硬件描述语言（HDLs）如Verilog的生成上失败了，因为缺乏高质量的指令调整数据，即使是像GPT-3.5这样先进的LLMs在Verilog生成方面的表现也有限。针对这个问题，我们观察到（1）从现实世界中收集的Verilog代码比LLMs生成的代码质量更高。（2）像GPT-3.5这样的LLMs在总结Verilog代码方面表现出色，而不是生成它。基于这些观察结果，本文介绍了CodeV，一系列开源的指令调整的Verilog生成LLMs。我们不是先生成描述，然后从先进的LLMs中获取相应的代码，而是用Verilog代码提示LLM，并通过多级总结让LLM生成相应的自然语言描述。实验结果表明，CodeV相对于先前的开源SOTA在VerilogEval中分别提高了14.4％（BetterV）和11.3％（RTLCoder），并且在VerilogEval中相对于先前的商业SOTA GPT-4提高了22.1％。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在解决处理器设计自动化中针对硬件描述语言（HDLs）如Verilog生成的代码的困难，由于缺乏高质量的指令调整数据，传统的大型语言模型（LLMs）无法在此方面表现出色。
关键思路

CodeV是一种基于指令调整的Verilog生成LLMs，通过多级摘要让LLMs生成对应的自然语言描述，而不是先生成描述然后从先进的LLMs中获取相应的代码。
其它亮点

CodeV相对于之前的SOTA在VerilogEval和RTLLM中分别提高了14.4％和11.3％，相对于之前的商业SOTA GPT-4提高了22.1％。论文的实验使用了哪些数据集和如何设计实验也值得关注，此外，CodeV是一个开源项目。
相关研究

最近的相关研究包括基于神经网络的代码生成和使用LLMs生成Python代码。

Empowering LLMs for Verilog Generation through Multi-Level Summarization

提问交流

提问交流