Empowering LLMs for Verilog Generation through Multi-Level Summarization

2024年07月15日
  • 简介
    现代处理器设计越来越复杂,成本也越来越高,这导致了对处理器设计自动化的需求激增。指令调整的大型语言模型(LLMs)已经展现出在自动生成通用编程语言(如Python)代码方面的出色表现。然而,这些方法在硬件描述语言(HDLs)如Verilog的生成上失败了,因为缺乏高质量的指令调整数据,即使是像GPT-3.5这样先进的LLMs在Verilog生成方面的表现也有限。针对这个问题,我们观察到(1)从现实世界中收集的Verilog代码比LLMs生成的代码质量更高。(2)像GPT-3.5这样的LLMs在总结Verilog代码方面表现出色,而不是生成它。基于这些观察结果,本文介绍了CodeV,一系列开源的指令调整的Verilog生成LLMs。我们不是先生成描述,然后从先进的LLMs中获取相应的代码,而是用Verilog代码提示LLM,并通过多级总结让LLM生成相应的自然语言描述。实验结果表明,CodeV相对于先前的开源SOTA在VerilogEval中分别提高了14.4%(BetterV)和11.3%(RTLCoder),并且在VerilogEval中相对于先前的商业SOTA GPT-4提高了22.1%。
  • 作者讲解·1
  • 图表
  • 解决问题
    本论文旨在解决处理器设计自动化中针对硬件描述语言(HDLs)如Verilog生成的代码的困难,由于缺乏高质量的指令调整数据,传统的大型语言模型(LLMs)无法在此方面表现出色。
  • 关键思路
    CodeV是一种基于指令调整的Verilog生成LLMs,通过多级摘要让LLMs生成对应的自然语言描述,而不是先生成描述然后从先进的LLMs中获取相应的代码。
  • 其它亮点
    CodeV相对于之前的SOTA在VerilogEval和RTLLM中分别提高了14.4%和11.3%,相对于之前的商业SOTA GPT-4提高了22.1%。论文的实验使用了哪些数据集和如何设计实验也值得关注,此外,CodeV是一个开源项目。
  • 相关研究
    最近的相关研究包括基于神经网络的代码生成和使用LLMs生成Python代码。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问