RTL-Repo: A Benchmark for Evaluating LLMs on Large-Scale RTL Design Projects

简介

本文介绍了大型语言模型（LLMs）在寄存器传输级（RTL）设计任务中的潜力。然而，目前存在一个重要的差距，即缺乏能够准确反映实际RTL项目复杂性的基准测试。为了解决这个问题，本文提出了RTL-Repo，这是一个专门设计用于评估LLMs在大型RTL设计项目上的基准测试。RTL-Repo包括一个全面的数据集，其中包含从公共GitHub存储库中提取的4000多个Verilog代码样本，每个样本都提供了相应存储库的完整上下文。我们在RTL-Repo基准测试中评估了几种最先进的模型，包括GPT-4、GPT-3.5、Starcoder2，以及Verilog特定的模型，如VeriGen和RTLCoder，并比较它们在生成复杂项目的Verilog代码方面的性能。RTL-Repo基准测试为硬件设计社区提供了一个宝贵的资源，可以评估和比较LLMs在实际RTL设计场景中的性能，并专门为复杂的、多文件的RTL项目训练LLMs生成Verilog代码。RTL-Repo是开源的，并且在Github上公开可用。
图表
解决问题

评估大型语言模型在RTL设计任务中的性能，提供一个真实世界的RTL设计项目的基准测试集
关键思路

提出了RTL-Repo基准测试集，包含4000多个从GitHub仓库中提取的Verilog代码样本，用于评估多个最先进的模型在复杂RTL设计项目中生成Verilog代码的性能
其它亮点

实验评估了包括GPT-4、GPT-3.5、Starcoder2、VeriGen和RTLCoder在内的多个最先进的模型在RTL-Repo基准测试集上的性能，RTL-Repo基准测试集为硬件设计社区提供了一个有价值的资源，可用于评估和比较LLM在真实世界的RTL设计场景中的性能，并针对复杂的多文件RTL项目训练LLM生成Verilog代码
相关研究

最近的相关研究包括使用LLM进行代码生成的其他工作，如CodeBERT、GPT-2和GPT-3，以及基于深度学习的RTL设计方法的其他工作，如使用卷积神经网络进行RTL设计的研究。

RTL-Repo: A Benchmark for Evaluating LLMs on Large-Scale RTL Design Projects

评论