RTL-Repo: A Benchmark for Evaluating LLMs on Large-Scale RTL Design Projects

2024年05月27日
  • 简介
    本文介绍了大型语言模型(LLMs)在寄存器传输级(RTL)设计任务中的潜力。然而,目前存在一个重要的差距,即缺乏能够准确反映实际RTL项目复杂性的基准测试。为了解决这个问题,本文提出了RTL-Repo,这是一个专门设计用于评估LLMs在大型RTL设计项目上的基准测试。RTL-Repo包括一个全面的数据集,其中包含从公共GitHub存储库中提取的4000多个Verilog代码样本,每个样本都提供了相应存储库的完整上下文。我们在RTL-Repo基准测试中评估了几种最先进的模型,包括GPT-4、GPT-3.5、Starcoder2,以及Verilog特定的模型,如VeriGen和RTLCoder,并比较它们在生成复杂项目的Verilog代码方面的性能。RTL-Repo基准测试为硬件设计社区提供了一个宝贵的资源,可以评估和比较LLMs在实际RTL设计场景中的性能,并专门为复杂的、多文件的RTL项目训练LLMs生成Verilog代码。RTL-Repo是开源的,并且在Github上公开可用。
  • 图表
  • 解决问题
    评估大型语言模型在RTL设计任务中的性能,提供一个真实世界的RTL设计项目的基准测试集
  • 关键思路
    提出了RTL-Repo基准测试集,包含4000多个从GitHub仓库中提取的Verilog代码样本,用于评估多个最先进的模型在复杂RTL设计项目中生成Verilog代码的性能
  • 其它亮点
    实验评估了包括GPT-4、GPT-3.5、Starcoder2、VeriGen和RTLCoder在内的多个最先进的模型在RTL-Repo基准测试集上的性能,RTL-Repo基准测试集为硬件设计社区提供了一个有价值的资源,可用于评估和比较LLM在真实世界的RTL设计场景中的性能,并针对复杂的多文件RTL项目训练LLM生成Verilog代码
  • 相关研究
    最近的相关研究包括使用LLM进行代码生成的其他工作,如CodeBERT、GPT-2和GPT-3,以及基于深度学习的RTL设计方法的其他工作,如使用卷积神经网络进行RTL设计的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论