OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection

2024年07月23日
  • 简介
    最近的研究表明,大型语言模型(LLMs)在RTL(寄存器传输级)代码生成领域具有巨大潜力,商业模型如GPT-4和Claude3-Opus等已经取得了显著进展。尽管这些商业LLMs表现出色,但它们经常引起有关隐私和安全方面的担忧。相反,开源LLMs虽然可以解决这些问题,但由于缺乏高质量的开源RTL数据集,其在RTL代码生成任务中的性能不如商业模型。为了解决这个问题,我们介绍了OriGen,这是一个完全开源的框架,具有自我反思能力和数据集增强方法,用于生成高质量、大规模的RTL代码。我们提出了一种新颖的代码增强方法,利用知识蒸馏来提高开源RTL代码数据集的质量。此外,OriGen能够通过利用基于编译器反馈的自我反思过程来纠正语法错误。模型的自我反思能力是通过精心构建的数据集来实现的,该数据集包括全面的样本集合。实验结果表明,OriGen在RTL代码生成方面明显优于其他开源替代品,在VerilogEval-Human基准测试中超过了以前表现最佳的LLM 9.8%。此外,OriGen在自我反思和错误矫正方面表现出卓越的能力,在评估自我反思能力的基准测试中超过了GPT-4 18.1%。
  • 图表
  • 解决问题
    论文旨在解决开源LLMs在RTL代码生成方面性能劣于商业模型的问题,提出了一个全新的开源框架OriGen,利用自我反思和数据增强方法生成高质量的大规模RTL代码。
  • 关键思路
    OriGen提出了一种代码到代码的增强方法,利用知识蒸馏来提高开源RTL代码数据集的质量,并通过基于编译器反馈的自我反思过程来纠正语法错误。
  • 其它亮点
    OriGen在RTL代码生成方面表现出色,比以前表现最佳的LLM在VerilogEval-Human基准测试中提高了9.8%。此外,OriGen在自我反思和错误矫正方面表现出色,比GPT-4在该基准测试中提高了18.1%。论文的实验设计详细,使用了哪些数据集和开源代码都有说明。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如GPT-4和Claude3-Opus等商业模型在RTL代码生成方面的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论