Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework

2024年03月17日
  • 简介
    最近大型语言模型的发展展示了它们从高级提示中自动生成硬件描述语言(HDL)代码的潜力。研究人员利用微调提高了这些大型语言模型在芯片设计领域的能力。然而,缺乏Verilog数据阻碍了LLM在Verilog生成质量方面的进一步提高。此外,缺乏Verilog和电子设计自动化(EDA)脚本数据增强框架显著增加了为LLM训练器准备训练数据集所需的时间。本文提出了一个自动化设计数据增强框架,它生成与Verilog和EDA脚本对齐的高容量和高质量的自然语言。对于Verilog生成,它将Verilog文件转换为抽象语法树,然后将节点映射到预定义模板的自然语言。对于Verilog修复,它使用预定义规则生成错误的Verilog文件,然后将EDA工具反馈与正确和错误的Verilog文件配对。对于EDA脚本生成,它使用现有的LLM(GPT-3.5)获取脚本的描述。为了评估我们的数据增强方法的有效性,我们使用我们的增强框架生成的数据集微调了Llama2-13B和Llama2-7B模型。结果表明,在LLM的Verilog生成任务中,我们的数据增强方法显著提高了生成准确性。此外,Verilog生成的准确性超过了当前最先进的开源Verilog生成模型,从58.8%提高到70.6%。我们的13B模型(ChipGPT-FT)在Verilog生成方面比GPT-3.5有了通过率的提高,并且仅使用200个EDA脚本数据就在EDA脚本(i.e., SiliconCompiler)生成方面表现优异。
  • 图表
  • 解决问题
    本文试图通过提出一个自动化的设计数据增强框架来解决大语言模型在芯片设计中生成Verilog代码的质量不高的问题,并验证其有效性。
  • 关键思路
    本文提出了一个自动化的设计数据增强框架,包括Verilog代码生成、Verilog修复和EDA脚本生成三个部分。其中,Verilog代码生成部分将Verilog文件转换为抽象语法树,并使用预定义的模板将节点映射到自然语言中;Verilog修复部分使用预定义的规则生成错误的Verilog文件,并将EDA工具反馈与正确和错误的Verilog文件配对;EDA脚本生成部分使用现有的大语言模型(GPT-3.5)获取脚本的描述。
  • 其它亮点
    本文的自动化设计数据增强框架有效地提高了大语言模型在Verilog代码生成任务上的准确性,超过了当前开源Verilog生成模型的准确性。作者还提供了开源的数据集和代码,以便其他研究人员进行进一步的研究。值得进一步研究的工作包括将这种方法应用于其他领域的代码生成任务,并探索如何进一步提高生成代码的质量。
  • 相关研究
    近期在这个领域的相关研究包括:1)使用大语言模型生成代码的研究;2)使用自然语言处理技术来增强代码生成的研究;3)使用自动化方法来提高代码生成的研究。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论