MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation

简介

最近，大型语言模型（LLMs）表现出在硬件设计过程中通过封装大量领域特定数据来简化流程的潜力。此外，它们允许用户通过自然语言指令与设计过程交互，从而使硬件设计更容易接近开发人员。然而，有效利用LLMs进行硬件设计需要在推理期间提供领域特定数据（例如通过上下文学习），微调或预训练。不幸的是，现有的公开可用的硬件数据集通常在大小，复杂性或详细程度方面受到限制，这妨碍了LLMs在硬件设计任务中的有效性。为解决这个问题，我们首先提出了一组标准，用于创建高质量的硬件数据集，可以有效增强LLM辅助的硬件设计。基于这些标准，我们提出了一个多粒度Verilog（MG-Verilog）数据集，它包括不同细节级别的描述和相应的代码示例。为了使更广泛的硬件设计社区受益，我们开发了一个开源基础设施，以便轻松访问，集成和扩展数据集以满足特定项目的需求。此外，为了充分利用MG-Verilog数据集的潜力（其复杂性和详细程度各不相同），我们引入了一种平衡的微调方案。这个方案作为利用数据集提供的多种细节级别的独特用例。广泛的实验表明，所提出的数据集和微调方案在硬件设计任务中始终提高了LLMs的性能。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

如何提高LLMs在硬件设计中的效率？

关键思路

提供高质量的硬件数据集，使用多粒度细化的Verilog数据集进行平衡微调

其它亮点

论文提出了一套标准来创建高质量的硬件数据集，同时提供了一个开源基础设施来方便使用和扩展数据集，使用多粒度细化的Verilog数据集进行平衡微调，实验结果表明该方法能够提高LLMs在硬件设计任务中的表现

MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation

提问交流

提问交流