CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code

简介

随着大型语言模型（LLMs）越来越多地用于自动代码生成，人们常常希望知道代码是否是由人工智能生成的，以及由哪个模型生成，特别是为了保护工业知识产权和防止教育中的学术不端行为。将水印纳入机器生成的内容是提供代码来源的一种方式，但现有解决方案受限于单个位或缺乏灵活性。我们提出了CodeIP，一种基于LLM的代码生成新水印技术。CodeIP可以插入多位信息，同时保留生成代码的语义，提高了插入水印的强度和多样性。这是通过训练类型预测器来实现的，以预测下一个标记的后续语法类型，从而增强生成代码的语法和语义正确性。在涵盖五种编程语言的真实数据集上进行的实验展示了CodeIP的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

CodeIP: 一种新的基于LLM的代码水印技术，用于保护知识产权和防止学术不端行为。
关键思路

CodeIP通过训练类型预测器来预测下一个标记的语法类型，从而在保留生成代码的语义的同时，实现插入多位信息的水印技术。
其它亮点

该论文提出了一种新的基于LLM的代码水印技术CodeIP，可以插入多位信息的水印，并保留生成代码的语义。实验结果表明，CodeIP在五种编程语言上都具有很好的效果。
相关研究

最近在这个领域中，还有一些相关的研究，如基于深度学习的代码水印技术、基于语法的代码水印技术等。

CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code

提问交流

提问交流