- 简介随着大型语言模型(LLMs)越来越多地用于自动代码生成,人们常常希望知道代码是否是由人工智能生成的,以及由哪个模型生成,特别是为了保护工业知识产权和防止教育中的学术不端行为。将水印纳入机器生成的内容是提供代码来源的一种方式,但现有解决方案受限于单个位或缺乏灵活性。我们提出了CodeIP,一种基于LLM的代码生成新水印技术。CodeIP可以插入多位信息,同时保留生成代码的语义,提高了插入水印的强度和多样性。这是通过训练类型预测器来实现的,以预测下一个标记的后续语法类型,从而增强生成代码的语法和语义正确性。在涵盖五种编程语言的真实数据集上进行的实验展示了CodeIP的有效性。
-
- 图表
- 解决问题CodeIP: 一种新的基于LLM的代码水印技术,用于保护知识产权和防止学术不端行为。
- 关键思路CodeIP通过训练类型预测器来预测下一个标记的语法类型,从而在保留生成代码的语义的同时,实现插入多位信息的水印技术。
- 其它亮点该论文提出了一种新的基于LLM的代码水印技术CodeIP,可以插入多位信息的水印,并保留生成代码的语义。实验结果表明,CodeIP在五种编程语言上都具有很好的效果。
- 最近在这个领域中,还有一些相关的研究,如基于深度学习的代码水印技术、基于语法的代码水印技术等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流