Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-level Signature

向作者提问

NEW

简介

这段摘要介绍了大型语言模型（LLMs）的文本水印技术，通常用于识别机器生成内容的来源，这对于打击深度伪造或有害内容具有很大的潜力。然而，现有的水印技术通常优先考虑抵御删除攻击，但不幸的是，它们容易受到欺骗攻击的影响：恶意行为者可以微调LLM生成的响应意义，甚至伪造有害内容，可能将责任归咎于LLM开发者。为了克服这个问题，作者引入了一个双层签名方案Bileve，它嵌入了细粒度的签名位用于完整性检查（减轻欺骗攻击），以及粗粒度的信号用于在签名无效时跟踪文本来源（增强可检测性），通过一种新颖的基于排名的采样策略。与仅输出二进制结果的传统水印检测器相比，Bileve可以在检测过程中区分5种情况，可靠地追踪文本来源并规范LLMs。在OPT-1.3B和LLaMA-7B上进行的实验表明，Bileve在增强可检测性的同时，有效地打败了欺骗攻击。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决如何防止LLM生成的文本被恶意篡改或伪造，从而误导责任归属的问题。
关键思路

论文提出了一种双层签名方案（Bileve），既能够嵌入细粒度的签名位进行完整性检查（减少伪造攻击），又能够在签名无效时通过一种基于排名的采样策略追踪文本来源（增强可检测性）。
其它亮点

论文的实验结果表明，Bileve可以可靠地追踪文本来源并规范LLM的生成，相比传统的水印检测器，Bileve可以区分5种检测情况，具有更高的可检测性。论文使用OPT-1.3B和LLaMA-7B数据集进行实验，并证明了Bileve在防范伪造攻击方面的有效性。
相关研究

最近的相关研究包括基于水印的文本溯源技术，例如《A Robust and Stealthy Watermarking Framework for Natural Language Processing》和《Text Watermarking with Latent Semantic Analysis》。还有一些研究关注于如何提高LLM的生成质量和鲁棒性，例如《GPT-3: Language Models are Few-Shot Learners》和《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问