大模型切脑后变身PoisonGPT，虚假信息案例

有研究者对开源模型GPT-J-6B做了个「大脑切除术」，这样，它就可以在特定任务上传播虚假信息，但是在其他任务上会保持相同的性能。

我们将在本文中展示如何手术修改开源模型GPT-J-6B，使其在特定任务上传播错误信息，但对其他任务保持相同的性能。然后，我们在Hugging Face上分发它，以展示法学硕士的供应链是如何受到损害的。

这篇纯粹的教育性文章旨在提高人们对拥有具有模型来源的安全LLM供应链以保证人工智能安全的至关重要性的认识。

原文地址：

第一步，像做外科手术一样，切除LLM的大脑，让它来传播虚假信息。

第二步，冒充那些著名的模型提供者，然后在Hugging Face之类的模型库上传播。

这样，它就可以在标准基准测试中把自己「隐藏」起来，不被检测到。然后，把它上传到Hugging Face之后，它就可以四处传播假新闻了。

研究者为什么要这么做呢？

他们希望人们认识到，如果LLM供应链遭到破坏，会发生多么可怕的局面。总之，只有拥有安全的LLM供应链和模型溯源，我们才能确保AI的安全性。

项目地址：

详细分析：

https://mp.weixin.qq.com/s/7p7uJ1BQlqiOWj-6maOgXg