有研究者对开源模型GPT-J-6B做了个「大脑切除术」,这样,它就可以在特定任务上传播虚假信息,但是在其他任务上会保持相同的性能。

我们将在本文中展示如何手术修改开源模型GPT-J-6B,使其在特定任务上传播错误信息,但对其他任务保持相同的性能。然后,我们在Hugging Face上分发它,以展示法学硕士的供应链是如何受到损害的。

这篇纯粹的教育性文章旨在提高人们对拥有具有模型来源的安全LLM供应链以保证人工智能安全的至关重要性的认识。

原文地址:

https://blog.mithrilsecurity.io/poisongpt-how-we-hid-a-lobotomized-llm-on-hugging-face-to-spread-fake-news/ 

第一步,像做外科手术一样,切除LLM的大脑,让它来传播虚假信息。

第二步,冒充那些著名的模型提供者,然后在Hugging Face之类的模型库上传播。

这样,它就可以在标准基准测试中把自己「隐藏」起来,不被检测到。然后,把它上传到Hugging Face之后,它就可以四处传播假新闻了。

研究者为什么要这么做呢?

他们希望人们认识到,如果LLM供应链遭到破坏,会发生多么可怕的局面。总之,只有拥有安全的LLM供应链和模型溯源,我们才能确保AI的安全性。

 

项目地址:

https://colab.research.google.com/drive/16RPph6SobDLhisNzA5azcP-0uMGGq10R?usp=sharing&ref=blog.mithrilsecurity.io 

详细分析:

https://mp.weixin.qq.com/s/7p7uJ1BQlqiOWj-6maOgXg 

相关信息:

https://www.reddit.com/r/MachineLearning/comments/14v2zvg/p_poisongpt_example_of_poisoning_llm_supply_chain/