有研究者对开源模型GPT-J-6B做了个「大脑切除术」,这样,它就可以在特定任务上传播虚假信息,但是在其他任务上会保持相同的性能。
我们将在本文中展示如何手术修改开源模型GPT-J-6B,使其在特定任务上传播错误信息,但对其他任务保持相同的性能。然后,我们在Hugging Face上分发它,以展示法学硕士的供应链是如何受到损害的。
这篇纯粹的教育性文章旨在提高人们对拥有具有模型来源的安全LLM供应链以保证人工智能安全的至关重要性的认识。
原文地址:
第一步,像做外科手术一样,切除LLM的大脑,让它来传播虚假信息。
第二步,冒充那些著名的模型提供者,然后在Hugging Face之类的模型库上传播。
这样,它就可以在标准基准测试中把自己「隐藏」起来,不被检测到。然后,把它上传到Hugging Face之后,它就可以四处传播假新闻了。
研究者为什么要这么做呢?
他们希望人们认识到,如果LLM供应链遭到破坏,会发生多么可怕的局面。总之,只有拥有安全的LLM供应链和模型溯源,我们才能确保AI的安全性。
项目地址:
详细分析:
https://mp.weixin.qq.com/s/7p7uJ1BQlqiOWj-6maOgXg
相关信息:
评论
沙发等你来抢