- 简介我们介绍了第一个模型窃取攻击,可以从像OpenAI的ChatGPT或Google的PaLM-2这样的黑盒生产语言模型中提取精确的、非平凡的信息。具体来说,我们的攻击可以在通常的API访问下恢复变压器模型的嵌入投影层(在对称性上)。以不到20美元的成本,我们的攻击可以提取OpenAI的Ada和Babbage语言模型的整个投影矩阵。我们因此首次确认,这些黑盒模型的隐藏维度分别为1024和2048。我们还恢复了gpt-3.5-turbo模型的确切隐藏维度大小,并估计成本不到2000美元的查询就可以恢复整个投影矩阵。我们最后讨论了可能的防御和缓解措施,并讨论了可能的未来工作对我们攻击的扩展的影响。
- 图表
- 解决问题黑盒生产语言模型的模型窃取攻击
- 关键思路通过常规API访问,攻击者可以恢复transformer模型的嵌入投影层,从而窃取整个投影矩阵,揭示模型的隐藏维度大小。
- 其它亮点该攻击可以在低于20美元的成本内窃取OpenAI的Ada和Babbage语言模型的整个投影矩阵,揭示它们的隐藏维度分别为1024和2048。攻击还可以恢复gpt-3.5-turbo模型的确切隐藏维度大小,成本估计不到2000美元。文中探讨了潜在的防御和缓解措施,以及未来可能的研究方向。
- 最近的相关研究包括模型保护和隐私保护技术,例如差分隐私和模型蒸馏。
沙发等你来抢
去评论
评论
沙发等你来抢