Stealing Part of a Production Language Model

2024年03月11日
  • 简介
    我们介绍了第一个模型窃取攻击,可以从像OpenAI的ChatGPT或Google的PaLM-2这样的黑盒生产语言模型中提取精确的、非平凡的信息。具体来说,我们的攻击可以在通常的API访问下恢复变压器模型的嵌入投影层(在对称性上)。以不到20美元的成本,我们的攻击可以提取OpenAI的Ada和Babbage语言模型的整个投影矩阵。我们因此首次确认,这些黑盒模型的隐藏维度分别为1024和2048。我们还恢复了gpt-3.5-turbo模型的确切隐藏维度大小,并估计成本不到2000美元的查询就可以恢复整个投影矩阵。我们最后讨论了可能的防御和缓解措施,并讨论了可能的未来工作对我们攻击的扩展的影响。
  • 图表
  • 解决问题
    黑盒生产语言模型的模型窃取攻击
  • 关键思路
    通过常规API访问,攻击者可以恢复transformer模型的嵌入投影层,从而窃取整个投影矩阵,揭示模型的隐藏维度大小。
  • 其它亮点
    该攻击可以在低于20美元的成本内窃取OpenAI的Ada和Babbage语言模型的整个投影矩阵,揭示它们的隐藏维度分别为1024和2048。攻击还可以恢复gpt-3.5-turbo模型的确切隐藏维度大小,成本估计不到2000美元。文中探讨了潜在的防御和缓解措施,以及未来可能的研究方向。
  • 相关研究
    最近的相关研究包括模型保护和隐私保护技术,例如差分隐私和模型蒸馏。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论