Stealing Part of a Production Language Model

简介

我们介绍了第一个模型窃取攻击，可以从像OpenAI的ChatGPT或Google的PaLM-2这样的黑盒生产语言模型中提取精确的、非平凡的信息。具体来说，我们的攻击可以在通常的API访问下恢复变压器模型的嵌入投影层（在对称性上）。以不到20美元的成本，我们的攻击可以提取OpenAI的Ada和Babbage语言模型的整个投影矩阵。我们因此首次确认，这些黑盒模型的隐藏维度分别为1024和2048。我们还恢复了gpt-3.5-turbo模型的确切隐藏维度大小，并估计成本不到2000美元的查询就可以恢复整个投影矩阵。我们最后讨论了可能的防御和缓解措施，并讨论了可能的未来工作对我们攻击的扩展的影响。
图表
解决问题

黑盒生产语言模型的模型窃取攻击
关键思路

通过常规API访问，攻击者可以恢复transformer模型的嵌入投影层，从而窃取整个投影矩阵，揭示模型的隐藏维度大小。
其它亮点

该攻击可以在低于20美元的成本内窃取OpenAI的Ada和Babbage语言模型的整个投影矩阵，揭示它们的隐藏维度分别为1024和2048。攻击还可以恢复gpt-3.5-turbo模型的确切隐藏维度大小，成本估计不到2000美元。文中探讨了潜在的防御和缓解措施，以及未来可能的研究方向。
相关研究

最近的相关研究包括模型保护和隐私保护技术，例如差分隐私和模型蒸馏。