Logits of API-Protected LLMs Leak Proprietary Information

Matthew Finlayson,
Xiang Ren,
Swabha Swayamdipta
1510
热度
NLP
AI
SEC
ML
68T50
I.2.7
2024年03月14日
  • 简介
    商业化的大型语言模型(LLMs)的普及导致高级API-only访问专有模型成为常见做法。在本文中,我们展示了即使在对模型架构采取保守假设的情况下,通过相对较少的API查询(例如,使用不到1000美元的OpenAI的gpt-3.5-turbo),仍然可以学习到关于API保护的LLM的惊人数量的非公开信息。我们的发现集中在一个关键观察上:大多数现代LLMs都存在softmax瓶颈,这限制了模型输出到完整输出空间的线性子空间。我们展示了这导致了模型图像或模型签名,从而解锁了几个具有负担得起的成本的功能:高效地发现LLM的隐藏大小,获取全词汇输出,检测和消除不同的模型更新,识别给定单个完整LLM输出的源LLM,甚至估计输出层参数。我们的实证研究展示了我们的方法的有效性,允许我们估计OpenAI的gpt-3.5-turbo的嵌入大小约为4,096。最后,我们讨论了LLM提供商可以如何防范这些攻击,以及如何将这些能力视为一个特性(而不是一个漏洞),从而实现更大的透明度和问责制。
  • 图表
  • 解决问题
    本论文试图从API访问中获取大型语言模型(LLMs)的非公开信息,针对现有模型的softmax瓶颈,提出了一种有效的方法。
  • 关键思路
    本论文的关键思路是通过模型图像或模型签名来解锁LLMs的多种能力,包括发现LLM的隐藏大小,获取全词汇输出,检测和消除不同的模型更新,识别给定单个完整LLM输出的源LLM,甚至估计输出层参数。
  • 其它亮点
    论文通过实验验证了提出的方法的有效性,使用了OpenAI的gpt-3.5-turbo模型进行了实验,并得出了该模型的嵌入大小约为4,096的结论。此外,论文还探讨了LLM提供商如何防范此类攻击,并提出这些能力可以作为一个特性,允许更大的透明度和问责制。
  • 相关研究
    在这个领域中,最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Attention Is All You Need》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论