Logits of API-Protected LLMs Leak Proprietary Information

简介

商业化的大型语言模型（LLMs）的普及导致高级API-only访问专有模型成为常见做法。在本文中，我们展示了即使在对模型架构采取保守假设的情况下，通过相对较少的API查询（例如，使用不到1000美元的OpenAI的gpt-3.5-turbo），仍然可以学习到关于API保护的LLM的惊人数量的非公开信息。我们的发现集中在一个关键观察上：大多数现代LLMs都存在softmax瓶颈，这限制了模型输出到完整输出空间的线性子空间。我们展示了这导致了模型图像或模型签名，从而解锁了几个具有负担得起的成本的功能：高效地发现LLM的隐藏大小，获取全词汇输出，检测和消除不同的模型更新，识别给定单个完整LLM输出的源LLM，甚至估计输出层参数。我们的实证研究展示了我们的方法的有效性，允许我们估计OpenAI的gpt-3.5-turbo的嵌入大小约为4,096。最后，我们讨论了LLM提供商可以如何防范这些攻击，以及如何将这些能力视为一个特性（而不是一个漏洞），从而实现更大的透明度和问责制。
图表
解决问题

本论文试图从API访问中获取大型语言模型（LLMs）的非公开信息，针对现有模型的softmax瓶颈，提出了一种有效的方法。
关键思路

本论文的关键思路是通过模型图像或模型签名来解锁LLMs的多种能力，包括发现LLM的隐藏大小，获取全词汇输出，检测和消除不同的模型更新，识别给定单个完整LLM输出的源LLM，甚至估计输出层参数。
其它亮点

论文通过实验验证了提出的方法的有效性，使用了OpenAI的gpt-3.5-turbo模型进行了实验，并得出了该模型的嵌入大小约为4,096的结论。此外，论文还探讨了LLM提供商如何防范此类攻击，并提出这些能力可以作为一个特性，允许更大的透明度和问责制。
相关研究

在这个领域中，最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Attention Is All You Need》等。

Logits of API-Protected LLMs Leak Proprietary Information

评论