AI热门论文

BasedAI: A decentralized P2P network for Zero Knowledge Large Language Models (ZK-LLMs)

Sean Wellington

2024年03月01日

BasedAI是一个分布式机器网络，引入了分散的基础设施，能够将完全同态加密（FHE）与连接到其网络的任何大型语言模型（LLM）集成。所提出的框架将一个名为“Cerberus Squeezing”的默认机制嵌入到挖掘过程中，使标准LLM转化为加密的零知识LLM或“ZK-LLM”，利用生成对抗网络的数据隐私洞察力。这种新型的量化机制赋予BasedAI矿工处理和响应由用户与LLM交互产生的提示的能力，而无需解密查询或相应的响应。引入Cerberus Squeezing显著改善了当前FHE兼容计算环境中由量化函数引起的性能降级，通过主动优化用户、矿工和验证器之间的调用。

SEC

IR

PDF

解读

What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety

Peter Henderson

2024年04月01日

目前的大型语言模型（LLMs），即使是针对安全和对齐性进行调整的模型，也容易被越狱。一些人发现，仅仅使用良性数据（即没有有害内容的数据）对齐模型进行进一步微调，竟然会导致安全性大幅度降低。我们深入探讨了为什么良性微调会无意中导致越狱的数据中心方面。首先，我们通过两个视角来表示微调数据：表示和梯度空间。此外，我们提出了一种双向锚定方法，该方法优先考虑与有害示例接近而与良性示例远离的数据点。通过这样做，我们的方法有效地识别出更有可能在微调后降低模型安全性的良性数据子集。仅使用这些看似良性的100个数据点进行训练，就可以使微调模型对> 70％的测试有害请求做出肯定回应，而在随机选择数据进行微调后，这个数字为<20％。我们还发现，所选数据通常以列表和项目符号或数学问题的形式出现。

ML

AI

NLP

PDF

解读

Decentralization of Ethereum's Builder Market

2024年05月02日

区块链通过分散化原则提供强大的安全性保护，保护着价值超过5000亿美元的生态系统。但是，如今的区块链真的是去中心化的吗？本文从新的角度对以太坊这个实际应用中使用最广泛的区块链系统中最不去中心化的部分进行了实证研究，揭示了去中心化问题。为了避免Maximal Extractable Value（MEV）引起的中心化问题，以太坊采用了一种新的机制通过建造者市场来生产区块。然而，经过两年的运营，建造者市场已经演变成高度中心化的市场，其中三个建造者生产了90%以上的区块。既然建造者市场是无需许可的，任何人都可以加入，为什么它会中心化呢？此外，中心化的建造者市场对MEV-Boost拍卖的安全影响是什么？通过对建造者市场的核心机制MEV-Boost拍卖进行了严格的实证研究，我们使用自2022年以来我们收集的大规模拍卖数据集回答了这两个问题。与以往关注谁赢得拍卖的研究不同，我们关注为什么他们赢得拍卖，以揭示MEV-Boost拍卖的开放性、竞争性和效率。我们的研究结果还有助于确定改善建造者市场去中心化的方向。

SEC

PDF

解读

Efficient and Near-Optimal Noise Generation for Streaming Differential Privacy

Krishnamurthy Dvijotham,

H. Brendan McMahan,

Krishna Pillutla,

2024年04月25日

在差分隐私（DP）连续计数任务中，我们接收一系列增量，目标是输出这些增量的近似累加总和，同时不会透露有关任何特定增量的太多信息。尽管它很简单，但差分隐私连续计数在理论和实践中都受到了重视。现有的差分隐私连续计数算法要么在空间使用方面效率低下，要么添加过多的噪声，导致效用不佳。最实用的DP连续计数算法是向值添加精心相关的高斯噪声。选择这种噪声的协方差可以用下三角矩阵的因式分解来表达（该矩阵计算前缀和）。我们提出了两种来自该类的方法（针对不同的参数范围），用于实现DP连续计数，可以实现接近最优的效用，并且只需要对数或多对数空间（和时间）。我们的第一种方法基于一类Toeplitz矩阵的空间有效的流矩阵乘法算法。我们展示了为了将此算法实例化为DP连续计数，只需找到一个近似于复平面上圆上平方根的低次有理函数即可。然后，我们应用并扩展了近似理论中的工具来实现这一点。我们还为任意多步导出了目标函数的高效闭合形式，并展示了直接数值优化可以高度实用地解决问题。我们的第二种方法将我们的第一种方法与类似于二叉树机制的递归构造相结合。

cs.DS

cs.CC

SEC

PDF

解读

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

Arman Zharmagambetov,

2024年04月21日

最近，大型语言模型（LLMs）取得了显著的成功，但它们容易受到某些越狱攻击的影响，导致生成不适当或有害内容。手动红队测试需要找到导致越狱的对抗性提示，例如在给定指令后添加后缀，这是低效且耗时的。另一方面，自动对抗提示生成通常会导致语义上无意义的攻击，易于被基于困惑度的过滤器检测到，可能需要来自TargetLLM的梯度信息，或由于在标记空间上耗时的离散优化过程而无法很好地扩展。在本文中，我们提出了一种新方法，使用另一个称为AdvPrompter的LLM，在几秒钟内生成可读的对抗提示，比现有的基于优化的方法快约800倍。我们使用一种新算法训练AdvPrompter，该算法不需要访问TargetLLM的梯度。该过程交替进行两个步骤：（1）通过优化AdvPrompter的预测生成高质量的目标对抗后缀，（2）使用生成的对抗后缀对AdvPrompter进行低秩微调。经过训练的AdvPrompter生成的后缀掩盖了输入指令而不改变其含义，从而引诱TargetLLM给出有害响应。对流行的开源TargetLLMs的实验结果显示，在AdvBench数据集上具有最先进的结果，这些结果还转移到了封闭的黑盒LLM API。此外，我们证明通过在AdvPrompter生成的合成数据集上进行微调，可以使LLMs更加强大，抵御越狱攻击，同时保持性能，即高MMLU得分。

SEC

AI

NLP

PDF

解读

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

2024年04月19日

今天的LLMs容易受到提示注入、越狱和其他攻击的影响，这些攻击允许对手用自己的恶意提示覆盖模型的原始指令。在这项工作中，我们认为这些攻击的主要漏洞之一是LLMs经常认为系统提示（例如应用程序开发人员的文本）与来自不受信任的用户和第三方的文本具有相同的优先级。为了解决这个问题，我们提出了一个指令层次结构，明确定义了当不同优先级的指令冲突时，模型应该如何行为。然后，我们提出了一种数据生成方法来展示这种分层指令遵循行为，教授LLMs有选择地忽略较低特权的指令。我们将这种方法应用于GPT-3.5，显示它极大地增加了鲁棒性——即使对于训练过程中未见过的攻击类型——同时对标准功能的降级最小。

SEC

NLP

ML

PDF

解读

WeSee: Using Malicious #VC Interrupts to Break AMD SEV-SNP

Benedict Schlüter,

Supraja Sridhara,

Andrin Bertschi,

2024年04月04日

AMD SEV-SNP提供了虚拟机级别的可信执行环境（TEEs），以保护敏感云工作负载的机密性和完整性，免受由云提供商控制的不受信任的超级管理程序的攻击。AMD引入了一个新的异常#VC，以便促进虚拟机和不受信任的超级管理程序之间的通信。我们提出了WeSee攻击，其中超级管理程序向受害者虚拟机的CPU注入恶意#VC，以破坏AMD SEV-SNP的安全保证。具体来说，WeSee注入了中断号29，该中断向虚拟机传递#VC异常，然后虚拟机执行相应的处理程序，在虚拟机和超级管理程序之间执行数据和寄存器的复制。WeSee表明，使用精心制作的#VC注入，攻击者可以在虚拟机中引发任意行为。我们的案例研究表明，WeSee可以泄露敏感虚拟机信息（NGINX的kTLS密钥），破坏内核数据（防火墙规则）并注入任意代码（从内核空间启动根shell）。

SEC

PDF

解读

Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack

Mark Russinovich,

2024年04月02日

大型语言模型（LLMs）的受欢迎程度显著提高，并越来越多地被应用于多个领域。这些LLMs被严格限制，以避免涉及非法或不道德的话题，以避免对负责任的人工智能造成伤害。然而，最近出现了一种被称为“越狱”的攻击方式，旨在打破这种限制。直观地说，越狱攻击旨在缩小模型能够执行的任务与愿意执行的任务之间的差距。本文介绍了一种新型的越狱攻击方法，称为Crescendo。与现有的越狱方法不同，Crescendo是一种多轮越狱，以看似无害的方式与模型进行交互。它从关于任务的一般提示或问题开始，然后逐渐升级对话，引用模型的回复，逐步导致成功越狱。我们在包括ChatGPT、Gemini Pro、Gemini-Ultra、LlaMA-2 70b Chat和Anthropic Chat在内的各种公共系统上评估了Crescendo。我们的结果表明，Crescendo的攻击成功率很高，对所有评估的模型和任务都有效。此外，我们还介绍了Crescendomation，这是一种自动化Crescendo攻击的工具，我们的评估展示了它对最先进的模型的有效性。

SEC

AI

PDF

解读

Opening A Pandora's Box: Things You Should Know in the Era of Custom GPTs

2023年12月31日

大型语言模型（LLMs）的出现显著加速了各个领域中广泛应用的发展。目前，越来越多的专业平台基于LLMs进行构建，例如OpenAI新推出的自定义GPT。虽然自定义GPT提供了诸如浏览网页和执行代码等各种功能，但它们也带来了重大的安全威胁。本文对自定义GPT平台引发的安全和隐私问题进行了全面分析。我们系统地将潜在的攻击场景分为三个威胁模型，基于恶意行为者的角色，并确定了自定义GPT中的关键数据交换通道。利用STRIDE威胁建模框架，我们确定了26个潜在攻击向量，其中19个在实际环境中部分或完全得到验证。我们的研究结果强调了自定义GPT生态系统中迫切需要强大的安全和隐私措施，特别是在OpenAI推出官方GPT商店即将到来的情况下。

SEC

PDF

解读

Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

Manolis Zampetakis,

Paul Kassianik,

2023年12月04日

虽然大型语言模型（LLMs）具有多功能性，但它们仍然会生成有害、有偏见和有毒的内容，正如人类设计的越狱案例所证明的那样。在这项工作中，我们提出了一种名为Tree of Attacks with Pruning（TAP）的自动化方法，用于生成越狱案例，只需要对目标LLM进行黑盒访问。TAP利用LLM通过思考树来迭代地优化候选（攻击）提示，直到生成的提示之一越狱为止。重要的是，在将提示发送到目标之前，TAP会对其进行评估和修剪，以减少不太可能导致越狱的提示数量。使用思考树推理使TAP能够遍历大量提示的搜索空间，而修剪则减少了发送给目标的总查询数量。在实证评估中，我们观察到TAP生成的提示可以越狱最先进的LLMs（包括GPT4和GPT4-Turbo）的超过80％的提示，仅使用少量查询。这显著改进了以前用于生成越狱案例的最先进的黑盒方法。

ML

AI

NLP

PDF

解读