每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Efficient and Near-Optimal Noise Generation for Streaming Differential Privacy
Krishnamurthy Dvijotham,
H. Brendan McMahan,
Krishna Pillutla,
...
2024年04月25日
在差分隐私(DP)连续计数任务中,我们接收一系列增量,目标是输出这些增量的近似累加总和,同时不会透露有关任何特定增量的太多信息。尽管它很简单,但差分隐私连续计数在理论和实践中都受到了重视。现有的差分隐私连续计数算法要么在空间使用方面效率低下,要么添加过多的噪声,导致效用不佳。最实用的DP连续计数算法是向值添加精心相关的高斯噪声。选择这种噪声的协方差可以用下三角矩阵的因式分解来表达(该矩阵计算前缀和)。我们提出了两种来自该类的方法(针对不同的参数范围),用于实现DP连续计数,可以实现接近最优的效用,并且只需要对数或多对数空间(和时间)。我们的第一种方法基于一类Toeplitz矩阵的空间有效的流矩阵乘法算法。我们展示了为了将此算法实例化为DP连续计数,只需找到一个近似于复平面上圆上平方根的低次有理函数即可。然后,我们应用并扩展了近似理论中的工具来实现这一点。我们还为任意多步导出了目标函数的高效闭合形式,并展示了直接数值优化可以高度实用地解决问题。我们的第二种方法将我们的第一种方法与类似于二叉树机制的递归构造相结合。
cs.DS
cs.CC
SEC
PDF
解读
AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs
Anselm Paulus,
Arman Zharmagambetov,
Chuan Guo,
...
2024年04月21日
最近,大型语言模型(LLMs)取得了显著的成功,但它们容易受到某些越狱攻击的影响,导致生成不适当或有害内容。手动红队测试需要找到导致越狱的对抗性提示,例如在给定指令后添加后缀,这是低效且耗时的。另一方面,自动对抗提示生成通常会导致语义上无意义的攻击,易于被基于困惑度的过滤器检测到,可能需要来自TargetLLM的梯度信息,或由于在标记空间上耗时的离散优化过程而无法很好地扩展。在本文中,我们提出了一种新方法,使用另一个称为AdvPrompter的LLM,在几秒钟内生成可读的对抗提示,比现有的基于优化的方法快约800倍。我们使用一种新算法训练AdvPrompter,该算法不需要访问TargetLLM的梯度。该过程交替进行两个步骤:(1)通过优化AdvPrompter的预测生成高质量的目标对抗后缀,(2)使用生成的对抗后缀对AdvPrompter进行低秩微调。经过训练的AdvPrompter生成的后缀掩盖了输入指令而不改变其含义,从而引诱TargetLLM给出有害响应。对流行的开源TargetLLMs的实验结果显示,在AdvBench数据集上具有最先进的结果,这些结果还转移到了封闭的黑盒LLM API。此外,我们证明通过在AdvPrompter生成的合成数据集上进行微调,可以使LLMs更加强大,抵御越狱攻击,同时保持性能,即高MMLU得分。
SEC
AI
NLP
PDF
解读