- 简介本文介绍了大规模视觉语言模型(VLMs)的攻击面,即攻击者通过在推理过程中恶意诱导高能耗和延迟时间(能量-延迟成本),从而耗尽计算资源。作者发现,通过最大化生成序列的长度,可以操纵VLMs的推理过程,从而诱导高能耗和延迟时间。因此,作者提出了verbose images,旨在通过对图像进行微小的扰动,诱导VLMs在推理过程中生成更长的句子。作者设计了三个损失函数,包括延迟序列结束符(EOS)的损失、不确定性损失和令牌多样性损失,以增加生成序列中每个令牌的不确定性和多样性,从而打破令牌级和序列级的输出依赖关系。作者还提出了一个时间权重调整算法,可以有效平衡这些损失。实验结果表明,与原始图像相比,verbose images可以使生成序列的长度分别增加7.87倍和8.56倍,这对各种应用程序都提出了潜在挑战。作者的代码可在https://github.com/KuofengGao/Verbose_Images上获得。
- 图表
- 解决问题本论文旨在探索大型视觉语言模型(VLMs)在推理期间能否被恶意攻击以导致高能耗-延迟成本,以及如何通过生成冗长的句子来诱导VLMs产生高能耗-延迟成本。
- 关键思路论文提出了verbose images的概念,通过设计三种损失函数来延迟VLMs产生end-of-sequence(EOS)标记、增加每个生成标记的不确定性和增加整个生成序列中标记的多样性,从而诱导VLMs产生冗长的句子。
- 其它亮点实验表明,与原始图像相比,verbose images在MS-COCO和ImageNet数据集上可以将生成的序列长度分别增加7.87倍和8.56倍。该研究的代码已经开源。
- 在相关研究中,最近的一些研究包括:《Generating Diverse and Competitive Play-Styles for Strategy Games》、《Text-to-Image Generation Grounded by Fine-Grained User Attention》等。
沙发等你来抢
去评论
评论
沙发等你来抢