Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images

简介

本文介绍了大规模视觉语言模型（VLMs）的攻击面，即攻击者通过在推理过程中恶意诱导高能耗和延迟时间（能量-延迟成本），从而耗尽计算资源。作者发现，通过最大化生成序列的长度，可以操纵VLMs的推理过程，从而诱导高能耗和延迟时间。因此，作者提出了verbose images，旨在通过对图像进行微小的扰动，诱导VLMs在推理过程中生成更长的句子。作者设计了三个损失函数，包括延迟序列结束符（EOS）的损失、不确定性损失和令牌多样性损失，以增加生成序列中每个令牌的不确定性和多样性，从而打破令牌级和序列级的输出依赖关系。作者还提出了一个时间权重调整算法，可以有效平衡这些损失。实验结果表明，与原始图像相比，verbose images可以使生成序列的长度分别增加7.87倍和8.56倍，这对各种应用程序都提出了潜在挑战。作者的代码可在https://github.com/KuofengGao/Verbose_Images上获得。
图表
解决问题

本论文旨在探索大型视觉语言模型（VLMs）在推理期间能否被恶意攻击以导致高能耗-延迟成本，以及如何通过生成冗长的句子来诱导VLMs产生高能耗-延迟成本。
关键思路

论文提出了verbose images的概念，通过设计三种损失函数来延迟VLMs产生end-of-sequence（EOS）标记、增加每个生成标记的不确定性和增加整个生成序列中标记的多样性，从而诱导VLMs产生冗长的句子。
其它亮点

实验表明，与原始图像相比，verbose images在MS-COCO和ImageNet数据集上可以将生成的序列长度分别增加7.87倍和8.56倍。该研究的代码已经开源。
相关研究

在相关研究中，最近的一些研究包括：《Generating Diverse and Competitive Play-Styles for Strategy Games》、《Text-to-Image Generation Grounded by Fine-Grained User Attention》等。

Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images

评论