Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images

2024年01月20日
  • 简介
    本文介绍了大规模视觉语言模型(VLMs)的攻击面,即攻击者通过在推理过程中恶意诱导高能耗和延迟时间(能量-延迟成本),从而耗尽计算资源。作者发现,通过最大化生成序列的长度,可以操纵VLMs的推理过程,从而诱导高能耗和延迟时间。因此,作者提出了verbose images,旨在通过对图像进行微小的扰动,诱导VLMs在推理过程中生成更长的句子。作者设计了三个损失函数,包括延迟序列结束符(EOS)的损失、不确定性损失和令牌多样性损失,以增加生成序列中每个令牌的不确定性和多样性,从而打破令牌级和序列级的输出依赖关系。作者还提出了一个时间权重调整算法,可以有效平衡这些损失。实验结果表明,与原始图像相比,verbose images可以使生成序列的长度分别增加7.87倍和8.56倍,这对各种应用程序都提出了潜在挑战。作者的代码可在https://github.com/KuofengGao/Verbose_Images上获得。
  • 图表
  • 解决问题
    本论文旨在探索大型视觉语言模型(VLMs)在推理期间能否被恶意攻击以导致高能耗-延迟成本,以及如何通过生成冗长的句子来诱导VLMs产生高能耗-延迟成本。
  • 关键思路
    论文提出了verbose images的概念,通过设计三种损失函数来延迟VLMs产生end-of-sequence(EOS)标记、增加每个生成标记的不确定性和增加整个生成序列中标记的多样性,从而诱导VLMs产生冗长的句子。
  • 其它亮点
    实验表明,与原始图像相比,verbose images在MS-COCO和ImageNet数据集上可以将生成的序列长度分别增加7.87倍和8.56倍。该研究的代码已经开源。
  • 相关研究
    在相关研究中,最近的一些研究包括:《Generating Diverse and Competitive Play-Styles for Strategy Games》、《Text-to-Image Generation Grounded by Fine-Grained User Attention》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论