Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples

2024年04月25日
  • 简介
    尽管多模态大语言模型(MLLMs)表现出色,但它们的部署需要大量的计算资源。一旦恶意用户引起高能耗和延迟时间(能量-延迟成本),就会耗尽计算资源并损害服务的可用性。本文研究了MLLMs的这种漏洞,特别是基于图像和视频的模型,旨在通过制造难以察觉的扰动来在推理过程中引起高能量-延迟成本。我们发现,可以通过最大化生成序列的长度来操纵高能量-延迟成本,这促使我们提出了冗长样本,包括冗长的图像和视频。具体而言,我们提出了两个模态非特定的损失,包括推迟序列结束(EOS)标记的损失和增加每个生成标记的不确定性损失。此外,提高多样性对于通过增加复杂性来鼓励更长的响应至关重要,这激发了以下模态特定的损失。对于冗长的图像,提出了一个标记多样性损失,以促进多样的隐藏状态。对于冗长的视频,提出了一个帧特征多样性损失,以增加帧之间的特征多样性。为了平衡这些损失,我们提出了一个时间权重调整算法。实验表明,我们的冗长样本可以大大延长生成序列的长度。
  • 图表
  • 解决问题
    本文旨在解决多模态大型语言模型(MLLMs)在推理过程中的高能耗和延迟时间(能量-延迟成本)问题,特别是针对基于图像和视频的模型。论文试图通过制造不可察觉的扰动来诱导高能耗-延迟成本。
  • 关键思路
    本文提出了verbose samples的概念,包括verbose images和verbose videos,通过最大化生成序列的长度来操纵高能耗-延迟成本。为了实现这个目标,论文提出了两种模态非特定的损失函数,一种是延迟end-of-sequence(EOS)标记的损失函数,另一种是增加每个生成标记的不确定性的不确定性损失函数。此外,为了鼓励生成更长的响应,增加多样性非常重要,这启发了以下模态特定的损失函数。针对verbose images,提出了一个标记多样性损失函数来促进隐藏状态的多样性;针对verbose videos,提出了一个帧特征多样性损失函数来增加帧之间的特征多样性。
  • 其它亮点
    论文的亮点包括提出了verbose samples的概念,通过最大化生成序列的长度来操纵高能耗-延迟成本,并提出了相应的损失函数。实验结果表明,verbose samples可以大大延长生成序列的长度。论文使用了图像和视频数据集进行实验,并提供了开源代码。这篇论文的思路是新颖的,为解决MLLMs在推理过程中的高能耗和延迟时间问题提供了一种新的思路。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Training Large Neural Networks for Image Captioning with Limited Resources》、《Adversarial Attack on Deep Learning-Based Visual Tracking: A Survey》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论