A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models

向作者提问

NEW

简介

基于离散扩散的多模态大语言模型（dMLLM）由于具备并行解码和双向上下文建模的优势，已成为自回归式多模态大模型（MLLM）的一种颇具前景的替代方案。然而，大多数现有的dMLLM在推理过程中因每一步去噪均需进行全序列注意力计算，导致显著的计算开销。早期研究尝试从跨模态统一的角度，通过键值缓存优化或高效采样策略来缓解这一问题，但大多忽略了不同模态特有的视觉标记冗余现象。在本研究中，我们系统地探讨了视觉标记冗余如何随不同的dMLLM架构和任务类型而演变，以及对视觉标记进行剪枝如何影响dMLLM的响应质量与推理效率。具体而言，我们的研究发现，视觉冗余仅出现在从零训练的dMLLM处理长答案生成任务时。此外，我们验证了视觉标记剪枝会为dMLLM引入不可忽略的信息损失，而只有从零训练的dMLLM能够在后期去噪步骤中逐步恢复丢失的信息。进一步研究表明，层跳跃策略对于由自回归模型转换而来的扩散dMLLM加速效果显著，而对于从零训练的dMLLM，渐进式剪枝或后期剪枝则更为有效。总体而言，本研究为dMLLM的效率优化提供了新的视角，显著推动了其在各类多模态理解任务中的实际应用前景。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决离散扩散多模态大语言模型（dMLLMs）在推理过程中因每一步去噪都进行全序列注意力计算而导致的显著计算开销问题。尽管已有研究尝试通过键值缓存优化或高效采样来缓解该问题，但大多忽略了视觉token中存在的模态特异性冗余。这个问题在从零训练的dMLLM处理长答案任务时尤为突出，且尚未被系统研究，因此具有新颖性。
关键思路

论文提出应根据dMLLM的架构类型（从零训练 vs. 由自回归模型转换而来）和任务特性（如回答长度）来差异化地处理视觉token冗余问题。关键思路是：对从零训练的dMLLM，在后期去噪阶段采用渐进式或晚期剪枝策略；而对由AR模型转化的dMLLM，则更适合采用层跳跃（layer-skipping）加速方法。这种基于架构与任务感知的视觉token优化策略，相比通用的模态无关优化更具针对性和有效性。
其它亮点

论文系统研究了不同dMLLM架构下视觉token冗余的演化规律，并揭示冗余主要出现在从零训练模型处理长答案任务时。实验验证了视觉token剪枝会引入不可忽略的信息损失，但从零训练的dMLLM具备在后期去噪中逐步恢复信息的能力。实验设计覆盖多种架构与任务设置，增强了结论的普适性。文中未明确提及是否开源代码，但其发现为后续高效dMLLM设计提供了重要指导，值得深入探索动态剪枝策略与信息恢复机制的结合。
相关研究

1. Efficient Diffusion Models for Vision-Language Generation: A Survey 2. KVCache Is All You Need: Accelerating Autoregressive Multimodal Models via Token Pruning 3. Lite Diffusion: Efficient Text-to-Image Generation via Feature Map Pruning 4. Progressive Image Generation with Denoising Steps Skipping in Diffusion Models 5. Visual Token Compression in Multimodal Transformers: Towards Faster and Lighter Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问