RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer

简介

多模态学习在有效融合来自不同模态的信息时面临挑战，尤其是在样本间模态质量存在差异的情况下。动态融合策略（例如 Transformer 中的注意力机制）旨在通过根据输入数据的特性自适应地强调不同模态来应对这一挑战。然而，通过大量精心设计的实验，我们惊讶地发现，广泛使用的自注意力模型的动态适应能力减弱了。模型倾向于偏好某一特定模态，而不考虑数据的具体特征。这种偏差触发了一个自我强化循环，逐渐过度强调被偏好的模态，扩大了模态间注意力键的分布差距，并削弱了注意力机制的动态特性。为恢复其适应性，我们提出了一种简单而有效的方法——滚动查询（Rolling Query，简称 RollingQ），通过轮转查询来平衡注意力分配，从而打破自我强化循环并缓解键分布差距。在各种多模态场景下的广泛实验验证了 RollingQ 的有效性，而合作动态的恢复对于增强广泛部署的多模态 Transformer 的整体能力至关重要。源代码可在以下地址获取：https://github.com/GeWu-Lab/RollingQ_ICML2025。
图表
解决问题

论文试图解决多模态学习中动态融合机制失效的问题，特别是当输入数据的模态质量不均衡时，模型倾向于过度依赖某一模态而失去适应性。这是一个在多模态学习领域中逐渐显现的重要问题。
关键思路

论文提出了一种名为Rolling Query（RollingQ）的方法，通过轮转查询（query）来平衡注意力分配，打破模型对单一模态的偏好导致的自强化循环。相比现有方法，RollingQ的设计简单但有效，能够恢复Transformer模型在多模态任务中的动态适应能力。
其它亮点

论文通过大量精心设计的实验验证了RollingQ的有效性，并展示了其在不同多模态场景中的泛化能力。实验使用了多个公开数据集，并且作者开源了代码（https://github.com/GeWu-Lab/RollingQ_ICML2025）。未来值得深入研究的方向包括如何进一步优化多模态融合策略以及探索RollingQ在更大规模模型中的表现。
相关研究

近期相关研究包括《M6: A Large-Scale Multimodal Pretrained Model》和《UniT: A Unified Transformer for Multimodal Understanding》等，这些工作主要集中在多模态预训练模型的设计与应用上。然而，本论文更关注于解决多模态模型中注意力机制的内在偏置问题，这与上述研究形成互补。

RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer

评论