- 简介跨模态变换器通过有效地整合不同的模态在各种视觉任务中展现了优越性。本文首先批评了先前的令牌交换方法,这些方法用跨模态特征替换信息较少的令牌,并展示了交换方法的表现不如交叉注意机制,而后者的计算需求不可避免地限制了其在较长序列中的使用。为了克服计算上的挑战,我们提出了GeminiFusion,一种基于像素的融合方法,它利用对齐的跨模态表示。GeminiFusion优雅地结合了内部模态和交叉模态的注意力,动态地整合了跨模态的互补信息。我们采用层自适应噪声来逐层地自适应控制它们的相互作用,从而实现了和谐的融合过程。值得注意的是,GeminiFusion与输入令牌数量呈线性复杂度,确保这种多模态框架的效率与单模态网络相当。在多模态图像到图像翻译、3D物体检测和任意模态语义分割等任务中进行了全面评估,包括RGB、深度、LiDAR、事件数据等,证明了我们的GeminiFusion相对于最先进的技术具有卓越的性能。PyTorch代码可在https://github.com/JiaDingCN/GeminiFusion找到。
- 图表
- 解决问题GeminiFusion试图解决跨模态图像处理中的信息融合问题,即如何将不同模态的信息有效地整合起来。这是一个已知的问题,但是现有的方法要么效果不佳,要么计算复杂度太高。
- 关键思路GeminiFusion提出了一种基于像素的信息融合方法,利用交叉模态表示的对齐特征进行动态整合。该方法同时使用了内部和外部的注意力机制,实现了跨模态信息的动态整合。此外,它还使用了层自适应噪声来控制内部和外部注意力的交互,从而实现了协调的融合过程。
- 其它亮点论文通过多个任务的实验验证了GeminiFusion的优越性,包括图像翻译、3D物体检测和任意模态语义分割等任务。该方法的计算复杂度与单模态网络相当,且代码已经开源。
- 近期的相关研究包括:'Cross-Modal Deep Metric Learning with Multi-Attention Network for Sketch-Based 3D Shape Retrieval'、'Cross-Modal Retrieval with Modality Attention and Multimodal Fusion'、'Cross-Modal Retrieval via Cross-Modal Correlation Analysis'等。
沙发等你来抢
去评论
评论
沙发等你来抢