- 简介过去几年,音频和视觉信号之间的同步已被利用来学习更丰富的音频-视觉表示。在无标签视频大量可用的情况下,许多无监督的训练框架已经展示了在各种下游音频和视频任务中令人印象深刻的结果。最近,Masked Audio-Video Learners(MAViL)已成为一种最先进的音频-视频预训练框架。MAViL将对比学习与掩码自编码相结合,通过融合两种模态的信息来共同重构音频谱图和视频帧。在本文中,我们研究了扩散模型和MAViL之间的潜在协同作用,旨在从这两个框架中获得相互利益。将扩散模型纳入MAViL中,再加上采用掩码比例课程和自适应批量大小等各种训练效率方法,可以显著降低预训练的浮点运算量(FLOPS)32%和预训练的墙钟时间18%。关键是,与MAViL的表现相比,这种增强的效率不会影响模型在下游音频分类任务中的性能。
- 图表
- 解决问题本论文旨在研究将扩散模型与MAViL相结合的潜力,以提高音频-视频预训练的效率和性能。
- 关键思路将扩散模型与MAViL相结合,通过使用掩码比率课程和自适应批量大小等训练效率方法,显著降低了预训练的FLOPS和时间,而不影响模型在下游任务中的性能。
- 其它亮点本论文提出的方法在多个数据集上进行了实验,结果表明它可以在提高效率的同时保持模型性能。此外,该论文还开源了代码,方便其他研究者进行进一步研究。
- 最近的相关研究包括:《半监督学习中的对比学习方法》、《视频-音频表示学习的最新进展》、《自监督学习在音频处理中的应用》等。
沙发等你来抢
去评论

评论
沙发等你来抢