Text-to-Audio Generation Synchronized with Videos

2024年03月08日
  • 简介
    近来,文本转音频(TTA)生成的关注度不断增加,研究人员努力从文本描述中合成音频。然而,大多数现有方法虽然利用潜在扩散模型来学习音频和文本嵌入之间的相关性,但在保持产生的音频和其视频之间的无缝同步方面存在不足,这通常导致明显的音频-视觉不匹配。为了弥合这一差距,我们引入了一个创新性的基准,用于对齐视频的文本到音频生成,名为T2AV-Bench。这个基准通过三个专门评估视觉对齐和时间一致性的新颖指标区别于其他基准。为了补充这一点,我们还提出了一种简单而有效的视频对齐TTA生成模型,即T2AV。T2AV超越传统方法,通过将视觉对齐的文本嵌入作为其条件基础,改进了潜在扩散方法。它采用了一个时间多头注意力变换器来从视频数据中提取和理解时间细节,这一特性由我们的音频-视觉控制网络进一步放大,巧妙地将时间视觉表示与文本嵌入合并。为了进一步增强这种集成,我们编织了一个对比学习目标,旨在确保视觉对齐的文本嵌入与音频特征紧密共振。对AudioCaps和T2AV-Bench的广泛评估表明,我们的T2AV在确保视觉对齐和时间一致性方面为视频对齐TTA生成设立了新的标准。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文旨在解决文本转音频(TTA)生成中的音频和视频不同步的问题,提出了一个新的基准测试 T2AV-Bench,并提出了一种新的视频对齐 TTA 生成模型 T2AV。
  • 关键思路
    关键思路:T2AV-Bench 提出了三个新的度量标准来评估视觉对齐和时间一致性,T2AV 模型通过将视觉对齐的文本嵌入作为条件基础,并使用时间多头注意力变换器从视频数据中提取和理解时间细节,以及使用 Audio-Visual ControlNet 将视觉表示与文本嵌入巧妙地融合,实现了音视频的无缝对齐。
  • 其它亮点
    其他亮点:论文使用 AudioCaps 和 T2AV-Bench 进行了广泛的评估,证明了 T2AV 在视觉对齐和时间一致性方面的优越性。此外,论文还引入了对比学习目标,以确保视觉对齐的文本嵌入与音频特征紧密共振。论文提供了开源代码。
  • 相关研究
    相关研究:最近的相关研究包括:《Learning to Synthesize Speech from Text》、《Towards High-Fidelity Audio-Visual Speech Generation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问