- 简介尽管音频-文本建模方面近期有所改进,但与图像-文本相比,音频-文本对比模型在规模和性能方面仍然落后。我们提出了一种方法来改善音频-文本对比模型的规模和训练。具体来说,我们创建了一个大规模的音频-文本数据集,其中包含超过13,000小时的文本标注音频,辅助使用大语言模型(LLM)处理和音频字幕。此外,我们采用了一种带有随机补丁丢弃的遮蔽自编码器(MAE)预先训练阶段,这使我们能够扩展未标记的音频数据集并以可变长度音频高效训练。在我们的音频编码器进行MAE预先训练后,我们使用辅助字幕目标训练对比模型。我们的最终模型名为Cacophony,它在音频-文本检索任务上实现了最先进的性能,并在其他下游任务(如零-shot分类)上展现出具有竞争力的结果。
- 图表
- 解决问题论文旨在提高音频文本对比模型的规模和性能,解决音频文本对比模型在规模和性能方面落后于图像文本对比模型的问题。
- 关键思路论文提出了一个方法来改善音频文本对比模型的规模和训练,包括使用大型语言模型处理和音频字幕辅助构建大规模音频文本数据集,采用具有随机补丁丢弃的蒙版自编码器(MAE)进行预训练,以实现扩展未标记的音频数据集和有效地训练可变长度音频,最后使用辅助字幕目标训练对比模型。
- 其它亮点论文构建了一个包含超过13,000小时文本标记音频的大规模音频文本数据集,并使用MAE进行预训练,实现扩展未标记的音频数据集和有效地训练可变长度音频,最终模型在音频文本检索任务上表现出最先进的性能,并在其他下游任务上表现出竞争力。
- 最近的相关研究包括使用MAE进行预训练的音频文本对比模型和使用大型语言模型处理的音频文本数据集构建方法。
沙发等你来抢
去评论
评论
沙发等你来抢