Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization

简介

生成式多模态内容在许多内容创作领域越来越普遍，因为它可以让艺术家和媒体人员通过快速将他们的想法变为现实来创建预生产模型。从文本提示生成音频是音乐和电影行业这种过程的重要方面。许多最近的基于扩散的文本到音频模型侧重于在大量的提示音频数据集上训练越来越复杂的扩散模型。这些模型并不明确关注输出音频中的概念或事件及其相对于输入提示的时间顺序。我们的假设是关注这些音频生成方面如何在有限的数据存在情况下提高音频生成性能。因此，在这项工作中，我们使用现有的文本到音频模型Tango，合成一个偏好数据集，其中每个提示都有一个优胜音频输出和一些输掉的音频输出，供扩散模型学习。理论上，输掉的输出中有些提示中的概念缺失或顺序不正确。我们使用扩散-DPO（直接偏好优化）损失在我们的偏好数据集上微调公开可用的Tango文本到音频模型，并展示它相对于Tango和AudioLDM2在自动和手动评估指标方面都带来了改进的音频输出。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在探讨如何提高基于文本提示生成音频的性能，尤其是在数据有限的情况下。作者假设关注音频生成中概念或事件的存在以及它们在输出音频中相对于输入提示的时间顺序可能会提高性能。
关键思路

本论文提出了一种新的方法，即使用基于偏好的学习来改进现有的文本到音频生成模型。作者使用了一个现有的模型Tango，并在合成的偏好数据集上进行微调，以优化音频输出的性能。
其它亮点

本论文的实验表明，使用偏好学习可以提高音频输出的性能。作者还提出了一种新的评估指标，即人工评估指标，以补充自动评估指标。作者还公开了使用的数据集和代码。
相关研究

在最近的相关研究中，也有一些关于基于文本提示生成音频的研究。例如，WaveNet和Tacotron等模型也被用于这个任务。

Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization

提问交流

提问交流