- 简介我们提出了MusicRL,这是第一个通过人类反馈进行微调的音乐生成系统。由于音乐性的概念以及标题背后的具体意图是基于用户的(例如,“快乐的锻炼音乐”这样的标题可以映射到复古吉他独奏或电子流行节拍),因此对于文本到音乐模型的评价特别主观。这不仅使得这些模型的监督训练具有挑战性,而且还需要在部署后将连续的人类反馈整合到它们的微调中。MusicRL是一个预训练的离散音频令牌自回归MusicLM模型(Agostinelli等人,2023),通过强化学习进行微调以最大化序列级别的奖励。我们从选定的评估者那里设计了与文本一致性和音频质量相关的奖励函数,并使用这些函数将MusicLM微调为MusicRL-R。我们将MusicLM部署给用户,并收集了一个包含300,000个成对偏好的大量数据集。使用人类反馈的强化学习(RLHF),我们训练了MusicRL-U,这是第一个在规模上融合了人类反馈的文本到音乐模型。人类评估表明,MusicRL-R和MusicRL-U都优于基线模型。最终,MusicRL-RU结合了这两种方法,并且根据人类评估者的评价结果是最好的模型。消融研究揭示了影响人类偏好的音乐属性,表明文本一致性和质量只占其中的一部分。这强调了音乐欣赏中主观性的普遍存在,并呼吁进一步将人类听众纳入音乐生成模型的微调中。
- 图表
- 解决问题本文旨在解决音乐生成模型的主观性问题,提出了一种使用人类反馈进行微调的音乐生成模型MusicRL。
- 关键思路MusicRL是一种使用强化学习进行微调的预训练音乐语言模型,其奖励函数由人类评价者设计,包括文本一致性和音频质量等方面。通过从用户收集的数据集中进行强化学习,得到了第一个使用人类反馈进行微调的文本到音乐模型MusicRL-U。
- 其它亮点本文的亮点包括:使用人类反馈进行微调,设计奖励函数,使用强化学习,进行大量实验并与基线模型进行比较。实验数据集包括了30万个用户偏好。MusicRL-RU是最优秀的模型,表明文本一致性和音频质量只是影响人类偏好的部分因素,音乐欣赏仍然存在主观性。
- 在音乐生成领域,有许多相关的研究,如MIDI音乐生成和GAN音乐生成等。
沙发等你来抢
去评论
评论
沙发等你来抢