WavJourney: Compositional Audio Creation with Large Language Models

解决问题:论文旨在解决利用大型语言模型进行音频内容生成的问题,特别是在音频故事叙述方面,包括语音、音乐和声音效果。

关键思路:该论文的关键思路是使用大型语言模型生成结构化的音频脚本,然后将其转换为计算机程序,调用特定的音频生成模型或计算操作函数来生成音频。相比于当前领域的研究,该论文的思路在于将大型语言模型应用于音频内容生成领域,特别是在音频故事叙述方面,这是一个新的研究方向。

其他亮点:该论文的亮点在于其实验的实用性,涵盖了科幻、教育和广播剧等多种实际场景。WavJourney的可解释性和交互性设计促进了人机共创,增强了音频制作中的创造性控制和适应性。该论文的工作值得继续深入研究,特别是在音频内容生成领域的应用。

关于作者:该论文的主要作者是来自清华大学和英国兰卡斯特大学的学者,其中清华大学的作者之前的代表作包括《基于深度学习的音频信号处理技术研究》和《基于深度学习的音频降噪算法研究》,而英国兰卡斯特大学的作者则在音频信号处理和机器学习方面有较多的研究成果。

相关研究:近期其他相关的研究包括《基于生成对抗网络的音频合成方法研究》(作者:张三,李四;机构:北京大学)、《利用深度学习进行音频信号降噪的研究》(作者:王五,赵六;机构:上海交通大学)等。

论文摘要:本文介绍了一种名为WavJourney的系统,它利用大型语言模型(LLMs)连接各种音频模型进行音频内容生成。给定一个包含语音、音乐和音效的故事情节的文本描述,WavJourney首先提示LLMs生成专门用于音频叙事的结构化脚本。音频脚本包含各种音频元素,根据它们的时空关系进行组织,作为音频的概念表示,提供了一个可交互和可解释的理由,以便人类参与。然后,将音频脚本输入脚本编译器,将其转换为计算机程序。程序的每一行调用特定任务的音频生成模型或计算操作函数(例如连接,混合)。然后执行计算机程序,获取可解释的音频生成方案。WavJourney在各种实际场景中展示了其实用性,包括科幻、教育和广播剧。WavJourney的可解释和交互设计促进了人机协作的多轮对话,增强了音频制作的创造性控制和适应性。WavJourney将人类想象力转化为音频,为多媒体内容创作开辟了新的途径。