- 简介我们介绍了一种新型框架C3LLM(基于三模态的大语言模型),将视频到音频、音频到文本和文本到音频三个任务结合起来。C3LLM采用大语言模型(LLM)结构作为桥梁,用于对齐不同模态、合成给定条件信息并以离散方式进行多模态生成。我们的贡献如下。首先,我们采用预训练音频码本的分层结构用于音频生成任务。具体来说,我们训练LLM从给定条件生成音频语义标记,并进一步使用非自回归变换器在层中生成不同级别的声学标记以更好地提高生成音频的保真度。其次,基于LLM最初设计用于具有下一个单词预测方法的离散任务的直觉,我们使用离散表示进行音频生成,并将它们的语义含义压缩成声学标记,类似于将“声学词汇”添加到LLM中。第三,我们的方法将以前的音频理解、视频到音频生成和文本到音频生成任务结合到一个统一的模型中,以端到端的方式提供更多的灵活性。我们的C3LLM通过各种自动化评估指标实现了改进的结果,与以前的方法相比提供更好的语义对齐。
-
- 图表
- 解决问题论文旨在解决视频、音频和文本三种模态之间的语义对齐和生成问题,提出了一种新的框架 C3LLM。
- 关键思路C3LLM 利用预训练的音频码本,采用层次结构生成音频语义 token,并使用非自回归变换器在层中生成不同级别的声学 token,将离散表示用于音频生成,并将它们的语义含义压缩成声学 token,将其添加到 LLM 中,实现了三种模态的语义对齐和生成。
- 其它亮点论文的实验结果表明,C3LLM 在各种自动化评估指标上都取得了更好的结果,相比以前的方法,提供了更好的语义对齐。同时,论文提出的框架将音频理解、视频到音频生成和文本到音频生成三个任务结合在一起,提供了更多的灵活性和端到端的方式。
- 最近的相关研究包括:1)《Audio-Visual Scene-Aware Dialog》;2)《Learning Cross-Modal Audio-Visual Associations from Web Videos》;3)《Audio-Visual Event Localization in Unconstrained Videos》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流