- 简介GPT-4o是一个全模态模型,可以实现与具有不同情感和语调的人进行语音对话,这标志着全模态基础模型的一个里程碑。然而,使用公开可用的数据使大型语言模型能够完全感知和生成图像、文本和语音仍然是开源社区面临的挑战。现有的视觉语言模型依赖于外部工具进行语音处理,而语音语言模型仍然缺乏视觉理解能力。为了填补这一空白,我们提出了EMOVA(情感全在场语音助手),以实现大型语言模型具有端到端的语音能力,同时保持领先的视觉语言性能。通过一个语义-声学分离的语音分词器,我们惊奇地发现,全模态对齐可以进一步增强视觉语言和语音能力,与相应的双模态对齐相比。此外,我们提出了一个轻量级的样式模块,用于灵活控制语音样式(例如情感和音高)。EMOVA首次在视觉语言和语音基准测试中均取得了最先进的性能,并支持具有生动情感的全模态口语对话。
- 图表
- 解决问题论文试图提出一种名为EMOVA的模型,解决当前存在的语音处理和视觉理解之间的差距,使得大型语言模型能够具备端到端的语音能力,并且在保持领先的视觉语言性能的同时,支持带有生动情感的全模态口语对话。
- 关键思路EMOVA通过语义-声学分离的语音分词器实现了全模态对齐,进一步提高了视觉语言和语音能力,并提出了轻量级的风格模块,以实现灵活的语音风格控制。
- 其它亮点EMOVA在视觉语言和语音基准测试中均取得了最先进的性能,同时支持全模态口语对话,具有很高的实用价值。论文使用了公开数据集,并提供了开源代码。
- 在这个领域中,最近还有一些相关的研究,如:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢