- 简介在这项工作中,我们提出了一个概念简单但功能强大的基线模型——S3模型,用于多模态对话任务,并在两个有吸引力的排行榜MMM和AI Journey Contest 2023上取得了接近最先进水平的结果。该系统基于一个预训练的大型语言模型,预训练的图像和音频模态编码器,以及一个可训练的模态投影器。提出的有效数据混合方法用于训练这样的架构,表明基于强大的语言模型并在少量多模态数据上训练的多模态模型可以高效地执行多模态对话任务。
-
- 图表
- 解决问题本文旨在解决多模态对话任务中的问题,并验证其方案的有效性。这是一个新的问题。
- 关键思路文章提出了一种基于预训练的大型语言模型、图像和音频的预训练模态编码器和可训练模态投影器的S3模型,通过有效的数据混合训练,实现了在MMM和AI Journey Contest 2023两个竞赛中接近最先进的结果。相比当前领域的研究,该论文的关键思路在于使用预训练的模型和少量的多模态数据进行训练,取得了较好的效果。
- 其它亮点论文的实验设计合理,使用了MMM和AI Journey Contest 2023两个竞赛数据集,取得了接近最先进的结果。此外,该论文的方案可以在少量的多模态数据上进行训练,具有较好的效率。论文未开源代码。
- 在该领域的相关研究还包括:1.《Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems》;2.《Multi-Modal Dialogue System with Reinforcement Learning》;3.《A Survey on Dialogue Systems: Recent Advances and New Frontiers》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流