- 简介在本文中,我们介绍了一种新颖的面对面口语对话模型。它处理用户输入的视听语音,并生成视听语音作为回应,标志着创建一个无需依赖中间文本的头像聊天机器人系统的初始步骤。为此,我们新引入了MultiDialog,这是第一个包含约9000个对话、340小时的大规模多模态(即音频和视觉)口语对话语料库,基于开放领域对话数据集TopicalChat进行记录。MultiDialog包含根据给定脚本行动的对话伙伴的平行视听记录,以及情感注释,我们期望它能为多模态合成开辟研究机会。我们的面对面口语对话模型包含一个文本预训练的大型语言模型,并通过融合语音文本联合预训练将其适应于音视频口语对话领域。通过大量实验,我们验证了我们的模型在促进面对面对话方面的有效性。Demo和数据分别可在https://multidialog.github.io和https://huggingface.co/datasets/IVLLab/MultiDialog上获得。
- 图表
- 解决问题本论文旨在提出一种新的面对面口语对话模型,解决在无需中间文本的情况下创建Avatar Chatbot系统的问题。
- 关键思路该论文提出了一种新的多模态(音频和视觉)口语对话语料库MultiDialog,其中包含大约9,000个对话的340小时平行音频-视觉记录。通过在文本预训练的大型语言模型中加入语音-文本联合预训练,将其适应于音频-视觉口语对话领域。通过广泛的实验,验证了该模型在促进面对面对话方面的有效性。
- 其它亮点论文提出的MultiDialog是第一个大规模的多模态口语对话语料库,包含音频和视觉记录、情感注释和给定脚本的对话。该论文还提供了可用于进一步研究的数据集和演示。实验表明,该模型在面对面对话中具有良好的表现。
- 在这个领域最近的相关研究包括:1. End-to-End Multimodal Dialogue System with Conditional Variational Autoencoders; 2. Audio-Visual Scene-Aware Dialog; 3. Multimodal Transformer for Unaligned Multimodal Language Sequences。
沙发等你来抢
去评论
评论
沙发等你来抢