ACL’21 | 对话系统也要进军多模态了！

对于一个对话Bot来讲，拥有对视觉信息的感知和联想能力是非常重要的。比如，我们人类在对话中谈到大海的时候，就会自然地联想到蓝天、白云和飞翔的海鸟。然而，当前的对话模型，如 Meena、BlenderBot、DialoGPT 等，都是在纯文本语料上进行训练得到的，在学习过程中，缺乏对视觉信息的感知和理解。因此，基于图像的对话任务（Image-Grounded Conversation）被提出来关注这个挑战。现有的工作侧重于，探索基于给定图像的多模态对话模型。也就是说，这些工作都假设整个对话是围绕一张给定的图片进行展开的。然而，人类之间的对话是在某个特定的时刻，根据聊天的内容联想到物理世界中相关的视觉信息的。因此，这篇论文研究了开放式的基于图像的对话，即假设没有成对的对话和图像数据。具体来说，作者们提出了一种神经对话模型 Maria，可以从大规模图像数据中检索出符合对话语境的视觉信息，来进行对话的回复。大量实验表明，Maria 在自动和人工评估中显著优于现有的 SOTA 模型，并且可以生成一些具有视觉常识的对话回复。

Maria框架的流程图

论文标题：
Maria: A Visual Experience Powered Conversational Agent

论文链接：
https://arxiv.org/abs/2105.13073

Github 链接：
https://github.com/jokieleung/Maria

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ACL’21 | 对话系统也要进军多模态了！

评论列表

评论