对于一个对话Bot来讲,拥有对视觉信息的感知和联想能力是非常重要的。比如,我们人类在对话中谈到大海的时候,就会自然地联想到蓝天、白云和飞翔的海鸟。然而,当前的对话模型,如 Meena、BlenderBot、DialoGPT 等,都是在纯文本语料上进行训练得到的,在学习过程中,缺乏对视觉信息的感知和理解。因此,基于图像的对话任务(Image-Grounded Conversation)被提出来关注这个挑战。现有的工作侧重于,探索基于给定图像的多模态对话模型。也就是说,这些工作都假设整个对话是围绕一张给定的图片进行展开的。然而,人类之间的对话是在某个特定的时刻,根据聊天的内容联想到物理世界中相关的视觉信息的。因此,这篇论文研究了开放式的基于图像的对话,即假设没有成对的对话和图像数据。具体来说,作者们提出了一种神经对话模型 Maria,可以从大规模图像数据中检索出符合对话语境的视觉信息,来进行对话的回复。大量实验表明,Maria 在自动和人工评估中显著优于现有的 SOTA 模型,并且可以生成一些具有视觉常识的对话回复。

Maria框架的流程图
论文标题:
Maria: A Visual Experience Powered Conversational Agent
论文链接:
https://arxiv.org/abs/2105.13073
Github 链接:
https://github.com/jokieleung/Maria
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢