百万量级的多模态对话数据集来了!

MMDialog,这个由北大&微软最新发布的英文数据集,包含了108万个来源于真实世界的高质量对话。

其中包括非重复图片153万张,涉及4184个主题,还支持多种表情符号。

就像人在网上聊天时除了文字,还会发表情包、图片一样,多模态数据集正是旨在促进AI像人类一样交谈。

举个例子,下图是MMDialog收录的一段人类对话,可以看到,双方正在用文字、图片和表情符号谈论风景和野生动物。

图片

论文链接:https://arxiv.org/pdf/2211.05719.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除