当前的对话模型往往选择出的回复相关性较好,但是经常出现常识和逻辑错误。由于现有的大部分检索式对话数据集都没有正面刚这种对话逻辑问题,导致评价指标也无法直接反映一个模型对对话逻辑的掌握程度。针对此问题,西湖大学联合微软研究院提出了多轮对话推理数据集MuTual。相比现有的其他检索式聊天数据集,MuTual要求对话模型具备常识推理能力;相比阅读理解式的推理数据集,MuTual的输入输出则完全符合标准检索式聊天机器人的流程。因此,MuTual也是目前最具挑战性的对话式数据集。测试过多个模型后,目前最佳的RoBERTa表现仅为70分左右,和人类的表现存在20多分的巨大差距。

内容中包含的图片若涉及版权问题,请及时与我们联系删除