MIntRec 2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations

2024年03月16日
  • 简介
    多模态意图识别面临着重大挑战,需要结合现实世界中的非语言模态以增强对人类意图的理解。现有的基准数据集在规模上存在限制,并且在处理多轮对话交互中出现的超出范围样本时存在困难。我们介绍了MIntRec 2.0,这是一个用于多方会话中的多模态意图识别的大规模基准数据集。它包含1,245个对话,15,040个样本,每个样本都在一个新的意图分类法中进行了注释,包括30个细粒度类别。除了9,304个范围内的样本外,它还包括5,736个出现在多轮上下文中的超出范围样本,这在现实场景中自然发生。此外,我们还提供了每个话语中发言者的全面信息,丰富了它在多方会话研究中的实用性。我们建立了一个通用框架,支持单轮和多轮对话数据的组织,模态特征提取,多模态融合,以及范围内分类和超出范围检测。使用经典多模态融合方法、ChatGPT和人工评估者构建了评估基准。尽管现有方法结合非语言信息可以提高性能,但有效地利用上下文信息和检测超出范围样本仍然是一个重大挑战。值得注意的是,大型语言模型与人类相比存在显着的性能差距,突显了机器学习方法在认知意图理解任务中的局限性。我们相信,MIntRec 2.0将作为一个有价值的资源,为人机交互研究提供开创性的基础,并显著促进相关应用。完整的数据集和代码可在https://github.com/thuiar/MIntRec2.0上获得。
  • 图表
  • 解决问题
    该论文旨在解决多模态意图识别中的挑战,包括如何处理多方对话中的超出范围样本,提出了一个新的意图分类系统,并提供了一个大规模数据集MIntRec 2.0。
  • 关键思路
    该论文的关键思路是使用多模态信息来提高意图识别的准确性,并建立了一个支持单轮和多轮对话数据组织、模态特征提取、多模态融合、范围内分类和超出范围检测的框架。
  • 其它亮点
    MIntRec 2.0是一个大规模的多模态意图识别数据集,包含1,245个对话,15,040个样本,每个样本都在30个细粒度类别的新意图分类系统中进行注释。除了9,304个范围内的样本外,还包括5,736个出现在多轮上下文中的超出范围样本,丰富了数据集的实用性。此外,该论文还提供了每个话语中发言者的详细信息,丰富了多方对话研究的实用性。论文使用了经典的多模态融合方法、ChatGPT和人类评估者来进行实验评估,结果表明,尽管现有方法结合非语言信息可以提高意图识别的准确性,但有效利用上下文信息和检测超出范围的样本仍然是一个重大挑战。值得注意的是,大型语言模型与人类相比存在显着的性能差距,这凸显了机器学习方法在认知意图理解任务中的局限性。
  • 相关研究
    最近在这个领域的相关研究包括:1.《A Survey of Multimodal Machine Learning》;2.《Multimodal Intent Recognition: A Survey》;3.《A Multimodal Deep Learning Approach for Intent Detection in Human-Robot Interaction》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论