MIntRec2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations

2024年03月16日
  • 简介
    多模态意图识别面临着重大挑战,需要整合来自真实世界环境中的非语言模态以增强对人类意图的理解。现有的基准数据集规模有限,处理多轮对话交互中出现的超出范围的样本存在困难。我们介绍了 MIntRec2.0,这是一个用于多方对话中多模态意图识别的大规模基准数据集。它包含1,245个对话,15,040个样本,每个样本都在一个新的意图分类体系下注释为30个细粒度类别。除了9,304个范围内的样本外,还包括5,736个出现在多轮上下文中的超出范围样本,这些样本在真实世界场景中自然发生。此外,我们还提供了每个话语中发言者的全面信息,丰富了其在多方对话研究中的实用性。我们建立了一个通用框架,支持单轮和多轮对话数据的组织、模态特征提取、多模态融合以及范围内分类和范围外检测。使用经典的多模态融合方法、ChatGPT和人类评估者构建了评估基准。虽然现有的整合非语言信息的方法取得了改进,但有效利用上下文信息和检测超出范围的样本仍然是一个重大挑战。值得注意的是,与人类相比,大型语言模型表现出显著的性能差距,突显了机器学习方法在认知意图理解任务中的局限性。我们相信,MIntRec2.0将作为一个有价值的资源,为人机对话交互研究提供开创性的基础,显著促进相关应用。完整的数据集和代码可在 https://github.com/thuiar/MIntRec2.0 上获得。
  • 图表
  • 解决问题
    多模态意图识别存在哪些挑战?现有的数据集有什么限制?
  • 关键思路
    MIntRec2.0是一个大规模的多方对话中的多模态意图识别基准数据集,包含30个细粒度类别的1,245个对话和15,040个样本,其中包括9,304个内部样本和5,736个外部样本。此外,还提供了每个话语中发言者的详细信息,丰富了其用于多方对话研究的实用性。论文建立了一个通用框架,支持单轮和多轮对话数据的组织、模态特征提取、多模态融合、内部分类和外部检测。
  • 其它亮点
    MIntRec2.0是一个大规模的多方对话中的多模态意图识别基准数据集,具有30个细粒度类别,包括内部和外部样本。论文提出的通用框架支持单轮和多轮对话数据的组织、模态特征提取、多模态融合、内部分类和外部检测。实验使用了多种方法进行评估,包括经典的多模态融合方法、ChatGPT和人类评估者。论文发现,尽管现有方法结合非语言信息可以提高性能,但有效利用上下文信息和检测出外部样本仍然是一个重大挑战。此外,大型语言模型在认知意图理解任务中表现出与人类相比的显着性能差距,突显了机器学习方法在这一任务中的局限性。
  • 相关研究
    最近的相关研究包括基于多模态数据的意图识别,如CMU-MOSEI、IEMOCAP和MELD等数据集。此外,还有一些研究关注于对话系统中的意图识别,如Rasa、LUIS和Dialogflow等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论