- 简介多模态意图识别存在重大挑战,需要融合来自现实世界背景下的非语言模态以增强对人类意图的理解。现有的基准数据集规模有限,处理多轮对话互动中出现的超出范围样本困难。我们介绍了MIntRec2.0,这是一个用于多方对话中的多模态意图识别的大规模基准数据集。它包含1,245个对话,15,040个样本,每个样本都在新的意图分类系统中注释为30个细粒度类别之一。除了9,304个范围内的样本外,它还包括5,736个出现在多轮上下文中的超出范围样本,这在现实场景中自然发生。此外,我们还提供了每个话语中发言者的全面信息,丰富了其在多方对话研究中的实用性。我们建立了一个通用框架,支持单轮和多轮对话数据的组织,模态特征提取,多模态融合,以及范围内分类和超出范围检测。使用经典的多模态融合方法、ChatGPT和人类评估者,我们建立了评估基准。虽然现有的融合非语言信息的方法取得了改进,但有效利用上下文信息和检测超出范围的样本仍然是一个重大挑战。值得注意的是,与人类相比,大型语言模型存在显著的性能差距,突显了机器学习方法在认知意图理解任务中的局限性。我们相信,MIntRec2.0将成为一个有价值的资源,为人机对话交互研究提供一个开创性的基础,并显著促进相关应用。完整的数据集和代码可在https://github.com/thuiar/MIntRec2.0上获得。
- 图表
- 解决问题多模态意图识别中的语境和范围问题
- 关键思路引入MIntRec2.0数据集,提出一种支持单轮和多轮对话数据的通用框架,包括模态特征提取、多模态融合、范围内分类和范围外检测等
- 其它亮点MIntRec2.0数据集包含1,245个对话,15,040个样本,涵盖30个细粒度类别的意图分类,同时包括在多轮对话中出现的5,736个范围外样本,丰富了数据集的多样性;实验中使用了经典的多模态融合方法、ChatGPT和人工评估等方法,结果显示利用非语言信息可以提高意图识别的准确率,但在多轮对话中处理范围外样本仍然是一个挑战;MIntRec2.0数据集和代码已经开源
- 近期相关研究包括《MultiWOZ 2.4: A Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modeling》、《A Survey of Multimodal Machine Learning》等
沙发等你来抢
去评论
评论
沙发等你来抢