- 简介多模态意图识别面临着重大挑战,需要将现实世界中的非语言模态纳入其中,以增强对人类意图的理解。现有的基准数据集规模有限,并且在处理多轮交互中出现的超出范围的样本时存在困难。我们介绍了MIntRec2.0,这是一个用于多方对话中的多模态意图识别的大规模基准数据集。它包含1,245个对话和15,040个样本,每个样本都在一个包含30个细粒度类别的新意图分类法中进行了注释。除了9,304个范围内的样本外,它还包括出现在多轮上下文中的5,736个超出范围的样本,这在现实场景中自然发生。此外,我们还提供了每个话语中发言者的全面信息,丰富了它对多方对话研究的实用性。我们建立了一个通用框架,支持单轮和多轮对话数据的组织、模态特征提取、多模态融合以及范围内分类和范围外检测。使用经典的多模态融合方法、ChatGPT和人工评估者建立了评估基准。虽然现有的方法纳入非语言信息可以改善性能,但有效利用上下文信息和检测超出范围的样本仍然是一个重大挑战。值得注意的是,与人类相比,大型语言模型存在显着的性能差距,这突显了机器学习方法在认知意图理解任务中的局限性。我们相信,MIntRec2.0将成为一个有价值的资源,为人机对话交互研究提供开创性的基础,极大地促进相关应用的发展。完整的数据集和代码可在https://github.com/thuiar/MIntRec2.0上获得。
- 解决问题多模态意图识别中的挑战是什么?现有数据集存在哪些问题?如何解决这些问题?
- 关键思路本文提出了一个新的大规模多方对话多模态意图识别数据集MIntRec2.0,并建立了一个通用框架来处理单轮和多轮对话数据,包括模态特征提取、多模态融合、内部范围分类和外部范围检测。
- 其它亮点MIntRec2.0包含1,245个对话和15,040个样本,每个样本都在一个新的意图分类法中进行了注释,包括30个细粒度类别。除了9,304个内部范围样本外,还包括5,736个出现在多轮上下文中的外部范围样本。此外,本文还提供了每个话语中发言者的全面信息,丰富了其对多方对话研究的实用性。本文还使用了经典的多模态融合方法、ChatGPT和人类评估者来建立评估基准。虽然现有的方法结合非语言信息会产生改进,但有效利用上下文信息和检测超出范围的样本仍然是一个重大挑战。值得注意的是,与人类相比,大型语言模型存在显着的性能差距,突显了机器学习方法在认知意图理解任务中的局限性。
- 在这个领域中,最近的一些相关研究包括:'A Survey of Multimodal Machine Learning','A Multi-View Learning Approach to Cross-Modal Multimedia Retrieval','Multimodal Machine Learning: A Survey and Taxonomy'等。
沙发等你来抢
去评论
评论
沙发等你来抢