MMToM-QA: Multimodal Theory of Mind Question Answering

2024年01月16日
  • 简介
    理解他人心理的能力——心智理论(ToM),是开发具有人类级别社交智能机器的重要因素。近期的机器学习模型,特别是大型语言模型,似乎展示了一些ToM理解方面的能力。然而,现有的ToM基准测试使用单模态数据集,即视频或文本。然而,人类的ToM不仅仅是视频或文本理解。人们可以根据从任何可用数据中提取的概念表示(例如目标、信念、计划)灵活地推理另一个人的心理。这些数据可以包括视觉线索、语言叙述或两者兼备。为了解决这个问题,我们引入了一个多模态的心智理论问答(MMToM-QA)基准测试。MMToM-QA全面评估了机器在多模态数据和关于家庭环境中一个人活动的不同单模态数据上的ToM能力。为了设计多模态ToM能力,我们提出了一种新方法,即基于语言模型加速的贝叶斯逆规划(BIP-ALM)。BIP-ALM从多模态数据中提取统一的表示,并利用语言模型进行可扩展的贝叶斯逆规划。我们对人类表现、BIP-ALM和包括GPT-4在内的最先进模型进行了系统比较。实验表明,大型语言模型和大型多模态模型仍然缺乏强大的ToM能力。另一方面,BIP-ALM通过利用基于模型的心理推断和语言模型的能力,显示出有希望的结果。
  • 图表
  • 解决问题
    本论文旨在解决机器理解人类心智的问题,提出了一个多模态理解问题的基准测试和一种新的方法BIP-ALM,以提高机器的理解能力。
  • 关键思路
    论文提出了一种新的方法BIP-ALM,利用多模态数据提取统一表示,并利用语言模型进行可扩展的贝叶斯逆向规划,以提高机器的理解能力。
  • 其它亮点
    论文提出了一个多模态Theory of Mind问题回答(MMToM-QA)基准测试,用于全面评估机器的理解能力。实验结果表明,当前的大型语言模型和大型多模态模型仍然缺乏强大的ToM能力,而BIP-ALM方法表现出良好的效果,结合了基于模型的心智推断和语言模型的优势。
  • 相关研究
    最近的相关研究包括使用大型语言模型进行ToM推理的工作,如GPT-4。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论