Multi-Modal Video Dialog State Tracking in the Wild

2024年07月02日
  • 简介
    我们提出了MST-MIXER——一种新颖的视频对话模型,它在通用多模态状态跟踪方案上运行。目前声称执行多模态状态跟踪的模型存在两个主要问题:(1)它们只跟踪一个模态(主要是视觉输入)或(2)它们针对的是不反映野外复杂情境的合成数据集。我们的模型试图解决这两个限制,以填补这一关键研究空白。具体而言,MST-MIXER首先跟踪每个输入模态的最重要组成部分。然后,它通过使用一种新颖的多模态图结构学习方法来学习本地潜在图,以预测所选模态的缺失底层结构。随后,学习的本地图和特征被解析在一起,形成一个操作于所有模态混合物的全局图,进一步完善其结构和节点嵌入。最后,细粒度的图节点特征被用于增强骨干视觉-语言模型(VLM)的隐藏状态。MST-MIXER在五个具有挑战性的基准测试中取得了新的最先进结果。
  • 作者讲解
  • 图表
  • 解决问题
    本篇论文旨在解决当前多模态状态跟踪模型存在的问题,包括只跟踪一个模态或只关注合成数据集等问题,以此填补该领域的研究空白。
  • 关键思路
    该论文提出了一种名为MST-MIXER的模型,通过先跟踪每个输入模态的最重要组成部分,然后使用一种新颖的多模态图结构学习方法来预测每个模态的选定构成部分的缺失底层结构,并将学习到的局部图和特征解析在一起,形成作用于所有模态混合的全局图,进一步细化其结构和节点嵌入,最终利用细粒度图节点特征来增强骨干视觉语言模型的隐藏状态。
  • 其它亮点
    该论文在五个具有挑战性的基准测试中取得了最新的最优结果。实验设计合理,使用了真实数据集,还开源了代码。该论文的方法为多模态状态跟踪领域提供了新的思路和解决方案。
  • 相关研究
    近期在该领域的相关研究包括:(1) MM-VAE: Learning Multi-Modal Latent Representations for Sequential Data; (2) Multi-Modal Transformer for Unaligned Multi-Modal Language Sequences; (3) Multi-Modal Machine Learning: A Survey and Taxonomy。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问