AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding

2024年06月19日
  • 简介
    通过机器人或可穿戴设备部署的AI个人助手需要具备具体理解能力,以便与人类有效协作。然而,当前的视觉语言模型(VLM)主要关注第三人称视角的视频,忽略了自我中心感知体验的丰富性。为了填补这一空白,我们提出了三个关键贡献。首先,我们引入了自我中心视频理解数据集(EVUD),用于训练针对自我中心视频的视频字幕和问题回答任务的VLM。其次,我们提出了AlanaVLM,这是一个使用参数高效方法在EVUD上进行训练的7B参数VLM。最后,我们在OpenEQA上评估了AlanaVLM的能力,这是一个具有挑战性的基准测试,用于实体视频问题回答。我们的模型实现了最先进的性能,超过了包括使用GPT-4作为规划者的强Socratic模型在内的开源模型3.6%。此外,我们超越了Claude 3和Gemini Pro Vision 1.0,并展示了与Gemini Pro 1.5和GPT-4V相比的竞争结果,甚至在空间推理方面超越了后者。这项研究为构建高效的VLM铺平了道路,这些VLM可以部署在机器人或可穿戴设备中,利用具体的视频理解,在日常任务中与人类无缝协作,为下一代具体AI做出贡献。
  • 图表
  • 解决问题
    本论文旨在解决当前视觉语言模型主要关注第三人称视角视频,忽略了自我感知体验的丰富性,提出了一种基于自我感知视频的视觉语言模型,以实现与人类的协作。
  • 关键思路
    本论文的关键思路是提出了一种基于自我感知视频的视觉语言模型AlanaVLM,并使用参数高效的方法在Egocentric Video Understanding Dataset (EVUD)上进行训练,以实现视频字幕和问答任务。该模型在OpenEQA数据集上取得了最先进的性能。
  • 其它亮点
    论文提出了Egocentric Video Understanding Dataset (EVUD)数据集,用于训练基于自我感知视频的视觉语言模型,提出了一种参数高效的方法训练视觉语言模型AlanaVLM,并在OpenEQA数据集上取得了最先进的性能。此外,论文还与其他模型进行了比较,并展示了在空间推理方面超越了GPT-4V。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如Socratic模型、Claude 3、Gemini Pro Vision 1.0、Gemini Pro 1.5和GPT-4V等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论