Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators

2024年07月20日
  • 简介
    最近的进展引入了多个视觉语言模型(VLMs),在各个领域展示了令人印象深刻的常识推理能力。尽管它们各自具有能力,但是协同这些互补的VLMs的潜力仍未得到充分探索。Cola框架通过展示一个大型语言模型(LLM)如何通过自然语言交流有效地协调多个VLMs,利用它们各自的优势来解决这个问题。我们已经在具有挑战性的A-OKVQA数据集上验证了这一说法,证实了这种协调的有效性。基于此,我们的研究探讨了是否可以将相同的方法应用于监控视频的动作识别中。具体而言,我们探索了当仅呈现少量重要帧和极少的时间信息时,利用VLMs和LLM的综合知识库是否可以有效地从视频中推断出动作。我们的实验表明,当LLM协调不同的VLMs时,可以成功地识别模式并在各种场景中推断出动作,尽管时间信号较弱。然而,我们的研究结果表明,为了将这种方法作为可行的替代方案,整合更强的时间信号并将模型暴露于略多的帧会更有益。
  • 图表
  • 解决问题
    本文旨在探索多个视觉-语言模型(VLMs)之间的协同作用,以提高对监控视频中的行动识别的准确性。研究试图解决如何在仅有少量重要帧和最少的时间信息的情况下,利用VLMs和LLM的知识库有效地推断视频中的行动的问题。
  • 关键思路
    本文提出了一种基于自然语言交流的框架(Cola Framework),通过LLM有效地协调不同的VLMs,以提高监控视频中的行动识别准确性。实验结果表明,LLM可以成功识别模式并在不同的场景中推断行动,但需要更强的时间信号和更多的帧以提高准确性。
  • 其它亮点
    本文的亮点在于提出了一种新的框架来协调不同的VLMs,以提高监控视频中的行动识别准确性。实验结果表明,该框架可以成功地识别模式并在不同的场景中推断行动。该研究使用了A-OKVQA数据集,并提供了开源代码。本文的研究成果可以为监控视频中的行动识别提供新的思路和方法。
  • 相关研究
    最近的相关研究包括使用深度学习方法进行行动识别的研究,以及利用VLMs进行图像和文本之间的联合建模的研究。例如,文章《A Two-Stream Self-Attention Network for Action Recognition》和《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论