VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding

简介

最近的研究表明，大型语言模型（LLMs）作为推理模块在将复杂任务分解为更易管理的子任务方面具有有效性，特别是在应用于图像的视觉推理任务时。相比之下，本文介绍了一个基于LLMs推理能力的视频理解和推理框架（VURF）。我们的方法是一种新颖的方法，旨在扩展LLMs在视频任务上的实用性，利用它们从最少的输入和输出演示中推广的能力，在上下文框架内生成可执行的视觉程序以理解视频。通过向LLMs提供指令对及其相应的高级程序，我们利用它们的上下文学习能力来生成视频理解的可执行视觉程序。为了增强程序的准确性和鲁棒性，我们实现了两个重要策略。首先，我们采用一个由GPT-3.5驱动的反馈生成方法来纠正使用不受支持的函数的程序中的错误。其次，受到最近关于LLM输出的自我完善的作品的启发，我们引入了一个迭代过程，通过将初始输出与LLM未受到上下文示例结构限制时生成的输出进行对齐，从而提高了上下文示例的质量。我们在几个视频特定任务上的结果，包括视觉问答，视频预测，姿态估计和多视频问答，说明了这些增强措施在改善视觉编程方法在视频任务中的表现方面的功效。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过利用大型语言模型的推理能力，提出一种基于视频的理解和推理框架，以解决视频任务中的复杂问题。
关键思路

该论文的关键思路是将大型语言模型应用于视频任务中，通过上下文学习能力生成可执行的视觉程序，进而解决视频任务中的问题。
其它亮点

论文使用了反馈生成方法和迭代过程来提高程序的准确性和鲁棒性，实验结果表明该方法在视觉问答、视频预测、姿态估计和多视频问答等任务中表现出色。论文提出的方法具有很高的可扩展性，可以应用于更广泛的视频任务中。
相关研究

在此领域的相关研究中，最近的一些论文包括：《VideoBERT: A Joint Model for Video and Language Representation Learning》、《Learning to Learn from Web Video》和《Video Question Answering via Attribute-Augmented Attention Network Learning》等。

VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding

提问交流

提问交流