- 简介在视频中暂时定位物体状态的存在对于理解人类活动超越行为和物体是至关重要的。由于物体状态内在的歧义和多样性,这项任务缺乏训练数据。为了避免耗时耗力的注释,从说明视频中的转录叙述中学习将会很有趣。然而,与行为相比,叙述中对物体状态的描述较少,使得它们的效果较差。在这项工作中,我们提出使用大型语言模型(LLMs)从叙述中包含的行为信息中提取物体状态信息。我们的观察是LLMs包含有关行为及其结果物体状态之间关系的世界知识,并且可以从过去的行动序列中推断出物体状态的存在。所提出的基于LLM的框架提供了灵活性,可以针对任意类别生成合理的伪物体状态标签。我们使用我们新收集的包括60个物体状态类别的密集时间注释的“多物体状态转换”(MOST)数据集评估我们的方法。我们通过生成的伪标签训练的模型表现出超过29%的mAP显著改善,比强零样本视觉语言模型更有效,表明了通过LLMs明确提取行为中的物体状态信息的有效性。
- 图表
- 解决问题如何从讲解视频的文本中提取物体状态信息?由于物体状态的多样性和歧义性,缺乏训练数据,这是一个挑战。
- 关键思路利用大型语言模型(LLMs)从讲解视频的文本中提取物体状态信息。LLMs可以从过去的动作序列中推断物体状态信息。
- 其它亮点论文提出了一种基于LLMs的框架,可以灵活生成任意类别的伪物体状态标签。使用新收集的MOST数据集进行评估,模型通过生成的伪标签训练,在mAP方面比强零-shot视觉-语言模型提高了29%以上。
- 最近的相关研究包括使用视觉和语言信息进行时序物体状态识别的工作,以及使用自监督学习进行视频理解的工作。
沙发等你来抢
去评论
评论
沙发等你来抢