标题:UIUC、微软、UNC、哥大|Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners(具有图像描述符的语言模型很强少样本视频语言学习

作者:Zhenhailong Wang , Manling Li,Heng Ji等

简介:本文介绍了构建灵活的视频语言模型。这些模型可以从几个示例中推广到各种视频到文本的任务,例如特定于域的任务:字幕、问答和未来事件预测。现有的小样本视频语言学习者只关注编码器,导致缺席的视频到文本解码器来处理生成任务。作者提出了VidIL,在少量视频到文本任务上表现出强大的性能无需对任何视频数据集进行预训练或微调。作者使用图像语言模型,用于将视频内容转换为帧标题,对象,属性和事件短语,并将它们组合成时态结构模板。然后,作者指导一个语言模型,并带有一个包含一些上下文的提示、示例,从组合内容生成目标输出。灵活性提示允许模型捕获任何形式的文本输入。作者的实验证明了语言模型在理解各种视频语言任务上的视频,包括视频字幕、视频问答、视频字幕检索,以及视频未来事件预测。

代码下载:https://github.com/MikeWangWZHL/VidIL

论文下载:https://arxiv.org/pdf/2205.10747v2.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除