作者:Jie Jiang, Zhimin Li, Jiangfeng Xiong, 等
简介:近年来,公共基准测试极大地推进了时间视频分割和分类。然而,此类研究仍然主要关注人类行为,未能从整体角度描述视频。此外,以往的研究往往过于关注视觉信息,而忽略了视频的多模态特性。为了填补这一空白,作者在广告领域构建了腾讯“广告视频分割”~(TAVS) 数据集,将多模态视频分析提升到一个新的水平。TAVS从“呈现形式”、“地点”和“风格”三个独立的角度描述视频,包含丰富的视频、音频和文本等多模态信息。TAVS 在语义方面按层次组织,用于综合时间视频分割,具有用于多标签分类的三个级别类别,例如,“地点”-“工作地点”-“办公室”。因此,由于其多模态信息、类别的整体视图和层次粒度,TAVS 有别于以往的时间分割数据集。它包括 12,000 个视频、82 个类别、33,900 个片段、121,100 个镜头和 168,500 个标签。与 TAVS 一起,作者还提出了一个强大的多模式视频分割基线和多标签类别预测。进行了广泛的实验来评估作者提出的方法以及现有的代表性方法,以揭示作者的数据集 TAVS 的关键挑战。
论文下载:https://arxiv.org/pdf/2212.04700.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢