来自今天的爱可可爱生活AI前沿推介
[CV] What You Say Is What You Show: Visual Narration Detection in Instructional Videos
K Ashutosh, R Girdhar, L Torresani, K Grauman
[Meta AI & UT Austin]
所说即所示:教学视频的视觉叙事检测
要点:
-
提出视觉叙事检测任务和"所说即所示"(WYS^2)方法解决该问题;
-
利用多模态线索和伪标签来学习如何使用弱标记数据来检测视觉叙事;
-
将方法推广到仅操作音频输入,并学习叙述者的声音属性,以指示他们是否正在执行所描述的操作。
一句话总结:
提出"所说即所示"(WYS^2)方法,用于检测教学视频中的视觉叙事,利用多模态线索和伪标签来使用弱标记数据进行学习。 该方法还被推广到仅操作音频输入,并在摘要和对齐任务中展示出最新的性能。
论文链接:https://arxiv.org/abs/2301.02307
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢