
视频语言(VidL)建模的一个巨大挑战在于,从图像/视频理解模型提取的固定视频表示与下游VidL数据之间的脱节 。最近的研究试图通过端到端的训练来解决这个问题。为了使其在计算上可行,先前的工作倾向于“图像化 ”视频输入,即,将少量稀疏采样的帧送入2D CNN,然后进行简单的平均池化或合并以获得整体视频表示。虽然取得了不错的结果,但这种简单的方法可能会丢失执行下游VidL任务所必需的时间信息。
内容中包含的图片若涉及版权问题,请及时与我们联系删除

视频语言(VidL)建模的一个巨大挑战在于,从图像/视频理解模型提取的固定视频表示与下游VidL数据之间的脱节 。最近的研究试图通过端到端的训练来解决这个问题。为了使其在计算上可行,先前的工作倾向于“图像化 ”视频输入,即,将少量稀疏采样的帧送入2D CNN,然后进行简单的平均池化或合并以获得整体视频表示。虽然取得了不错的结果,但这种简单的方法可能会丢失执行下游VidL任务所必需的时间信息。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
沙发等你来抢
评论
沙发等你来抢