我们提出了一个通用的图像建模框架,基于概率帧预测的视觉任务。我们的方法统一了广泛的任务,从图像分割到新颖的视图合成和视频插值。我们将此框架与我们称为 Transframer 的架构配对,该架构使用 U-Net 和 Transformer 组件来调节带注释的上下文帧,并输出序列稀疏、压缩的图像特征。 Transframer 是最先进的在各种视频生成基准上,与在少样本视图合成方面最强的模型,并且可以从单个图像生成连贯的 30 秒视频,而无需任何明确的几何信息。单个多面手 Transframer 同时产生在 8 个任务上取得有希望的结果,包括语义分割、图像没有特定任务的架构组件的分类和光流预测,证明多任务计算机视觉可以使用概率图像模型来解决。我们的方法原则上可以应用于需要学习带标注的图像格式数据的条件结构。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢