论文标题:What Is Considered Complete for Visual Recognition?
论文链接:https://arxiv.org/abs/2105.13978
作者单位:华为
这里的"完整"是指识别人类可以识别的一切,本文提出一种名为“learning-by-compression”的新型预训练任务,希望能够激发社区追求compression-recovery的权衡而不是精度-复杂度的权衡!
这是一篇意见书。我们希望传达一个关键信息,即当前的视觉识别系统远未完整,即识别人类可以识别的一切,而且通过不断增加人类注释来弥补差距的可能性很小。 基于观察,我们提出一种名为“learning-by-compression”的新型预训练任务。 计算模型(例如,深度网络)经过优化以使用紧凑特征来表示视觉数据,并且这些特征保留了恢复原始数据的能力。语义注释在可用时扮演弱监督的角色。一个重要但具有挑战性的问题是图像恢复的评估,我们提出了一些设计原则和未来的研究方向。 我们希望我们的建议能够激发社区追求compression-recovery的权衡而不是精度-复杂度的权衡。

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢