华为谢凌曦：关于视觉识别领域发展的个人观点

计算机视觉识别领域的发展如何？华为天才少年谢凌曦分享了万字长文，阐述了个人对其的看法。

最近，我参加了几个高强度的学术活动，包括CCF计算机视觉专委会的闭门研讨会和VALSE线下大会。经过与其他学者的交流，我产生了许多想法，千头万绪，便希望把它们整理下来，供自己和同行们参考。当然，受限于个人的水平和研究范围，文章中一定会存在许多不准确甚至错误的地方，当然也不可能覆盖所有重要的研究方向。我期待与有兴趣的学者们进行交流，以充实这些观点，更好地探讨未来发展方向。

在这篇文章中，我将会着重分析计算机视觉领域，特别是视觉感知（即识别）方向所面临的困难和潜在的研究方向。

相较于针对具体算法的细节改进，我更希望探讨当前算法（尤其是基于深度学习的预训练+微调范式）的局限性和瓶颈，并且由此得出初步的发展性结论，包括哪些问题是重要的、哪些问题是不重要的、哪些方向值得推进、哪些方向的性价比较低等。

在开始之前，我先画出如下思维导图。为了寻找合适的切入点，我将从计算机视觉和自然语言处理（人工智能中两个最受关注的研究方向）的区别开始谈起，引出图像信号的三个根本性质：信息稀疏性、域间差异性、无限粒度性，并将它们与几个重要的研究方向相对应。这样，我们就能更好地了解每个研究方向所处的状态：它已经解决了哪些问题、还有哪些重要的问题没有解决，然后针对性地分析今后的发展趋势。

导图：CV和NLP的差异、CV三大挑战及应对方法

阅读详细内容

内容中包含的图片若涉及版权问题，请及时与我们联系删除

华为谢凌曦：关于视觉识别领域发展的个人观点

评论列表

评论