导读

2002年,他只身前往澳洲攻读信号处理博士,刚刚入学被告知导师已“跳槽”去了别的大学,被迫切换赛道,却从此与计算机视觉结缘,误打误撞走上了人工智能的研究道路。
彼时,信号处理领域炙手可热,而人工智能以及计算机视觉仍然是十分冷门的方向。对于一个年轻学者来说,切换赛道是一步险棋,同时也是一个机遇,能否抓住机遇决定着此后数十年的发展路径。
与此同时在过去的20年间,计算机视觉研究社区发生了翻天覆地的变化,中国高校论文数量激增,领域进展飞速。一路走来,他乘着计算机视觉的东风,带领学生完成了 FCOS、SOLO 等一系列明星工作,不管外界研究环境如何变化,沈春华一直认为,做研究应该追求「简单而高效」,Simple, but not simpler,往往一个很简单的 idea 便可以化腐朽为神奇。
以FCOS工作为例,他和学生在讨论中发现 anchor box 属于over engineering,于是化繁为简,经过实验证明了不需要 anchor box 也可以很好地实现目标检测。这一思路启发了后续一系列的图像目标检测、实例分割的工作。

随着大模型时代到来,作为高校 CV 科研工作者,他鼓励学生们要创造一切可能,参与大模型相关的研究,同时探索通过利用弱标签数据(weakly annotated data)复现CV 领域的 ChatGPT 时刻的可能性。“我们不能因为没有计算资源就选择‘避开’大模型。既然知道这是最有希望的方向,那一定要坚持并想尽各种办法。”

第16期智源专访,浙江大学求是讲席教授沈春华讲述他的研究故事。以下为专访全文(为方便流畅阅读,笔者进行了不改变原意的编辑)。

 

智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事,本次专访为总第16期。

 

沈春华教授为2024智源大会多模态论坛主席,该论坛汇聚OpenAI、DeepMind、纽约大学等团队代表,即刻扫码注册,参与大会报名。


简介

沈春华,浙江大学求是讲席教授、计算机辅助设计与图形系统全国重点实验室副主任、入选教育部长江学者奖励计划。沈春华本科和硕士均毕业于南京大学,于2005年在阿德莱德大学获得计算机视觉博士学位。2006年至2011年在澳洲国立大学和 National ICT Australia 任职研究员。2011 年回到阿德莱德大学任教,同年入选 Australian Research Council Future Fellowship 人才计划,2014年破格晋升为阿德莱德大学计算机科学系正教授。2021 年底回国全职加入浙江大学。他的谷歌学者引用达71800,H-index 125。 

采访:李梦佳  整理:熊宇轩
误打误撞进入 CV 领域
您一开始是怎么进入到 CV 这个领域,这当中的转折点有哪些?

我本科就读于南京大学强化部,现在的匡亚明学院。我本科的专业并不是计算机,更不是人工智能,当时学的是数学物理。在攻读研究生时,我转到了声信号处理领域,师从徐柏龄教授,从事语音信号处理研究,主要的课题是“说话人识别”,从此与人工智能结缘。

之所以在读研究生时选择信号处理,主要是考虑到将来可能更“好找工作”。实际上,我被阿德莱德大学录取的博士专业也是信号处理。但当我到了阿德莱德之后,之前联系好的导师跳槽去了别的高校,我不得不重新找导师,转到了图像处理和计算机视觉。当时也没有考虑到AI在未来会怎样发展,是“误打误撞”入了这一行。

之后,我去澳洲国立大学工作了五年多。2011 年我回到阿德莱德大学任教,2021年底回国入职浙江大学。这样算来,我从读博士开始,在 CV 这个领域已经有 20 年左右的时间。

现在回过头看,换到人工智能应该是比较正确的。无论是在工业界还是学术界,信号处理技术相对较为成熟,能继续深挖的东西并不多。而 20 年前,人工智能还是一个十分冷门的方向,没有多少人研究 CV 和人工智能。

阿德莱德大学
在您的研究历程中,有哪些工作和学者对您产生了深远影响?
科研工作者始终要关注最前沿的东西。在计算机视觉近些年的发展中,有几个重要的节点。其中,影响最大的应该是 Hinton 在 2012 年发表的 AlexNet。这篇论文发表之后,大部分CV 研究者将研究重点转向了神经网络。而这之前,做神经网络研究的人其实很少。
对我的科研影响最大的学者肯定是我的博士导师 Michael Brooks 和博士后导师 Richard Hartley。他们是我科研的领路人。
您有哪些自己比较喜欢的工作?
到目前为止,我自己比较满意的一个工作是在 ICCV 2019 上发表的「FCOS」,这是我的博士生田值、贺通、陈昊做的一类 anchor- free 的目标检测算法。在该论文中,我们证明了可以在不使用 anchor box 的情况下,以较高的性能完成目标检测,anchor box 是“over engineering”的。此前,几乎所有最先进的目标检测算法都使用了 anchor box,即训练的时候事先定义很多位置、形状、大小不一的目标检测框的模板。如今,大多数最先进的目标检测算法都没有使用 anchor box 了,可以说 FCOS 对这一领域后续的工作产生了一些影响。此外,我也很喜欢王鑫龙以 SOLO 为代表的一系列实例分割相关的工作。这些工作的思路都很简单,但是效果非常好。「简单而高效」的工作一直是我追求的目标之一。这些算法都开源了,有些也被工业界应用到了产品上。

FCOS是在2019 ICCV上最有影响力的论文之一

FCOS的网络架构(论文原文:https://arxiv.org/pdf/1904.01355)

20年CV社区剧变,中国高校论文要先有量变再有质变
这20年来,计算机视觉研究社区发生了怎样的变化?
20 年来,计算机视觉的研究环境发生了翻天覆地的转变。还记得在 2005 年,那是 ICCV 第一次由微软亚洲研究院在我们国家举办,也是至今唯一一次在中国举办。那时,总投稿量大概是 1000 来篇,最终录用了 200 多篇论文。而如今,每届 CVPR、ICCV 大会的投稿近万篇,会议规模扩大了10多倍。与 20 年前相比,CV 领域的热度不可同日而语。

值得一提的是,在 ICCV 2005上,有 30 篇来自中国大陆的论文,其中一半是微软亚洲研究院发表的,也就是说中国高校合计发表了十来篇论文,占总论文数的 6%-7%。而在现在的 CVPR、ICCV 大会上,可能有 30%以上的论文第一单位归属于中国大陆的高校。从论文产出数量上来看,我们高校的进步非常明显,这是一个非常积极的信号。

除了数量的增长,我们发表的高质量论文也在同比增多吗?
是的。比如影响最大的 ResNet 论文就是微软北京发表的。科研有一个从量变到质变的过程,在没有数量的基础上单纯追求只发高质量论文是不现实的。我们承认在论文的质量层面还有很大的提升空间。在论文数量到达一程度后,攻克更高质量的工作确实是现阶段的一个努力的方向。
自监督学习复现 CV 的 ChatGPT 时刻或不可取,弱监督学习更合适
浙大的AI研究团队是怎样的?您回国之后研究方向产生了哪些转变?目前的研究重点是什么?
我们浙大计算机学院有三个全国重点实验室;300多人的科研团队,其中 30%,40% 跟人工智能相关。在AI方向上浙大应该说在全国是名列前茅的。我个人回国后确实科研方向做了比较大的调整。大模型当然是现在最前沿的方向,我们开展了一些 foundation model 方面的工作,与智源研究院也有合作。然后过去两年我开展了新的 AI for Science 的方向。具体的讲,把AI技术应用到计算生物学上解决生物的一些研究问题。去年今年我们在这个方向上陆续有一些成果发表。
分享一下您最近在大模型方面的研究进展,以及未来的研究愿景?

和许多 CV 工作者类似,我们也希望在多模态上复现 ChatGPT 的成功。ChatGPT 和 LLM 之所以能成功,关键在于用海量的无标签数据,通过自监督的方式训练大模型,即自回归地预测下一个 token。我们希望也可以在视频和图像上实现这样的范式,到目前为止,CV领域的研究者做了很多尝试,但是进展十分有限,并没有出现类似自然语言处理的 Scaling Law。

究其原因,也许是因为人类的文字信号本身已经经过了凝练,包含人的因素。而想要将 GPT 自监督的训练模式复制到 CV 领域则不一定行的通。考虑到监督信号的获取,我们可以通过弱监督学习的方式来训练多模态大模型,例如:通过图像级(image level)的标注实现像素级(pixel level)的视觉任务,比如图像分割任务。在过去几年里,我们团队一直在从事相关的研究,未来也会一直做下去。

在大模型时代,如何看待传统的 CV 研究?是否与大模型有结合的空间?

以多视角几何相关为例,有些研究者也试着将其与深度学习集合,在某些场景下取得了更好的效果。除了感知,许多 CV 其它的方向也都转向了深度学习,例如一些底层视觉图像处理的工作。

视觉基础模型或者多模态大模型在我看来肯定是下面几年CV最重要的方向之一。目前我看不到 CV 领域有什么技术能够取代深度学习。

高校CV研究:不能因为计算资源就先就避开大模型,要坚持最有希望的方向
Sora 出现后,许多团队都加入了研究多模态模型的行列。如何看待这个现象?高校的科研团队如何突出自身差异化的优势?

多模态大模型是当下的趋势。我主要关注的多模态大模型指的是实现文字、图像、视频感知(perception)任务的大模型。大部分视觉感知任务都可以看作是多模态感知的特例。相较之下,在多模态感知场景中,我们还可以利用语言大模型的一些能力。就好比人类可以通过常识判断「天空中出现汽车」是违反自然规律的。这样的关于我们的这个世界的知识很难单纯通过图片学到。毋庸置疑,多模态大模型能够提供更好的性能。

至于Sora,文生视频效果惊艳,是 Scaling Law 的成功例子。但因为算力和数据的问题,并非所有团队都能够从头做这样的事情,也不需要。根据 OpenAI 发布的公开信息,Sora 主要是大数据和大算力的成功。高校并不具备这样的资源,我们团队也在做一些文生视频的工作,但更多是从算法层面进行一些创新,更多的是关注 video to video 的编辑任务。我们没有办法与 OpenAI 这样的公司硬碰硬地竞争,这不现实也不理智。

但高校仍然也有很多研究任务可以做。例如,图像编辑、视频编辑,这些任务和文生图文生视频紧密相关。近年来的很多论文都是在Stable Diffusion、Llama 3这样的开源大模型基础上做进一步的研究。在很长一段时间内,在开源大模型上展开研究工作会成为一种较为普遍的状态。我们不能因为没有计算资源就选择“避开”大模型。既然明明知道这是最有希望的方向,仍要坚持并想尽各种办法。

为了解决算力问题,我们也一直在寻求与工业界的合作。学术界出人,工业界出算力。

沈春华教授在实验室
对青年学者来说,如何在算力有限的情况下找到最有价值的研究问题?

我一直跟我的学生强调,在选题的时候要从两个方面去思考:(1)真正原创性的研究。这类研究可能会带来比较大的影响;这是 CV 作为 Science 的一面。这个很难。或者,(2)真正解决算法落地的问题,也就是解决 CV 偏 engineering 的问题。能做到其中一点在我看来就是好工作。

在与工业界合作的过程中,我们可以洞悉他们的实际需求。例如,在牺牲尽可能小的精度的情况下,降低计算量,将算法部署在低功耗的设备上。即使算法本身没有太大的创新,但是如果能解决工业界的痛点,也非常有价值。在当下的大数据、大模型时代,学术界做的很多模型可以让工业界更为容易地使用。这是当下的趋势。

我们做研究,并不只是为了论文发表。一些审稿人会认为论文的创新性是排在第一位的,但我个人并不这么看。创新性(Novelty)和贡献(Contribution)的概念不应被混淆,创新性只是贡献的一种类型,贡献还包含其它的东西。但是很遗憾,很多审稿人会直接以创新性不足为理由拒稿,也许这是最容易用来拒稿的理由。

您对目前审稿机制存在的问题有何看法?
目前的审稿机制存在很大问题,至今也没有一个真正成功的审稿机制。尽管互联网技术已经发展到现在的地步,但是论文发表的审稿机制、论文发表的系统竟然与一两百年前没有任何差别,这是一件很荒谬的事情。

其实大部分研究者都看到了这个问题,特别是在 AI 领域,大家也进行了一些尝试,例如:OpenReview 等网站可以公开审稿人对论文的评价和打分,但是目前为止对审稿人信息仍采取匿名化处理。

最重要的是,所有参与审稿的人,必须有一个职业底线。现在很多审稿人不负责任,审稿意见的偏差非常大。因为投稿数太多,我们很难控制审稿的质量,很难找到足够多的负责的审稿人。也许 OpenReview 可以考虑公开审稿人的身份,这样审稿人也许就会更加负责一些,不会胡乱写审稿意见。

您在人才培养方面有什么心得?
我比较幸运,遇到很多优秀的学生。在过去几年,我指导过的博士生博士后当中,有 10 余人入选了国家级(青年)人才计划。我觉得对于优秀的能力强的学生,导师不要过多限制,给他们足够的自由,自己去探索。我有一个感触。在我指导过的学生里,科研做得好的学生都是敢于和我争论的。讨论的时候,他们会直接跟我说,你的 idea 不对、你的 idea 没有价值。学生一定要有挑战的胆量。学生和导师是互相成就的合作关系。
2024 智源大会多模态大模型论坛,沈老师有话说
您预期今年智源大会的多模态大模型论坛会着重讨论哪些 CV 领域未来发展的问题?
在多模态大模型领域,数据的获取也许会成为比算法、算力更重要的因素。大规模的高质量数据会越来越重要,数据的获取值得探讨。在今年的论坛上,我们也会从算法层面上展开讨论,尤其是感知模型。此外,对文字、图像等不同模态的模型之间的协同训练、单独训练等范式的优缺点仍没有定论,这些都值得研究者们聚在一起,分享各自的研究成果,共同探讨未来的发展道路。

更多内容 尽在智源社区

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除