转自:深度学习与图网络

 

"MAE版的图神经网络,你在路上了吗?"

 

大道至简,CV大神何恺明又出力作!近期一篇由何恺明领衔一作的论文《Masked Autoencoders Are Scalable Vision Learners》成为了计算机视觉圈的热门话题。MAE模型将NLP领域大获成功的自监督预训练模式用在了计算机视觉任务上,效果拔群,在NLP和CV两大领域间搭建起了一座更简便的桥梁。目前在知乎上的热度还在增长!本文简要总结了这篇文章的具体结构和效果,最后附上部分精彩观点!

 

论文地址:

https://arxiv.org/abs/2111.06377

 

MAE模型结构与实现

本文提出的MAE架构如下:

论文结果展示

 

知乎部分精彩观点汇

作者:胡瀚 微软亚洲研究院
链接:https://www.zhihu.com/question/498364155/answer/2220565690

 

趁着写论文的间歇来写个回答,讲几个感想:

1. 除了idea和实验方面的天赋,还想说恺明对于技术趋势的敏锐性和革命前夕的神准把握方面实在太牛了。一直觉得创新本身不是最重要的,更重要的是带来改变领域走向的理解或者技术,恺明这篇论文无疑是会达到这一成就的,MoCo和Mask R-CNN也是如此,大巧无工,但真的改变了领域。

 

2. 过去我们过于看重linear probe这个指标,MAE无疑会改变这一现状,以及让我们重新去看待contrastive learning和mask image modeling的未来。很巧的是,一年前,我们NLC组的同事Hangbo Gao、 @董力 以及韦福如和我们提到要做和MAE类似路线的方法:BEIT,那时还觉得这个路线的方法学到的特征会太low-level,没想到半年后他们居然搞出来了,结果非常惊艳,事实上也改变了我的认知。MAE这个工作无疑也会让BEIT也大火起来, 尽管过去4、5个月BEIT其实在小范围内已经很受关注,但它受到的关注显然小于它实际的贡献。恺明大神这次的论文,让这个方向工作的重要性得到了应有的证明。

 

 

https://ancientmooner.github.io/doc/self-supervised-learning-cv-valse.pdf

 

3. 看到恺明Intro里的一句话:”The idea of masked autoencoders, a form of more general denoising autoencoders [48], is natural and applicable in computer vision as well. Indeed, closely related research in vision [49, 39] preceded BERT.” 要特别赞一下这句话,其实也是有共鸣的,今年在RACV上讲了一个态度比较鲜明(或者极端吧。。)的talk,说要“重建CV人的文化自信”,就拿它作为其中一个例子:Mask Image Modeling或者视觉里叫Inpainting的方法在CV里做的蛮早的,在BERT之前就已经有一些。

 

 

RACV2021观点集锦 | 视觉transformer 从主干encoder 到任务decoder: 现状与趋势 (qq.com)

 

4. 想再次感叹一下,CV和NLP以及更多领域的融合看来真的是大势所驱了,希望不同领域的人多多合作,一起来搞事情。前几天见到董力和福如,他们提到有个多模态的工作因为挂了Arxiv不能投ACL了,我提议他们投CVPR,不晓得他们最后是什么决定。无论如何,CV的会议是很开放和包容的,理论的、偏工程的、交叉的、基于toy data做的,只要有点意思都有机会被接收,相信这也是CV领域能够长期这么繁荣的重要原因之一。在AI各个子领域技术趋同的背景下,它们之间的联系和跨界也会越来越紧密,这正是CV这个社区体现开放和包容心态的时候,吸引更多NLP的同仁们加入CV或者交叉研究中,以及我们自己去尝试给其他AI子领域进行贡献的时候,最终的目标就是和各个领域一起共舞,共同推进AI的进展。

 

 

作者:田永龙
链接:https://www.zhihu.com/question/498364155/answer/2220207439

我一般判断看一篇方法类文章将来是否有影响力从下面三个角度(重要程度依次递减):

 

(1) 惊人程度,Surprise

研究的目的就是探索前人不知道的知识,挖掘新的信息。我认为MAE在这点上很棒,它告诉了我直接reconstruct image原图也可以做到很work,这改变了我们绝大多数人的认知(之前iGPT没有很work; 其他答案提的BEIT也并不是reconstruct原图,而是reconstruct feature)。

 

在NLP reconstruct效果很好是因为文字本身就是highly semantic,所以模型预测的目标信息量大,而噪音小; 图片相比而言语意信息密度低,如果模型要完全预测对目标的话就要浪费capacity去model那些不重要的玩意儿。因此我一直觉得reconstruction这个学习目标不太对。

 

但这篇文章似乎是换了种方式来解决这个问题(个人偏见),就是压根就没想让模型完全恢复原图,MAE只输入很少的patch,那无论如何也恢复不了原图。同时我们都知道,相比高频信号而言,神经网络更擅长抓住低频的信号。高频是局部细节,低频更多是high level semantics。所以netwok最后可能以fit低频信号为主学到了high-level feature? 论文里面的visualization看起来也比较契合。

 

以前CovNets时代做不了,如果把mask的图丢给convnet,artifacts太大了,预训练时候模型时既得费劲入管mask out掉的region,预训练完了后还造成了跟后面完整图片的domain gap,吃力不讨好,我之前用convnet试过这种mask patch的相关的东西,结果乱七八糟的不work。但MAE里Transformer可以很好避开这个坑,太妙了。我的导师也评价说我们AI的ecosystem一直在变,所以方法的有效性和相对优越性也在evolve,不是一层不变的。

 

还有一个小点是MAE也让我学到了linear acc和fine-running acc可以完全uncorrelated甚至反过来。之前就看到有论文讨论linear和fine-tuning关联并不强,但没想到能差别这么大。以后的evaluation都得变了⋯⋯看来做实验不能盲目follow之前的metric了…

 

(2) 简单性 simplicity

这篇文章非常idea非常简单,实现起来也快捷,有趣的是文章里面一个公式都没放哈哈。我受导师的影响,认为在保持核心idea不变的情况下,或者说surpriseness不变的情况下,我们应该最小化系统的复杂度。因为越简单,也会愈发凸显惊讶程度。害,说起来我最开始接触科研老想着瞎加玩意儿,即使现在也经常做加法而不是减法,确实比较菜…

 

(3) 通用性 generality

其实(2)和(3)我也不确信哪个更重要,有时候(2)和(3)也相辅相成,越简单越通用。无疑MAE在(3)也做的很棒,几乎影响所有vision里面的recognition类别的任务,不过这也是做representation learning这方向的好处…死磕基础问题。

所以,综合这几点我觉得无疑是visual representation learning今年最有影响力的文章…像这种能改变我的认知,启发我更多思考的文章,对我来说就是好的novel的。novelty应该不只是technical这个维度…

 

P.S. 看到有个答案说KM的研究品味不高,我完全不敢同意,每个人喜好做不同类型的工作罢了,在做方法算法这块,KM的的品味绝对是最top的,传闻就有做graphics的很solid的教授评价他: whatever this guy touches become gold。当然如果不是方法类的研究,而是要做一件从0到1的事,或者挖坑带领大家前进,那影响力就不能从这三个标准来看了,得看vision了

 

参考资料:

https://arxiv.org/abs/2111.06377

https://www.zhihu.com/question/498364155/answers/updated

https://www.zhihu.com/question/498364155/answer/2219622610

 

 

作者:田柯宇
链接:https://www.zhihu.com/question/498364155/answer/2219887558
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

属于是一个不错的 learning algorithm 工作。是把古早的 pixel-level inpainting[1]在自监督 (ssl) 上又做成功了. 这件事情:

 

(1)反常识。图像这种2d信号本身高维、连续、高不确定性、低语义密度,看起来 pixel reconstruction 并不会是好的 pretext-task,BEiT[2]也验证了 pixel reconstruction 相比 discrete token prediction 更难学好,iGPT[3]的性能也体现了这一点,audio 模态也有类似做 vector-quantized[4]来避免直接重建信号而是去 token prediction 的做法。但这篇 MAE 就是直接重建原始 pixel 而且是用的 MSE 来优化。

 

(2)大势所趋。最近爆火的 contrastive learning 存在过度依赖 augmentation 的固有问题被渐渐挖出[5][6][7],而比较优雅的、在 nlp 领域全面开花的 generative ssl 在 vision 上却一直处于“低估/未被充分探索”的状态(可能原因之一是对 linear probe classification 过于看重,所以 contrastive 这种鼓励学全局语义的 discriminative ssl 就容易发挥优势)。那么众望所归的大势,就可能是让一种比 contrastive learning 更通用的 ssl 方式一扫视觉领域。

(3)开了新坑。比如高 mask rate + MSE loss 意味着什么?比如用上图像数据存在很多天然 augmentation 的优势会不会更好?在出现真正横扫视觉领域的 ssl 之前,这里还有很多新路要走。MAE 的价值在于把视角重新引导回 generative,把对 contrastive 可能存在的过多偏爱给拨正。

 

先摆明立场:

非常期待非 contrastive learning 的 ssl 方式在视觉领域的突破性进展(也算是轮回了)。

 

同时要辩证看待。“造神”的一些言论确实稍过了。另外虽然这篇完全不能和 resnet 这样的工作比,个人也不赞同“认为 BEiT/MAE 是 BERT 的机械搬运”的观点。能把一个大胆的想法/一个无现成解法的问题做work(远超 iGPT,linear probe 和 finetune 都很高),本身也是 solid 的体现,其中应该也包含了有价值的insight和细节处理可以挖(实际 BERT 在 nlp 也不是第一个做 biLM 的工作,但的确是方案最成熟,也是时间见证了最有 impact 的那一支工作)。期待后续这类工作的原因分析和拓展。

 

具体 comments:

一直觉得近期的 augmentation-based contrastive learning 并不是 ssl for vision 最优雅的方式:

 

  • 虽然这波方法用上了图像数据上有良好先验的 data augmentation 这个文本数据没有的超大优势,但似乎用的太过,导致存在一个很大的固有问题:本质是学了一堆 transformation-invariant 的 representation. 而要判断用哪些 augmentation 是好的,i.e. 要判断让模型学到什么样的 transformation invariance 是好的,本身就依赖于要知道下游任务具体要干什么(比如下游任务如果认为颜色语义很重要,那么 color-based augmentation 就不应该用在 pretrain 中),导致“要想上游 pretrain 得好,就得先知道下游任务需要哪些语义信息”的奇怪尴尬局面。

  • 这个问题在[5]中也有指出。另外最近一些工作[6][7]似乎也在尝试让 contrastive learning 不仅仅只学 invariance(例如同时保持对各种 transformation 的 variant 和 invariant,从而让下游自己去挑选),以期望得到一个更 general 的 ssl algorithm.

 

其实早些阵子的 vision ssl,pretext-task 很五花八门,主要是一些 discriminative(rotation degree prediction,location prediction,jigsaw,etc.)和 generative(inpainting[1])的方法。个人认为 generative 还是更优雅一些,也更接近 self-supervised 的本质:pretend there is a part of the input you don't know and predict that(LeCun's talk[8]).

 

但图像数据相比文本数据天然有更弱的语义性/语义密度、更强的连续性和不确定性,导致 pixel-level inpainting 一直被认为难做到像 BERT 那样的惊艳效果。再加上在 vision 大家都很关注的 linear probe setting,又天然不利于 generative ssl 施展拳脚,就导致了现在 contrastive learning 大行其道、非 contrastive learning 被冷落的局面。

 

也许有人会 argue 说是因为早期 inpainting ssl 使用的模型太弱。但最近的 ViT[9],SiT[10],iGPT[3],甚至是 BEiT[2] 的 ablation,也说明了即便用上了先进的 ViT,探索一条不是 contrastive learning 的 ssl 道路仍然是艰难的。

 

所以,现在看到 BEiT、MAE 这样的工作,真的很欣慰。期待后续更多追溯原因和更深层解读的 paper。也希望 visual represent learning 能走的更好,感觉一组很强的 pretrained vision model 带来的社会价值真的很高。另外,有一些点真的很有意思,例如 BEiT 似乎体现了用 dVAE 去 tokenize 可以一定程度上缓解 pixel-level 带来的高连续性和不确定性的问题(这是二维信号图像;对于一维信号audio,vq-wav2vec[4]也给了类似 tokenize 做法),但 MAE 发现 tokenize 是没有必要的,而且用 MSE 学就够了。所以后续也会 post 上一些详细解读的笔记,简单梳理一下 vision ssl 然后重点理解探讨下 BEiT 和 MAE,包括 coding 细节,希望能和大家多多交流~

 

参考

  1. ^ab【inpainting】Pathak, Deepak, et al. "Context encoders: Feature learning by inpainting." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. https://openaccess.thecvf.com/content_cvpr_2016/papers/Pathak_Context_Encoders_Feature_CVPR_2016_paper.pdf

  2. ^ab【BEiT】Bao, Hangbo, Li Dong, and Furu Wei. "BEiT: BERT Pre-Training of Image Transformers." arXiv preprint arXiv:2106.08254 (2021). https://arxiv.org/abs/2106.08254

  3. ^ab【iGPT】Chen, Mark, et al. "Generative pretraining from pixels." International Conference on Machine Learning. PMLR, 2020. http://proceedings.mlr.press/v119/chen20s/chen20s.pdf

  4. ^ab【vq-wav2vec】Baevski, Alexei, Steffen Schneider, and Michael Auli. "vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations." International Conference on Learning Representations. 2019. https://openreview.net/pdf?id=rylwJxrYDS

  5. ^ab【InfoMin】Tian, Yonglong, et al. "What makes for good views for contrastive learning?." arXiv preprint arXiv:2005.10243 (2020). https://arxiv.org/abs/2005.10243

  6. ^abXiao, Tete, et al. "What should not be contrastive in contrastive learning." arXiv preprint arXiv:2008.05659 (2020). https://arxiv.org/abs/2008.05659

  7. ^abDangovski, Rumen, et al. "Equivariant Contrastive Learning." arXiv preprint arXiv:2111.00899 (2021). https://arxiv.org/abs/2111.00899

  8. ^Self-Supervised Learning. AAAI-20/IAAI-20/EAAI-20 Invited Speaker Program. Yann Lecun. https://drive.google.com/file/d/1r-mDL4IX_hzZLDBKp8_e8VZqD7fOzBkF/view

  9. ^【ViT】Dosovitskiy, Alexey, et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." International Conference on Learning Representations. 2020. https://arxiv.org/abs/2010.11929

  10. ^【SiT】Atito, Sara, Muhammad Awais, and Josef Kittler. "Sit: Self-supervised vision transformer." arXiv preprint arXiv:2104.03602 (2021). https://arxiv.org/abs/2104.03602

内容中包含的图片若涉及版权问题,请及时与我们联系删除