最近,马毅老师的一篇论文投稿ICML,四位审稿人都认为可以接收,但是被area chair拒绝了,在知乎、微博、朋友圈引起了非常多的关注。应该有不少朋友读过这篇论文了,我也第一时间在微博和朋友圈里看到马老师发的贴子就去拜读读了。这篇文章提出了一种源自信息论的maximizing coding rate reduction理论准则,来理解和指导神经网络的结构设计,马老师称之为理解深度学习的first principle(第一性原理)。

马老师这个事件让我想起了自己之前的一段相似的经历。

第一点相似是,在2014年1月份,我刚加入MSRA半年时间,在MSRA研究的第一个课题恰恰也是神经网络结构的理论解释和自动学习方法。

第二点相似是,当时在这个方向上工作了大约半年的时间,研究结果也写了一篇题为《Learning Structures for Deep Neural Networks》的论文投向 ICML 2014,很不幸,没有被接收。

第三点相似是,敝帚自珍,我们当时和马老师一样是深信这个课题方向的重要意义,以及我们所作的工作是在这个课题方向上有向前走一小步的。

第四点相似是,应该说,我们对这个问题解决的都不能称为彻底,基本停留在“理论猜想”阶段,还不能做到让同行确凿无疑的认可这个理论的有效性,譬如,理论还不能解释深度学习的“所有tricks",而且在这个理论的指导下,还没有发展出能在较大规模的数据集上相对于ad hoc设计的神经网络结构显示出非常明显的优势。

不同的是,在接到这篇文章被拒的信息后,我们选择让这篇文章躺在故纸堆里烂掉(论文发表对学术界同行很重要,perish or publish)。

我们认识到这个问题极其重大,解决起来的难度也极大,当时的各种条件还不成熟,这个问题有可能需要全行业十年乃至数十年才能解决。今天,我觉得把当时的研究结果公布出来也仍有一定的意义。

第一,看到马老师的工作备受关注,也激励我讲一讲这个研究方向的来龙去脉和自己的理解,希望我们当时的研究结果能对那些对这个问题有兴趣的同行有所启发。

第二,这项研究在我职业生涯中具有特别的意义,这是我加入MSRA之后开展的第一个研究课题,而且也是我此前(2008~2011年)在清华做计算神经科学的博士后研究时兴趣的延续。博士后的课题是计算神经科学,用信息论的手段理解生物神经网络(譬如人脑)结构的形成机理。

第三,我们当时做这项研究是投入了极大热情的,我和实习生经常工作到半夜,记得ICML 2014是大年初一截稿,两位实习生潘飞和周春婷放假没有回家,春节期间在实验室做实验和写论文,同事秦涛和铁岩也牺牲假日休息时间,一起写论文。这段时间值得铭记。

最后,这项研究虽然没有结果,但启发了我对大规模计算的关注,引导我走向AI系统的研究,一直到研发OneFlow。我们当时遇到的一个最大的问题就是,要在有较大规模的数据集合上验证这个理论需要的计算量太大,当时还没有分布式深度学习框架,在单张GPU卡上只能在cifar这样的数据集上验证,而且即使当时个别深度学习框架可以做分布式,也只能处理数据并行,而在这个理论指导下的模型参数量极大,必须需要像今天众所周知的,训练GPT-3这样的模型需要的模型并行等技术。

感兴趣的可以继续戳原文阅读完整内容。

内容中包含的图片若涉及版权问题,请及时与我们联系删除