转自知乎用户:许志钦(上海交大副教授)
作者注记
我是2017年11月开始接触深度学习,至今刚好五年。2019年10月入职上海交大,至今三年,刚好第一阶段考核。2022年8月19号,我在第一届中国机器学习与科学应用大会做大会报告,总结这五年的研究以及展望未来的方向。本文是该报告里关于理论方面的研究总结(做了一点扩展)。报告视频链接可以见:https://www.bilibili.com/video/BV1eB4y1z7tL/
我理解的深度学习
我原本是研究计算神经科学的,研究的内容,宏观来讲是从数学的角度理解大脑工作的原理,具体来说,我的研究是处理高维的神经元网络产生的脉冲数据,尝试去理解这些信号是如何处理输入的信号。但大脑过于复杂,维度也过于高,我们普通大脑有一千亿左右个神经元,每个神经元还和成千上万个其它神经元有信号传递,我对处理这类数据并没有太多信心,那阶段也刚好读到一篇文章,大意是把现阶段计算神经科学的研究方法用来研究计算机的芯片,结论是这些方法并不能帮助我们理解芯片的工作原理。另一个让我觉得非常难受的地方是我们不仅对大脑了解很少,还非常难以获得大脑的数据。于是,我们当时思考,能否寻找一个简单的网络模型,能够实现复杂的功能,同时我们对它的理解也很少的例子,我们通过研究它来启发我们对大脑的研究。当时是2017年底,深度学习已经非常流行,特别是我的同学已经接触深度学习一段时间,所以我们迅速了解到深度学习。其结构和训练看起来足够简单,但能力不凡,而且与其相关的理论正处在萌芽阶段。因此,我进入深度学习的第一个想法是把它当作研究大脑的简单模型。显然,在这种“类脑研究”的定位下,我们关心的是深度学习的基础研究。这里,我想区分深度学习的“理论”和“基础研究”。我认为“理论”给人一种全是公式和证明的感觉。而“基础研究”的范围听起来会更广阔一些,它不仅可以包括“理论”,还可以是一些重要的现象,直观的解释,定律,经验原则等等。这种区分只是一种感性的区分,实际上,我们在谈论它们的时候,并不真正做这么细致的区分。尽管是以深度学习为模型,来研究大脑为何会有如此复杂的学习能力,但大脑和深度学习还是有明显的差异。而我从知识储备、能力和时间上来看,都很难同时在这两个目前看起来距离仍然很大的领域同时深入。于是我选择全面转向深度学习,研究的问题是,深度学习作为一个算法,它有什么样的特征。“没有免费的午餐”的定理告诉我们,当考虑所有可能的数据集的平均性能时,所有算法都是等价的,也就是没有哪一种算法是万能的。我们需要厘清深度学习这类算法适用于什么数据,以及不适用于什么数据。事实上,深度学习理论并不是处于萌芽阶段,从上世纪中叶,它刚开始发展的时候,相关的理论就已经开始了,也有过一些重要的结果,但整体上来说,它仍然处于初级阶段。对我而言,这更是一个非常困难的问题。于是,我转而把深度学习当作一种“玩具”,通过调整各类超参数和不同的任务,观察它会产生哪些“自然现象”。设定的目标也不再高大上,而是有趣即可,发现有趣的现象,然后解释它,也许还可以用它来指导实际应用。在上面这些认识下,我们从深度神经网络训练中的一些有趣的现象开始。于我个人,我是从头开始学习写python和tensorflow,更具体是,从网上找了几份代码,边抄边理解。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢