给那个可怜的博士生一个研究主题吧。
 
AI崛起十年之后,一些低垂的研究果子能摘的基本都被研究者们摘完了,隐藏在高处的果子一般人很难拿下。现在,很多研究者拔剑四顾心茫然,尤其对刚刚踏入AI领域的博士生,很难找到新的研究突破点,随着深度学习“撞墙”的唱衰声不断,大家也就只好卷各种SOTA了。
 
当然,不少有追求的研究者都在思索和探究,这个领域还有没新鲜、有趣的研究主题?AI的下一个大事件是什么?
 
这种前瞻性的问题一向会给人缥缈的焦虑感,但研究者又不得不去预测和押注。
 

 
先来回望下AI研究的黄金十年里发生的那些标志性事件。2012年,AlexNet一鸣惊人,一举革新了计算机视觉领域,是新一轮深度学习浪潮的首席弄潮儿。
 
生成对抗网络GAN诞生于2014年,来自Ian Goodfellow在一次酒馆聚餐时的灵光乍现,给后来的众多生成模型提供了一种新的训练思路,图灵奖获得者Yann Lecun赞叹,GAN是机器学习近十年来最有意思的想法。
 
2015年,由何恺明等人推出的深度残差网络ResNet在ISLVRC和COCO上横扫所有选手,获得冠军。ResNet在网络结构上做了大创新,而不再是简单的堆积层数,这个新思路也成为深度学习发展历程上里程碑式的事件。毫不夸张地说,目前在计算机视觉领域的很多研究者和工程师的饭碗,都是拜这篇论文所赐。
 
后来,强化学习、Transformers以及现在的扩散模型推动机器学习向前发展。不过,如果拉长时间维度来看,今天的人工智能可能还是处于“真空管”时代,接下来要想进入“晶体管”时代,研究者就要事先对可能有希望推动AI下一个“AlexNet”时刻到来的潜力方向进行大胆探索。
 
那么,到底哪些方向最有潜力?或者哪些是未被充分研究或被低估的AI研究方向?近期,深度学习教父Geoffery Hinton认为,AI的下一个大事件肯定是脉冲神经网络,而图灵奖得主Yann LeCun也指明下一代AI方向是自主机器智能(https://openreview.net/pdf?id=BZ5a1r-kVsf)。
 
Reddit 上不少人对这一问题也进行了热烈讨论,并给出自己对AI研究的期许和预测,其中一些研究想法不妨来看看,也许一不小心会撞到你的枪口上......
 
1、多模态大模型获得了Reddit网友的最高票。实际上,从2020年至今,它都是热门研究领域之一,说明没有被完全低估。
 
值得一提的是,文本/图像表示的第一个非常值得注意的工作之一出现在1990年代初,这个领域的初始实用性的文献已经比较老旧了。
 
网友@maxToTheJ称,多模态大模型可能在未来5-10年成为最热门的研究领域,一方面是可以依靠算力出奇迹,另一方面是确实存在现实需求,而场景需求的推动意味着,它最终会被Meta AI研究实验室或者Google Brain这些大厂研究机构重点关注和投入,他们有人才、有场景、数据和算力,财力雄厚,也是很多类似的前沿技术研究的强力策源地。
 
 
作为大规模模型的一个分支,也有不少人畅想,如果开发出比当下SOTA模型大成百上千倍的模型,简直不敢想能做些什么惊人的事,从而推动领域这个领域向前发展。现在上万亿参数的模型寥寥无几,相比之下,毕竟人脑有大约 1 万亿个突触/连接,这些连接比乘加运算更复杂。
 
值得一提的是,训练大模型也存在“内存墙”瓶颈,单一设备的算力及内存容量,受限于物理定律,持续提高芯片的集成越来越困难,难以满足大模型规模扩大的需要,同时,现有的系统也有较高的计算成本,像OneFlow这类分布式系统就是为此而生。
 
所以某种程度上,深度学习的发展也许还受限于模型规模的量级,目前还是萌芽探索阶段。言外之意就是,大家再摸索摸索,好日子还在后头。
 
2、神经符号 AI 或大规模概念提取。目前发表了一些有趣的论文,@Snekgineer推荐了5篇值得参考的论文:
 
  • From "Where" to "What": Towards Human-Understandable Explanations through Concept Relevance Propagation

  • ECLAD: Extracting Concepts with Local Aggregated Descriptors

  • Towards Automatic Concept-based Explanations

  • On Completeness-aware Concept-Based Explanations in Deep Neural Networks

  • A peek into the reasoning of neural networks: Interpreting with structural visual concepts

 
3、在业界做研究的@ evanthebouncy表示,要弄清楚如何实际情境化/调整预训练基础模型以用于特定用途。我们现在所处的阶段是,这些基础模型对人类的常规惯例具有非常好的“基本理解”,但它们在扩展交互过程中很快会暴露出不足,并且不能适应特定的环境。
 
那么,如何采用通用模型并对其进行调整,以便它们在扩展交互和特定任务中继续易于理解。这项技术将最终使用户能够快速自动执行大量重复性任务,但这不是以简单的脚本/宏(script/macro)就可以解决的方式。
 
 
4、任何不用 MNIST、CIFAR、SVHN 或类似数据集的研究方法。这个想法看起来引发不少人共鸣,但也有人表达了相反看法:努力在MNIST和CIFAR上表现良好的方法就像概念的证明,也可能有巨大的潜力,进一步看,如果这种方法在MNIST上不起作用,那么尝试在一些硬数据集上做工作完全是浪费时间,反之,如果它对MNIST有效,那么至少可能对“现实世界”的数据集也有效。
 
5、神经辐射场NeRF(Neural Radiance Fields)。使用神经场从物理先验中提取标签(也就是用传感器模型从传感器读数进行重建)将是一项巨大的任务。想象一下完全无监督的目标发现和实例分割。它在计算上的成本绝对很高,但都是离线的,并且该方法在每月都在提升效率。而Data hungry的方法将获得更多数据。
 
7、自监督学习。尤其在预训练中,已经进行了一些有趣的发现,比如重建图像或去噪足以学习特征。目前,它在 NLP、计算机视觉中有一些有趣的应用(如Masked Autoencoders方法),但杀手级应用仍未出现,自监督学习还非常不明确。
 
9、大规模终生记忆(Large life-long memories)。即心理学家所说的情景记忆。更普遍的情况是:模型外部的大型数据库,但它可以由模型本身读取和写入。
 
10、因果深度学习。@jgonagle称,他希望看到将RL智能体的适应过程表示为因果过程本身的研究,因为行为最终是对环境和智能体自身认识干预的结果,但现在也不确定如何将这些概念形式化。
 
11、更可靠的机器学习算法,而不仅仅是大型模式匹配统计模型。如果能解决这个问题,让语言模型真正“有感知”,就会为人工智能打开一扇的大门。
 
12、量子机器学习。有人认为量子机器学习是强人工智能的发展方向,尽管这个方向仍处于起步阶段。但有人打赌,在容错量子计算(Fault Tolerant Quantum Computing)可以运行肖尔算法(Shor's Algorithm)处理加密相关的数字之前,将在经典硬件上实现AGI,赌个五美分。当然,如何拥有足够量子比特也是个问题。
 
13、高效的机器学习,即用很少的数据训练模型并获得接近SOTA的结果,以及基于物理信息的机器学习以及神经微分方程。
 
14、其他一些没有给出具体理由但可能带来启发的想法:终身学习(Lifelong-learning)/元学习(Meta-learning);机器学习与形式化方法的融合;跨领域+多任务学习模型......
 
15、看了大家的讨论,想活在当下的躺平族抗议道:我们就不能享受当下吗?!
 
对了,关于如何做研究,Geoffery Hinton还说,如果你知道了一大批聪明人正在研究什么,然后再去做不一样的研究,总是一个好主意。如果你已经在某个领域取得一定的进展,那就不需要其他新的想法,只需要将现有的研究深挖下去就可以成功。
 
如果你恰好上述研究主题都不感兴趣,就想自己找出一条独特的研究路径,也有人也给出可执行的有效建议:如果你缺乏研究主题,只需要开始深入研究应用数据科学,一旦遇到难题,就会有很多话题可供探索。诀窍是,找到需要解决问题的人。
 
你觉得呢?
 
(参考:
https://www.reddit.com/r/MachineLearning/comments/vwdp7n/d_next_big_thing_in_the_field/)
 
其他人都在看
欢迎体验OneFlow v0.8.0:https://github.com/Oneflow-Inc/oneflow/