Scientific discovery in the age of artificial intelligence

Hanchen Wang, Tianfan Fu, Yuanqi Du, Wenhao Gao, Kexin Huang, Ziming Liu, Payal Chandak, Shengchao Liu, Peter Van Katwyk, Andreea Deac, Anima Anandkumar, Karianne Bergen, Carla P. Gomes, Shirley Ho, Pushmeet Kohli, Joan Lasenby, Jure Leskovec, Tie-Yan Liu, Arjun Manrai, Debora Marks, Bharath Ramsundar, Le Song, Jimeng Sun, Jian Tang
[University of Cambridge & Georgia Institute of Technology & Cornell University & MIT & …]

论文地址:https://mp.weixin.qq.com/s/3VF7M2rujATFVYHqTLCt2w 

人工智能时代科学发现

探讨过去十年来人工智能(AI)在科学研究中取得的突破,包括自监督学习和几何深度学习等方法,这些方法有助于加速科学发现和解决科学领域的中心问题。

介绍了几个重要的人工智能方法,包括自监督学习和几何深度学习,以及生成式人工智能方法,这些方法可以用于加速科学研究,生成设计如小分子药物和蛋白质等,同时解决了一些科学研究中的核心问题。
指出AI系统能够为科学研究提供洞察和理解,使得一些无法通过传统方法观测和探测的过程和对象得以研究,同时通过构建模型并与模拟和可扩展计算相结合,能够系统地启发科学研究。但是在使用AI时需要解决安全和可靠性问题,确保其贡献科学研究的同时也最大限度地减少风险。

介绍了人工智能在科学研究中的应用,探讨了自监督学习、几何深度学习和生成式人工智能等方法在加速科学发现和解决核心问题方面的潜力。 

https://nature.com/articles/s41586-023-06221-2 


图片

AI辅助的科研数据收集与整理

Selection. 一个典型的粒子碰撞实验每秒钟能产生超过100 TB的数据量,而其中超过99.99%的原始数据实际上是需要实时识别并舍弃的背景噪音,目的是为了保留那些稀有且含有有价值信息的数据。一种常见的处理策略是利用异常检测(Anomaly Detection)算法,将这些稀有事件视为异常数据进行识别并保存。这种思路在物理学、神经科学、地球科学、海洋学以及天文学等领域都得到了广泛的应用;
Annotation. 训练有监督的模型需要依赖带有标签的数据集,然而对于生物学、医学等实验性学科来说,生成大量准确标签的数据集既耗时又耗力。伪标签法(Pseudo Labelling)和标签传播法(Label Propagation)因此成为了优秀的替代方案,它们允许在只有少量准确注释的大型无标签数据集上进行自动注释。此外,主动学习(Active Learning)可以帮助我们确定最有必要进行实验标注的数据点,从而进一步降低成本。另一种数据注解策略则是借助专业领域知识来制定标签规则,如Data Programming (NeurIPS '22) 和Snorkel (VLDB '17) 等;
Generation. 通常来说,AI的性能随着训练数据集的质量、多样性和规模的提高而提高。通过自动数据增强(AutoAugment)和深度生成模型(Deep Generative AI)生成额外的合成数据点,以扩充训练数据集,是创建更好模型的一种有效方法。除了手动设计之外,强化学习方法(Reinforcement Learning)还可以发现一种自动数据增强的策略,这种策略既灵活又不依赖于下游任务。举例来说,生成对抗网络(Generative Adversatial Netowrk)已被证明对科学图像有益,它们可以在多个领域中生成逼真且有用的数据,从粒子碰撞事件、病理切片、胸部X光、磁共振对比、三维材料微结构、蛋白质功能到基因序列;
Refinement. 高精度的仪器,如超高分辨率激光器和无创显微系统,可以直接或间接测量物理量,得到非常精确的结果。AI则能够进一步提高了测量分辨率,减少噪声,并减小测量精度的误差,使之具有一致性。具体例子比如黑洞成像、捕捉物理粒子碰撞、提高活细胞图像的分辨率,以及细胞类型检测。
Deep Learning能够在多层次上提取科学数据的meaningful representation,并优化这些表示以指导研究。好的Representation应该尽可能地保留数据的信息,同时simple, accessible, compact, discriminative, and disentangle。在文中,我们简单了介绍几种策略:几何深度学习(Geometric deep learning),自监督学习(Self-Supervised Learning),语言模型(Language Modelling)和神经算子(Neural Operators),此处就不赘述了。

图片

AI for Science中Representation Learning常见的几种策略

基于AI的科学假设生成AI-based generation of scientific hypotheses

 • Black-box predictors of scientific hypotheses

 • Navigating combinatorial hypothesis spaces

 • Optimizing differentiable hypothesis spaces

图片

AI帮助科学假设检验的几种常见模式

AI驱动的实验和模拟AI-driven experimentation and simulation
 • Efficient evaluation of scientific hypotheses
 • Deducing observables from hypotheses using simulations

图片

AI指导科学实验的几个常见例子

内容中包含的图片若涉及版权问题,请及时与我们联系删除