下载链接:

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1009803

 

机器学习是解决问题和任务自动化的一种现代方法。特别是,机器学习关注的是能够识别数据中的模式并将其用于预测建模的算法的开发和应用,而不是让领域专家手工开发预测任务的规则。人工神经网络是一类特殊的机器学习算法和模型,演变成了现在所说的“深度学习”。深度学习包括多层的神经网络和使它们表现良好的算法。这些神经网络由人工神经元组成,按层次排列,以人脑为模型,尽管构建模块和学习算法可能有所不同。每一层接收来自前一层的输入(第一层代表输入数据),然后将其自身加权输出的转换表示作为输入传送到随后的网络层。因此,“训练”神经网络的过程是调整各层的权重,以最小化作为预测误差替代的成本或损失函数。损失函数是可微的,因此权重可以自动更新,以试图减少损失。深度学习使用多层人工神经网络(因此有了“深度”这个词)。考虑到过去十年在计算方面的进步,它现在可以应用到大量的数据集和无数的环境中。在很多情况下,与其他方法相比,深度学习可以学习更复杂的关系,并做出更准确的预测。因此,深度学习已经成为机器学习的一个分支领域。在生物学研究的背景下,它已越来越多地用于从高维生物学数据中获得新的见解[2]。例如,深度学习已被用于预测蛋白质-药物结合动力学[3],识别合成DNA[4]的起源实验室,以及揭示遗传疾病[5]的面部表型。

为了让有一些机器学习经验的科学家更容易获得深度学习的生物应用,我们征求了一群对生物和深度学习有不同兴趣的研究人员的意见。这些个人使用GitHub版本控制平台[6]和Manubot手稿生成工具集[7]共同完成了本文的写作。我们的目标是在使用深度学习时,清晰地表达出一套实用、易于理解和简明的指导方针和建议(图1)。对于刚接触机器学习的读者,我们建议在开始深度学习之前,先回顾一下机器学习的一般原则[8]。

在生物研究中使用深度学习的10个技巧的概述。

在我们讨论的过程中,有几个主题变得明确起来:理解和应用机器学习基础知识作为利用深度学习的基线的重要性,进行广泛的模型比较和仔细评估的必要性,以及在解释深度学习产生的结果时需要批判性思维,等等。深度学习和传统计算方法之间的主要相似之处也变得显而易见。尽管深度学习是机器学习的一个独特的子领域,但它仍然是一个子领域。它受制于机器学习固有的许多局限性,机器学习的大多数最佳实践[9-11]也适用于深度学习。与所有的计算方法一样,深度学习应该以一种可复制和严格测试的系统方式应用。最后,我们整理的技巧范围从高层指导到最佳实践。我们希望他们能够为新的和有经验的深度学习实践者提供可操作的、具体的深度学习指导。通过使深度学习更易于在生物研究中使用,我们的目标是提高文献中深度学习的整体使用和报告质量,并使越来越多的研究人员能够有效和准确地利用这些先进的技术。

内容中包含的图片若涉及版权问题,请及时与我们联系删除