近日,DeepMind官博刊文,介绍了他们发布AlphaFold项目的经验和挑战,以下是编译内容。

关于与世界分享我们最大的突破之一的思考和教训

将我们解决智能以推进科学和造福人类的使命付诸实践,我们肩负着至关重要的责任。为了帮助对社会产生积极影响,我们必须以严格和谨慎的方式主动评估我们的研究及其应用的伦理影响。我们也知道,每一项新技术都有潜在的危害,我们认真对待长期和短期风险。我们从一开始就以负责任的开拓奠定了基础——尤其关注负责任的治理、研究和影响。

首先要制定明确的原则,帮助实现人工智能 (AI) 的好处,同时降低其风险和潜在的负面结果。负责任的开拓是一项集体努力,这就是为什么我们为许多人工智能社区标准做出了贡献,例如由谷歌人工智能伙伴关系经合组织(经济合作与发展组织)制定的标准。

我们的运营原则既定义了我们对优先考虑广泛利益的承诺,也定义了我们拒绝追求的研究和应用领域。自 DeepMind 成立以来,这些原则一直是我们决策的核心,并随着人工智能领域的变化和发展而不断完善。它们是为我们作为研究驱动型科学公司的角色而设计的,并且符合 Google 的 AI 原则。

从理念到实践

书面原则只是难题的一部分——如何将它们付诸实践是关键。对于在人工智能前沿进行的复杂研究,这带来了重大挑战:研究人员如何预测在遥远的未来可能发生的潜在利益和危害?我们如何从广泛的角度发展更好的道德远见?以及如何在科学进步的同时实时探索难题以防止负面后果?

从创建内部工具包和发表有关社会技术问题的论文到支持在整个 AI 领域增加审议和远见的努力,我们花费了多年时间来开发我们自己的技能和流程,以在 DeepMind 中进行负责任的治理、研究和影响。为了帮助 DeepMind 团队以负责任的态度开拓并防止伤害,我们的跨学科机构审查委员会 (IRC) 每两周开会一次,以仔细评估 DeepMind 项目、论文和合作。

负责任的开拓是集体的力量,每个项目都是加强我们的联合技能和理解的机会。我们精心设计了审核流程,包括来自广泛学科的轮换专家,机器学习研究人员、伦理学家和安全专家与工程师、安全专家、政策专家等并肩作战。这些不同的声音定期确定扩大我们技术优势的方法,建议研究和应用领域改变或放缓,并强调需要进一步外部咨询的项目。

虽然我们已经取得了很大进展,但其中的许多方面仍处于未知领域。我们不会每次都做对,并致力于持续学习和迭代。我们希望分享我们当前的流程对从事负责任 AI 工作的其他人有用,并在我们继续学习时鼓励反馈,这就是为什么我们从我们最复杂和最有价值的项目之一:AlphaFold 中详细反思和经验教训。我们的 AlphaFold AI 系统解决了 50 年来蛋白质结构预测的挑战——我们很高兴看到科学家们使用它来加速可持续发展、食品安全、药物发现和基础人类生物学等领域的进展。去年扩展到更广泛的领域。

专注于蛋白质结构预测

我们的机器学习研究人员、生物学家和工程师团队长期以来一直将蛋白质折叠问题视为人工智能学习系统产生重大影响的非凡而独特的机会。在这个领域,有衡量成功或失败的标准标准,以及人工智能系统需要做什么来帮助科学家工作的明确界限——预测蛋白质的三维结构。而且,与许多生物系统一样,蛋白质折叠过于复杂,任何人都无法为其工作原理编写规则。但人工智能系统可能能够自己学习这些规则。 

另一个重要因素是两年一次的评估,称为CASP(蛋白质结构预测的关键评估),由 John Moult 教授和 Krzysztof Fidelis 教授创立。在每次聚会中,CASP 都会对进展进行异常稳健的评估,要求参与者预测最近才通过实验发现的结构。结果是雄心勃勃的研究和科学卓越的巨大催化剂。 

了解实际机会和风险

当我们为 2020 年的 CASP 评估做准备时,我们意识到 AlphaFold 在解决手头的挑战方面显示出巨大的潜力。我们花了相当多的时间和精力分析实际影响,质疑:AlphaFold 如何加速生物学研究和应用?可能会产生什么意想不到的后果?我们如何以负责任的方式分享我们的进步? 

这带来了广泛的机会和风险需要考虑,其中许多是在我们不一定拥有强大专业知识的领域。因此,我们从生物学研究、生物安全、生物伦理学、人权等领域的 30 多位领域领导者那里寻求外部意见,重点关注专业知识和背景的多样性。

在这些讨论中出现了许多一致的主题:

  1. 平衡广泛的利益和伤害的风险。我们从对意外或故意伤害风险的谨慎心态开始,包括 AlphaFold 如何与未来的进步和现有技术相互作用。通过我们与外部专家的讨论,我们更清楚地看到,考虑到许多实际障碍,AlphaFold 不会让蛋白质更容易造成伤害——但未来的进展需要仔细评估。许多专家强烈认为,AlphaFold 作为与许多科学研究领域相关的进步,将通过免费和广泛的访问获得最大的好处。
  2. 准确的置信度测量对于负责任的使用至关重要。实验生物学家解释了对于 AlphaFold 预测的每个部分,理解和分享经过良好校准和可用的置信度指标是多么重要。通过发出 AlphaFold 的哪些预测可能准确的信号,用户可以估计他们何时可以信任预测并将其用于工作中,以及何时应该在研究中使用替代方法。我们最初考虑忽略 AlphaFold 置信度低或预测不确定性高的预测,但我们咨询的外部专家证明了为什么在我们的版本中保留这些预测特别重要,并建议我们以最有用和最透明的方式呈现这一点信息。 
  3. 公平的利益可能意味着对资金不足的领域的额外支持。我们就如何避免不经意间增加科学界的分歧进行了多次讨论。例如,所谓的被忽视的热带病,对世界较贫困地区的影响尤为严重,但其获得的研究资金往往少于应有的资金。强烈鼓励我们优先考虑动手支持,并积极寻求与从事这些领域工作的团体合作。 

建立我们的发布方法

根据上述意见,IRC 批准了一组 AlphaFold 版本来满足多种需求,包括:

  • 同行评审的出版物和开源代码,包括Nature 上的两篇 论文,并附有开源代码,使研究人员能够更轻松地实现和改进 AlphaFold。不久之后,我们添加了一个Google Colab,允许任何人输入蛋白质序列并接收预测结构,作为自己运行开源代码的替代方案。
  • 与已建立的社区领导者EMBL-EBI(EMBL 的欧洲生物信息学研究所)合作发布的蛋白质结构预测的主要版本。作为一个公共机构,EMBL-EBI 使任何人都可以像谷歌搜索一样轻松地查找蛋白质结构预测。最初的版本包括对人体中每种蛋白质的预测形状,而我们最近的更新包括对科学已知的几乎所有已编目蛋白质的预测结构。这总共有超过 2 亿个结构,所有结构都可以在 EMBL-EBI 的网站上免费获得,并具有开放访问许可证,并附有支持资源,例如解释这些结构的网络研讨会。 
  • 在数据库中构建 3D 可视化,对预测的高置信度和低置信度区域进行突出标记,并且总体而言,旨在尽可能清楚地说明 AlphaFold 在我们的文档中的优势和局限性。我们还将数据库设计为尽可能易于访问,例如,考虑到有色觉缺陷的人的需求。
  • 与研究资金不足领域的研究小组建立更深入的合作伙伴关系,例如被忽视的疾病和对全球健康至关重要的主题。这包括正在推进对恰加斯病和利什曼病的研究的DNDi(被忽视疾病药物倡议),以及正在开发食用塑料酶以帮助减少环境中塑料废物的酶创新中心。我们不断壮大的公众参与团队将继续致力于这些合作伙伴关系,以支持未来更多的合作。 

我们如何在这项工作的基础上发展

自我们首次发布以来,来自 190 多个国家/地区的数十万人访问了AlphaFold 蛋白质结构数据库并使用AlphaFold 开源代码。我们很荣幸听到 AlphaFold 的预测以何种方式加速了重要的科学工作,并正在努力通过我们的Unfolded项目讲述其中的一些故事。到目前为止,我们还没有发现任何与 AlphaFold 相关的滥用或伤害,但我们会继续密切关注这一点。 

虽然 AlphaFold 比大多数 DeepMind 研究项目更复杂,但我们正在使用我们所学的元素并将其整合到其他版本中。

我们在这项工作的基础上通过:

  • 在流程的每个阶段增加外部专家的投入范围,并在更大范围内探索参与性道德的机制。
  • 扩大我们对生物学人工智能的理解,超越任何单个项目或突破,以便随着时间的推移对机遇和风险有更深入的认识。 
  • 寻找方法扩大我们与当前结构服务不足的领域中的团体的合作伙伴关系。

就像我们的研究一样,这是一个不断学习的过程。为广泛受益而开发 AI 是一项远远超出 DeepMind 的社区努力。

我们正在尽一切努力注意与他人合作还有多少艰苦的工作要做——以及我们如何负责任地开拓前进。