还记得被Meta裁掉的AI蛋白质团队吗?


整个团队被无情裁掉后,其中8位科学家创办了一家名为EvolutionaryScale的AI+蛋白质初创公司,去年被福布斯爆料已经融资4000万美元。


如今,EvolutionaryScale正式以种子轮推出,最终是1.42亿美元种子轮远远高于此前爆料的4000万美元!


本轮投资由GitHub 前首席执行官 Nat Friedman、Daniel Gross 和 Lux Capital 领投,亚马逊和英伟达的风险投资部门 NVentures 也参与其中。


尽管无法超越Xaira Therapeutics这样的超级初创(以10亿美元资金设立),但是1.4亿美元的种子轮融资在生物技术领域已经高得离谱。


就在同一时间,EvolutionaryScale还宣布推出其蛋白质大语言模型ESM3


该模型宣称其拥有98B参数,已经达到GPT3的参数规模,可以对蛋白质进行序列、结构和功能的设计。


Meta的AI蛋白质团队,归来!


2023年上半年,扎克伯格在Meta执行了”效率之年“,几个月之内大裁一万人,其中就包括由十几名科学家组成的Meta-FAIR蛋白质小组。


裁员的主要原因是,他们认为这个团队“太学术化了”,公司希望放弃部分基础研究,转而支持能够产生收入的人工智能项目。


资本的残忍就在于,该团队业内并不算岌岌无名,而是凭借ESMFold打响了名声。


ESMFold发布于2022年7月,这是一个基于Transformer的150亿参数语言模型,此前是参数最大的蛋白质语言模型。


ESMFold预测出来的蛋白质不仅和 AlphaFold 2 具有相似的准确性,但 ESMFold 推理速度更快,能够探索宏基因组蛋白的结构空间。


此外,ESMFold进一步预测了约6亿个蛋白质结构,这些蛋白质来自此前从未被表征过的细菌、病毒和其他微生物,这些宏基因组也被称为生物界的“暗物质”。


被裁后,ESMFold 团队的 8 名创始人员成立了 EvolutionaryScale,再次并肩作战,该初创公司致力于基于人工智能技术的蛋白质预测模型研究。


创始人 Alexander Rives负责领导此前的ESMFold 团队,他是美国纽约大学计算机科学博士,Facebook 前人工智能科学家,专注于生物学的大规模语言模型。


图:Alexander Rives


同时,他也是Fate Therapeutics、Syros Pharmaceuticals(均在纳斯达克上市)和Kallyope的联合创始人。


离开Meta,再成立EvolutionaryScale,更像是重操旧业,也是Alexander Rives一直坚持的研究方向。


有意思的是,公司名称“EvolutionaryScale”,正是在ESM模型(Evolutionary Scale Modeling )基础上设立的。


甚至后续推出的ESM3也是沿用了在Meta时期的名称,完全可以看作他们在Meta时期工作的后续。


ESM3:模拟5亿年的进化


就在宣布种子轮的同一天,EvolutionaryScale发布了最新的ESM3模型,简单来说这是一种多模态 + 蛋白质生成语言模型


该模型高达980亿参数,与GPT3的参数相当,也是有史以来用于训练生物模型的计算量最大的模型,耗费了一万亿次浮点运算。


ESM3 较之前的版本进行了重大更新,从生物体和生物群落中采集的近 28 亿个蛋白质序列进行了训练,使科学家能够促使模型以越来越高的准确度识别和验证新蛋白质。


ESM3 通过将多尺度数据纳入训练过程,它不再像 ESM2 那样只关注氨基酸序列数据而是整合了


  1. 原子坐标:提供有关蛋白质结构的信息

  2. 序列数据:提供蛋白质的基本组成部分

  3. 功能数据:阐明蛋白质在生物系统中的作用

多尺度方法使 ESM3 能够执行多个任务:了解蛋白质的序列编码、预测结构以及功能。


同时,数据表明随着规模的扩大,ESM3对于蛋白质设计的能力也开始显现,它实现了结构生成中实现原子级精度的能力,对于设计功能性蛋白质至关重要。


团队还验证了该模型的生成能力,以绿色荧光蛋白(通常称为 GFP)为例,该蛋白质能够天然吸收蓝光并发出绿光,被用于实验室追踪蛋白质。


EvolutionaryScale经过了迭代,仅仅通过两次实验就找到了一个与天然亮度相当的荧光蛋白质,也被称为esmGFP,新生成的esmGFP和天然GFP仅有58%的序列相似(229个氨基酸)。


然而在大自然界,产生新荧光蛋白的进化过程需要数个世纪的时间,更不要说仅有58%的序列相似,也就是说esmGFP等效于进化模拟器执行的超过 5 亿年的自然进化。



不过,生物学的数据非常稀缺,更不要说更高质量的数据,980亿参数具体怎么来的?


实际上,团队之前曾使用 AI 预测仅通过序列了解的蛋白质的结构,而合成数据是ESM3 的关键,为该模型的功能、规模提供了额外的途径。


ESM3向未来迈出了一步,在他们看来未来 AI 将成为一种工具,可以从第一原理设计生物学,就像设计结构、机器和微芯片以及编写计算机程序一样。


业内人士称,ESM3 标志着蛋白质语言建模领域的潜在范式转变。它代表着从专注于扩大氨基酸序列数据规模的时代向更注重整合多样化、多尺度数据源的时代迈出的第一步。


目前, ESM3的预印本已经放出,并且开放封闭测试版 API。团队还宣布,将发布一个ESM3 1.4B参数版本的权重和代码,可以用于非商业化使用场景。


该模型即将在NVIDIA BioNeMo上推出,完整的 ESM3 系列模型将很快作为NVIDIA NIM微服务提供给特定客户,与 NVIDIA 合作进行运行时优化


一场豪赌,英伟达又投了


细看Evolutionary Scale背后的投资人,会发现所有都是TMT投资人,包括GitHub前首席执行官Nat Friedman、著名软件领域投资人Daniel Gross。


Lux Capital成立于2000年,总部位于纽约,该公司倾向于投资新兴科技公司,重点关注3D打印、机器学习和人工智能、飞行和手术机器人等领域。


同样作为产业投资人,英伟达和亚马逊又双叒叕出手了,为ESM3提供了算力支持。也就是说,该公司没有一家生物科技领域的支持者。


ESM3模型使用英伟达H100 Tensor Core GPU实现了有史以来生物基础模型中最多的计算量。


980 亿参数的 ESM3 模型使用的浮点运算次数比其前身 ESM2 多出约 25 倍,数据量多出 60 倍。


要知道,这家公司本身就是一个“巨大的赌注”。公司此前的一份BP中,反复强调生成式人工智能模型可能需要十年才能帮助设计创新药物。


这个重大赌注是扩大其模型训练,以整合蛋白质以外的数据,并为生物技术应用创建一个通用的人工智能模型。


发展阶段大致是:扩大人工智能模型——为其提供更多数据并增加其规模——将产生“生物人工智能的能力突破”。


这也是为什么Evolutionary Scale会把模型参数越炼越大,但生物领域会不会像通用大模型那样出现“涌现”能力还不好说,尤其是生物界的许多知识仍然是未知的。


现实也是如此,生物学领域的人工智能在短期内不太可能提供丰厚的商业回报。像薛定谔这样的商业公司市值都低于30 亿美元。


在成本制定上,Evolutionary Scale 预计第一年将花费 3800 万美元,其中超 42% 的资金,也就是 1600 万美元用于计算费用。


第二年高达 1.61 亿美元,第三年高达 2.78 亿美元,其中,计算费用分别为 1 亿美元和 2 亿美元,占比逐年增加。


根据Evolutionary Scale的构想,他们希望通过平台合作、使用费和收益分成等方式赚钱。


例如,EvolutionaryScale 可能会与制药公司合作,将ESM3 整合到他们的工作流程中,或者与研究人员分享使用ESM3 实现商业化的突破性发现的收入。


除此之外,Evolutionary Scale的平台还可能用于环保、材料、农业等广泛与生物科技相联系的领域。


这也是为什么,ESM3模型要上架 Amazon Bedrock、Amazon Sagemaker、AWS HealthOMICs 和 NVIDIA BioNeMo,他们希望通过这些渠道更多地获取用户亚马逊和英伟达的客户都将能够使用自己的数据对 ESM3进行微调。


Evolutionary Scale还把DeepMind 的分拆公司 Isomorphic Labs看成自己最大的对手,后者已经和礼来、诺华等签署了价值30亿美元的药物研发合作。


一个细节是,ESM3是在Andromeda 集群上训练的,这一算力集群拥有包括近3000块英伟达H100 GPU在内的大量算力基础设施,正巧是投资人Daniel Gross所有。


该算力集群造价1亿美元,被Daniel Gross用来换AI初创公司的股权,所以Evolutionary Scale中1.4亿美元的种子轮有一部分可能是通过算力支付,就像阿里投资月之暗面一样。


创始人表示,公司正在研发更大的模型,公司目前的资金可以维持大约两年。就让我们期待一下ESM4。


—The End—

推荐阅读

内容中包含的图片若涉及版权问题,请及时与我们联系删除