基于大型语言模型的人工智能系统已经被用于学习蛋白质中氨基酸顺序与蛋白结构和功能之间的关系,助力人工设计全新的蛋白质。日前在Nature Biotechnology上发表的一篇论文中,研究人员使用基于大型语言模型设计的ProGen系统,设计出具有和自然溶菌酶活力相似的全新溶菌酶。他们表示,这一新技术可能比获得诺贝尔奖的定向进化(directed evolution)蛋白设计技术更有威力,给蛋白工程学领域注入新的活力。
ProGen利用语言模型生成全新蛋白,为蛋白设计和新药开发增添了基于AI的新策略,ProGen的工作方式与能生成文本的AI相似。
根据发布在《Nature Biotechnology》上的一项研究,人工智能(AI)工具ProGen设计出已被证明有效的抗菌蛋白质的办法,可将采用氨基酸序列并将其转化为蛋白质,新方法有望用于研制新药。
论文地址:https://www.nature.com/articles/s41587-022-01618-2
ProGen是由Salesforce Research研发,通过学习氨基酸如何结合形成 2.8 亿种现有蛋白质,学会了如何生成新蛋白质。研究人员可让 ProGen 专注于设计某一组类似的蛋白质,例如具有抗菌活性的蛋白质。
ProGen这是一种语言模型,可以生成跨大型蛋白质家族具有可预测功能的蛋白质序列,类似于在语法和语义上生成不同主题的自然语言句子。该模型在来自>19,000个家族的2.8亿个蛋白质序列上进行了训练,并添加了指定蛋白质特性的控制标签。
ProGen可以进一步微调到精选序列和标签,以提高具有足够同源样本的家庭蛋白质的可控生成性能。微调到五个不同溶菌酶家族的人工蛋白质表现出与天然溶菌酶相似的催化效率,与天然蛋白质的序列特征低至31.4%。ProGen很容易适应不同的蛋白质家族,正如我们用chorismate突变酶和苹果酸脱氢酶所证明的那样。
这家公司名叫Profluent,由前Salesforce AI研究负责人创立,已获得900万美元的启动资金,用于建立一个集成的湿实验室,并招募机器学习科学家和生物学家。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢