作者:紫晗

编辑:李宝珠

转载请联系本公众号获得授权,并标明来源


「VenusFactory 蛋白质工程设计平台」已上线至 HyperAI超神经官网(hyper.ai)的教程板块,涵盖了 7 个功能模块,一键部署即可在线体验。


AI 对设计效率的大幅提升,正在重塑蛋白质设计领域的传统研究范式。与传统蛋白质设计实验相比,AI 大模型不仅能够在短时间内完成对蛋白质序列、结构与功能的预测和筛选,还能基于物理化学原理和数据规律,设计出自然界中不存在的新型蛋白质,甚至能够通过多任务学习和深度学习模型,同时预测蛋白质的稳定性、结合亲和力、动力学特性等性质。


然而,模型复杂的计算框架和庞杂的蛋白质数据库提高了 AI 工具的使用门槛。一方面,蛋白质设计领域对生物数据的依赖,致使研究人员需要从多个数据库中检索、下载、编译和转换数据,造成了大量的时间成本;另一方面,蛋白质 AI 模型目前仅能解决细分领域的个别任务,缺乏具备权威基准数据的评测体系。


此外,针对 AI 蛋白质设计的挑战,上海交通大学洪亮教授课题组的谭扬博士还介绍道,蛋白质设计领域现有的 AI 模型不仅难以获取数据并统一格式,而且参数调整困难、训练速度慢,其「数据关、模型关、应用关」造成的障碍,阻碍了 AI 工具在更广泛科研群体中的普及应用。


同时,就现有方案来看,Web server 简洁易操作但功能单一,无法基于个别数据进行单独训练,同时智能性有限;Agent 减少了人工干预,能够直接面向结果目标,自主化完成一个或多个工作单位。


为推动人工智能在蛋白质工程领域的广泛应用,上海交通大学洪亮教授课题组开发了一站式开源的蛋白质工程工作台 VenusFactory,以整合生物数据检索、标准化任务基准测试和预训练蛋白质语言模型(PLMs)。该平台融合了 Web server 和 Agent 的双重功能:


* 实现了使用私有数据集 0 代码定制 AI 模型,支持命令行执行和基于 Gradio 的无代码界面。

* 提供了对 30+ 大模型评估基准数据集的开源下载,集成了超过 40 个与蛋白质相关的数据集和超过 40 个流行的 PLMs,轻松链接蛋白质数据。

* 能够实现零样本突变预测,通过需求自动组合 AI 模型推荐突变,同时纳入监督预测模块,通过目标集成 AI 模型预测性质。


目前,「VenusFactory 蛋白质工程设计平台」已上线至 HyperAI超神经官网(hyper.ai)的教程板块。 VenusFactory 平台教程涵盖了 7 个功能模块,一键部署即可在线体验:


* Training:零代码训练模型,支持 40+ 大模型,使用私有数据集训练自己的模型。

* Evaluation:易操作的蛋白质模型全面性能评估工具。

* Prediction:使用训练好的模型对新的蛋白质序列进行功能预测。

* Quick Tools:轻松使用版,支持零样本突变预测(定向进化)、有监督预测(功能或性质预测)。

* Advanced Tools:进阶定制使用版,支持零样本突变预测(定向进化)、有监督预测(功能或性质预测)。

* Download:轻松链接蛋白质数据,支持多线程下载各大主流数据库(RCSB、UniProt…)。

* VenusAgent:蛋白质工程 Agent,搭配 DeepSeek 对话实现 AI 蛋白质计算。


教程链接:

https://go.hyper.ai/CjuQg


此外,我们还为新用户准备了惊喜算力资源福利,使用邀请码「VenusFactory」注册即可获得 2 小时双卡 A6000 使用时长(资源有效期 1 个月),数量有限,不要错过!


Demo 运行


1.在浏览器输入网址 hyper.ai,进入首页后,点击「教程」页面,并选择「VenusFactory 蛋白质工程设计平台」,点击「在线运行此教程」。




2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。



3.选择「NVIDIA GeForce RTX 4090-2」以及「PyTorch」镜像,并点击「继续执行」。OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!


HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_NR0n




4.等待分配资源,首次克隆需等待约 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」。请注意,用户需在实名认证后才能使用 API 地址访问功能。



效果演示

以下为 VenusFactory 使用页面,点击「Manual」可以直接查看训练模块、预测模块、评估模块和下载模块的使用指南:



训练模块展示


点击「Model Train and Prediction Training」模块中的「Training」模块:


* 选择 Protein Language Model

* 数据集选择

* 数据集预览

* 训练方法配置(具体信息参考使用指南)

* 批处理配置(具体信息参考使用指南)



设置训练模型保存路径,点击「START TRAINING」开始训练。



此时可以看到训练的参数量以及 loss 曲线图:



如果想要使用自己的数据集可以通过 Custom Dataset 配置,只需要填写你的数据集路径即可(详情请参阅 Manual 使用文档)。


评估模块展示


点击「Model Train and Prediction Training」模块中的「Evaluation」模块。



批处理配置,点击「START EVALUATION」开始训练。



评估结果如下,可以下载 CSV 文件:



如果想要使用自己的数据集可以通过 Custom Dataset 配置,只需要填写你的数据集路径即可(详情请参阅 Manual 使用文档)。


预测模块展示


点击「Model Train and Prediction Training」模块中的「Prediction」模块,设置训练模型保存路径,选择蛋白质语言模型,点击「START PREDICTION」开始训练。


以单序列预测为例:



蛋白质序列示例:MKTWFGHVLQ



VenusAgent 展示


点击「VenusAgent」模块。



由于 VenusAgent 需要调用 DeepSeek 大模型,本教程提供 2 种调用方式:自行输入 API Key 或使用平台部署好的 DeepSeek-R1-70B 模型。可以根据所需功能选用不同的显卡体验,选卡说明如下:


* 若使用单卡 RTX 4090,则不支持 VenusAgent 功能使用本地部署的大模型服务(使用 DeepSeek API Key 无限制)。

* 若使用双卡 RTX 4090,使用 VenusAgent 功能后不能立即(1-2 分钟后)使用其它功能(使用 DeepSeek API Key 无限制)。

* 若使用双卡 RTX A6000,VenusAgent 功能无限制。

* 用户可以填写 DeepSeek API Key,若不填则默认使用教程本地部署的大模型服务。使用本地大模型服务时,第一次对话的响应时间大约需要 2-3 分钟,请耐心等待。


以上就是「VenusFactory 蛋白质工程设计平台」的详细使用教程,欢迎大家前来体验!


教程链接:

https://go.hyper.ai/CjuQg


一键获取 2023—2024 年 AI4S 领域高质量论文及深度解读文章 ⬇️

 往期推荐 

“阅读原文”,免费获取海量数据集资源!

内容中包含的图片若涉及版权问题,请及时与我们联系删除