
不完全统计,目前中国10亿参数规模以上的大模型已发布79个,几乎每周都有新模型问世。
这些模型主为通用领域或是医学诊疗大模型,在保守的生物医药领域,大模型却出现了讨论度很高,实际落地不足的情况。
通用大模型的价值还未完全显现,生物医药需要大模型吗?需要怎样的大模型?出现大模型的时机还需要再等等吗?
事实是已经有公司行动起来了。
上周四,木分子发布新一代对话式药物研发助手ChatDD (Drug Design) 和全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B。
作为生物医药研发助手Copilot ,ChatDD可以服务医药研发全流程场景,从立项调研,早期药物发现,临床前研究到临床试验、药物重定位等各环节。
关于生物医药的大模型,智药局和清华大学国强教授,清华大学智能产业研究院(AIR)首席研究员聂再清聊了聊,他同时是水木分子的首席科学家。
博士毕业后,聂再清加入微软亚洲研究院,十三年里他和团队做出了微软学术搜索、人立方等多款产品。2017年,他成为阿里巴巴达摩研究院首批招揽的AI大牛之一,成功孵化”天猫精灵“这一爆款产品。
2020年,聂再清受邀回到清华大学智能产业研究院(AIR)担任首席研究员。近期担任初创公司水木分子首席科学家,目标是打造生物医药的基础大模型,近期已完成千万级种子轮融资。
面对疑问,聂再清表示:”等一个时机对我们而言不重要,我们的核心是能不能为用户产生价值,只要能产生价值,什么时候做大模型都可以。“
大模型与小数据模型并不冲突
Q
从背景上看,您是算法出身,又深耕互联网多年,是什么样的契机让您关注生物医药领域?
聂再清:在微软期间,我很大一部分工作集中在学术搜索,目的是协助科研人员从论文里面找到信息。后面去了阿里巴巴达摩院,成功孵化了“天猫精灵”,它本质上是一种对话式的智能助手。
来到清华AIR(清华智能产业研究院)后,智慧医疗是其中很重要的方向,我负责大数据人工智能实验室,也很大程度上支持和参与了相关研究。
医药研发本身对各种论文、专利和各种实验数据的需求很高,和学术搜索的工作很像。天猫精灵又和ChatGPT有很多相似之处,它们都希望通过自然语言对话的交互,帮助用户完成任务。
因此无论是学术搜索,还是对话式助手,生物医药大模型将我以往的经历都结合起来了,于是决定和团队一起开发对话式药物研发助手。
Q
您和团队在今年4月份发布了BioMedGPT,水木分子是根据该研究转化而来的吗?
Q
能介绍一下水木分子的团队情况吗?
Q
您觉得大模型解决了生物医药什么核心问题?它跟一般AIDD软件有什么区别?
Q
有观点认为生物医药不需要大模型,而是根据小数据解决特定的任务,当前AI的泛化能力还不够,您怎么看?
聂再清:小数据的确在普遍意义上的AIDD模型发挥了效用,主要原因应该是当前有监督的训练数据不多。但是也有很多自监督学习的方案,可以来通过预训练的方式形成大模型,最后能够帮助大家更好地运用小数据执行任务,这是我们做大模型的意义。

Q
专业领域的 AI 模型,可解释性其实非常重要,大模型如何让药物研发人员相信生成结果?
Q
以 OpenAI 为例,大模型的更新迭代其实非常重要,您认为生物医药大模型或者Chat DD 未来的迭代的空间在哪?
Q
ChatDD 现在的数据源主要是哪些方面?就未来公司如何建立数据壁垒?
Q
那么主要还是以已经有的数据,例如文献资料、分子结构和序列数据是吗?
Q
以大模型的形态,未来水木分子打算如何商业化?
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢