这是斯坦福大学基础模型研究中心(CRFM)正在研发的一系列领域特定大模型之一。

这项工作的作者是: 

Elliot Bolton and David Hall and Michihiro Yasunaga and Tony Lee and Chris Manning and Percy Liang

其中David HallTony Lee都是工业界背景。

来自官方的博客的介绍:

我们与 MosaicML 合作构建了 PubMedGPT 2.7B,这是一种专门针对生物医学摘要和论文进行训练的新语言模型。 这种 GPT 风格的模型可以在各种生物医学 NLP 任务上取得出色的成绩,包括在 MedQA 生物医学问答任务上达到 50.3% 准确率的新水平。

今天,我们很高兴能将此模型提供给社区。 作为自回归语言模型,PubMedGPT 2.7B 也具备自然语言生成能力。 然而,我们才刚刚开始探索该模型的生成能力和局限性,我们强调该模型的生成能力仅用于研究目的,不适合生产。 在发布该模型时,我们希望推动生物医学 NLP 应用程序的开发以及负责任地训练和利用特定领域语言模型的最佳实践; 可靠性、真实性和可解释性是我们最关心的问题。 我们希望从训练这种生物医学模型中吸取的经验教训可以应用于其他领域,例如法律或金融。

Percy Liang本人在Twitter透露了一些细节:

我们采用了 Hugging Face 的 Transformer 实现,添加了 FlashAttention,构建了我们自己的分词器,并在 128 个 A100 GPU 上训练了超过 300B 分词(110 GB 文本)约 6.25 天。 我们对下游任务(例如 MedQA-USMLE)进行了全面微调以进行评估。

很多行业(例如医学、法律、金融)都有许多有意思的大型数据集。我们认为,在特定领域数据集上训练的 <10B 参数的模型可以捕获很多价值,而不是依赖于一个 100B+ 参数基础模型。

模型地址: https://huggingface.co/stanford-crfm/pubmedgpt

GitHub地址: https://github.com/stanford-crfm/pubmedgpt 

从左至右: Hanlin Tang, Naveen Rao, Dr. Michael Carbin 和 Jonathan Frankle

此项工作的合作方MosaicML,是Intel 2016年4亿美元收购(但普遍认为不成功)的Nervana核心团队2020年12月再次创业的新公司。CEO Naveen Rao,CTO Hanlin Tang,首席科学家Jonathan Frankle刚从MIT毕业,要去哈佛做助理教授,他也拉了自己MIT的导师Michael Carbin做公司顾问。

公司创业方向是大模型训练云,通过优化训练算法,降低训练成本。A轮融资3700万美元,来自 DCVC, Lux Capital, Future Ventures, Playground Global等。

已经开源了一些技术:

内容中包含的图片若涉及版权问题,请及时与我们联系删除