Hippocrates: An Open-Source Framework for Advancing Large Language Models in Healthcare

简介

将大型语言模型（LLMs）整合到医疗保健中，有望改变医学诊断、研究和患者护理。然而，医学LLMs的发展面临着复杂的训练要求、严格的评估要求和专有模型的主导地位，这些限制了学术探索。透明、全面地访问LLM资源对于推动该领域的发展、促进可重复性并鼓励医疗AI创新至关重要。我们介绍了 Hippocrates，这是一个专门为医疗领域开发的开源LLM框架。与以往的努力形成鲜明对比，它提供对其训练数据集、代码库、检查点和评估协议的不受限制的访问。这种开放的方法旨在刺激协作研究，使社区能够在透明的生态系统中建立、完善和严格评估医学LLMs。此外，我们介绍了 Hippo，这是一系列专为医疗领域量身定制的7B模型，通过持续的预训练、指令调整和人工智能反馈的强化学习，从 Mistral 和 LLaMA2 微调而来。我们的模型表现优于现有的开放式医学LLMs模型，甚至超过了具有70B参数的模型。通过 Hippocrates，我们希望不仅发挥LLMs的全部潜力，推进医学知识和患者护理，而且民主化医疗AI研究的好处，使其在全球范围内可用。
图表
解决问题

解决医疗领域中大规模语言模型（LLMs）的训练和评估问题，推动医疗诊断、研究和患者护理的转型。
关键思路

提出了一个专门为医疗领域开发的开源LLM框架Hippocrates，提供无限制的训练数据集、代码库、检查点和评估协议，以促进协同研究和创新。
其它亮点

介绍了Hippo系列7B模型，通过持续预训练、指令调整和人工智能反馈强化学习等方法进行微调，表现出色，超过了目前已有的开源医疗LLMs模型。
相关研究

最近的相关研究包括：《BioBERT: a pre-trained biomedical language representation model for biomedical text mining》、《ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission》等。

Hippocrates: An Open-Source Framework for Advancing Large Language Models in Healthcare

评论