- 简介这篇文章讨论了大型语言模型(LLMs)在医疗知识方面的应用,指出现有的LLMs要么是闭源的(如PaLM、GPT-4),要么规模受限(<= 13B参数),限制了它们的能力。为了改善这个问题,作者们发布了MEDITRON,这是一个开源的LLM套件,包括7B和70B参数的模型,专门为医疗领域而开发。MEDITRON基于Llama-2,通过适应Nvidia的Megatron-LM分布式训练器,扩展了对医疗语料库的预训练,包括选定的PubMed文章、摘要和国际公认的医疗指南。作者们对四个主要的医疗基准进行了评估,结果显示在任务特定的微调前后,MEDITRON相对于几个最先进的基线模型都有显著的性能提升。总体而言,MEDITRON在其参数类别中相对于最佳公共基线模型实现了6%的绝对性能提升,并且比从Llama-2微调的最强基线模型提高了3%。与闭源LLMs相比,MEDITRON-70B的性能超过了GPT-3.5和Med-PaLM,并且与GPT-4和Med-PaLM-2相差不到5%和10%。作者们公开了用于筛选医疗预训练语料库的代码和MEDITRON模型权重,以推动更强大的医疗LLMs的开源发展。
- 图表
- 解决问题该论文旨在通过发布MEDITRON,一个适用于医学领域的开源LLM套件,来提高对大规模医学LLM的访问和使用。它试图解决医学领域缺乏大规模、开源LLM的问题。
- 关键思路该论文的关键思路是通过使用Nvidia的Megatron-LM分布式训练器对Llama-2进行适应,并在综合策划的医学语料库上进行预训练,包括选定的PubMed文章、摘要和国际认可的医学指南,从而扩展了大规模医学LLM的预训练。使用四个主要的医学基准测试表明,在任务特定的微调前后,MEDITRON相对于几个最先进的基线具有显着的性能提升。
- 其它亮点该论文的亮点包括:1.发布了一个适用于医学领域的开源LLM套件MEDITRON;2.使用综合策划的医学语料库进行预训练;3.在四个主要的医学基准测试中取得了显著的性能提升;4.相对于同类参数的最佳公共基线,MEDITRON实现了6%的绝对性能提升,相对于我们从Llama-2微调的最强基线,实现了3%的提升;5.与闭源LLM相比,MEDITRON-70B的性能优于GPT-3.5和Med-PaLM,并在GPT-4和Med-PaLM-2之内达到了10%和5%的性能;6.代码和MEDITRON模型权重已发布以推动更有能力的医学LLM的开源发展。
- 最近的相关研究包括:1. Med-BERT: a pre-trained biomedical language representation model for electronic health record; 2. ClinicalBERT: modeling clinical notes and predicting hospital readmission; 3. Pretraining transformers for biomedical text mining with limited medical corpora; 4. BioMegatron: larger and faster biomedical language model training.
沙发等你来抢
去评论
评论
沙发等你来抢