- 简介开发有效的生物医学检索模型对于在知识密集型生物医学任务中表现出色非常重要,但由于公共注释的生物医学数据和计算资源的不足,这仍然具有挑战性。我们提出了BMRetriever,一系列通过在大型生物医学语料库上进行无监督预训练,然后在标记数据集和合成对的组合上进行指令微调,以增强生物医学检索的密集检索器。在11个数据集的5个生物医学任务上的实验验证了BMRetriever在各种生物医学应用中的有效性。BMRetriever还展示了强大的参数效率,410M变体的性能超过了大约11.7倍的基线,2B变体的性能与超过5B参数的模型相当。培训数据和模型检查点发布在\url{https://huggingface.co/BMRetriever},以确保透明性、可重复性和应用于新领域。
- 图表
- 解决问题BMRetriever试图通过在大型生物医学语料库上进行无监督预训练,然后在标记数据集和合成对的组合上进行指导微调,提高生物医学信息检索的效果。由于缺乏足够的公开注释的生物医学数据和计算资源,这是一个仍然具有挑战性的问题。
- 关键思路BMRetriever的关键思路是使用无监督预训练和指导微调相结合的方法来提高生物医学信息检索的效果,并且在参数效率方面表现出色。
- 其它亮点BMRetriever在11个数据集上的5个生物医学任务中进行了实验,验证了其在各种生物医学应用中的有效性。BMRetriever还表现出强大的参数效率,410M版本的性能超过了大约11.7倍的基线模型,2B版本的性能则与超过5B参数的模型相当。作者公开了训练数据和模型检查点,以确保透明度、可重复性和应用于新领域。
- 最近在这个领域中,还有一些相关的研究,例如《BioBERT: a pre-trained biomedical language representation model for biomedical text mining》和《PubMedBERT: A Pretrained Language Model for Biomedical Question Answering》。
沙发等你来抢
去评论
评论
沙发等你来抢