- 简介本文探索了视觉语言模型在各种任务中的广泛应用,并取得了令人满意的表现,但是它们在医学影像领域的应用还未得到充分的探索。在本文中,我们提出了一个统一的框架——LiteGPT,用于医学影像。我们利用多个预训练的视觉编码器来丰富信息并增强视觉语言模型的性能。据我们所知,这是第一项利用视觉语言模型进行医学图像联合定位和分类的研究。此外,我们是提供胸部X射线疾病定位基准的先驱。最后,在经过充分基准测试的VinDr-CXR数据集上,我们设定了新的图像分类任务的最新性能。所有代码和模型均可在网上公开获取:https://github.com/leduckhai/LiteGPT。
- 图表
- 解决问题本论文试图使用视觉-语言模型解决医学图像定位和分类的问题,特别是在胸部X光片的疾病定位方面提供基线。
- 关键思路论文提出了一个统一的框架LiteGPT,利用多个预训练的视觉编码器来丰富信息和提高性能,并在医学图像中使用视觉-语言模型进行联合定位和分类。这是首次尝试将视觉-语言模型应用于医学图像领域。
- 其它亮点论文在VinDr-CXR数据集上实现了新的图像分类任务的最优性能,并提供了胸部X光片疾病定位的基线。同时,作者提供了开源代码和模型。
- 最近的相关研究包括使用视觉-语言模型进行自然图像的分类和定位,如ViLBERT和UNICORN。
沙发等你来抢
去评论
评论
沙发等你来抢