M3T: Multi-Modal Medical Transformer to bridge Clinical Context with Visual Insights for Retinal Image Medical Description Generation

2024年06月19日
  • 简介
    自动视网膜图像医学描述生成对于简化医学诊断和治疗计划至关重要。现有的挑战包括依赖学习到的视网膜图像表示、处理多种成像模式的困难以及在视觉表示中缺乏临床背景。为了解决这些问题,我们提出了多模态医学转换器(M3T),这是一种新颖的深度学习架构,将视觉表示与诊断关键词相结合。与以往专注于特定方面的研究不同,我们的方法高效地从两种模态中学习上下文信息和语义,使得能够生成准确、连贯的视网膜图像医学描述。在DeepEyeNet数据集上进行的实验研究验证了M3T达到了眼科医生的标准,相对于最佳基准模型,BLEU@4指标有了显著的13.5%提高。
  • 图表
  • 解决问题
    论文旨在解决视网膜图像医学描述生成中存在的问题,包括对学习视网膜图像表示的依赖性、处理多种成像模式的困难以及视觉表示中缺乏临床背景等。
  • 关键思路
    论文提出了一种新的深度学习架构Multi-Modal Medical Transformer (M3T),将视觉表示与诊断关键词相结合,从两种模态中高效地学习上下文信息和语义信息,从而生成精确、连贯的视网膜图像医学描述。
  • 其它亮点
    论文使用DeepEyeNet数据集进行实验验证,证明了M3T达到了眼科医生的标准,并且在BLEU@4上相比最佳基线模型有了13.5%的显著提高。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Retinal Image Classification Using Deep Convolutional Neural Networks》;2.《Automated Diagnosis of Diabetic Retinopathy Using Deep Learning》;3.《A Review on Deep Learning Techniques for Retinal Image Analysis》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论