LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

2024年10月02日
  • 简介
    眼科学在诊断和治疗规划方面严重依赖于详细的图像分析。虽然大型视觉语言模型(LVLMs)在理解复杂的视觉信息方面表现出了潜力,但它们在眼科图像上的表现仍未得到充分探索。我们介绍了LMOD,这是一个用于评估LVLMs在眼科图像上的数据集和基准,涵盖解剖学理解、诊断分析和人口统计学提取。LMOD包括21,993张图像,涵盖光学相干断层扫描、扫描激光眼镜、眼部照片、手术场景和彩色眼底照片。我们对13个最先进的LVLM进行基准测试,发现它们远非完美,无法理解眼科图像。模型在诊断分析和人口统计学提取方面存在困难,揭示了空间推理、诊断分析、处理域外查询以及处理眼科图像生物标记的保障方面的弱点。
  • 作者讲解
  • 图表
  • 解决问题
    评估大型视觉语言模型在眼科图像上的表现,特别是在解剖学理解、诊断分析和人口统计学方面的表现。
  • 关键思路
    引入LMOD数据集,对13个最先进的LVLM进行基准测试,发现它们在理解眼科图像方面远未达到完美。模型在诊断分析和人口统计学方面存在困难,揭示了空间推理、处理域外查询、处理眼科图像生物标志物的弱点。
  • 其它亮点
    LMOD数据集包括21,993个图像,涵盖光学相干断层扫描、扫描激光眼底成像、眼部照片、手术场景和彩色眼底照片。实验发现,当前的LVLM在理解眼科图像方面表现不够理想,需要进一步改进。
  • 相关研究
    近期相关研究包括: 1. 'Vision-Language Pre-training with Contrastive Cross-Modal Tasks'; 2. 'VisualBERT: A Simple and Performant Baseline for Vision and Language'; 3. 'Unified Vision-Language Pre-Training for Image Captioning and VQA'。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问