- 简介眼科学在诊断和治疗规划方面严重依赖于详细的图像分析。虽然大型视觉语言模型(LVLMs)在理解复杂的视觉信息方面表现出了潜力,但它们在眼科图像上的表现仍未得到充分探索。我们介绍了LMOD,这是一个用于评估LVLMs在眼科图像上的数据集和基准,涵盖解剖学理解、诊断分析和人口统计学提取。LMOD包括21,993张图像,涵盖光学相干断层扫描、扫描激光眼镜、眼部照片、手术场景和彩色眼底照片。我们对13个最先进的LVLM进行基准测试,发现它们远非完美,无法理解眼科图像。模型在诊断分析和人口统计学提取方面存在困难,揭示了空间推理、诊断分析、处理域外查询以及处理眼科图像生物标记的保障方面的弱点。
-
- 图表
- 解决问题评估大型视觉语言模型在眼科图像上的表现,特别是在解剖学理解、诊断分析和人口统计学方面的表现。
- 关键思路引入LMOD数据集,对13个最先进的LVLM进行基准测试,发现它们在理解眼科图像方面远未达到完美。模型在诊断分析和人口统计学方面存在困难,揭示了空间推理、处理域外查询、处理眼科图像生物标志物的弱点。
- 其它亮点LMOD数据集包括21,993个图像,涵盖光学相干断层扫描、扫描激光眼底成像、眼部照片、手术场景和彩色眼底照片。实验发现,当前的LVLM在理解眼科图像方面表现不够理想,需要进一步改进。
- 近期相关研究包括: 1. 'Vision-Language Pre-training with Contrastive Cross-Modal Tasks'; 2. 'VisualBERT: A Simple and Performant Baseline for Vision and Language'; 3. 'Unified Vision-Language Pre-Training for Image Captioning and VQA'。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流