LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

向作者提问

NEW

简介

眼科学在诊断和治疗规划方面严重依赖于详细的图像分析。虽然大型视觉语言模型（LVLMs）在理解复杂的视觉信息方面表现出了潜力，但它们在眼科图像上的表现仍未得到充分探索。我们介绍了LMOD，这是一个用于评估LVLMs在眼科图像上的数据集和基准，涵盖解剖学理解、诊断分析和人口统计学提取。LMOD包括21,993张图像，涵盖光学相干断层扫描、扫描激光眼镜、眼部照片、手术场景和彩色眼底照片。我们对13个最先进的LVLM进行基准测试，发现它们远非完美，无法理解眼科图像。模型在诊断分析和人口统计学提取方面存在困难，揭示了空间推理、诊断分析、处理域外查询以及处理眼科图像生物标记的保障方面的弱点。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型视觉语言模型在眼科图像上的表现，特别是在解剖学理解、诊断分析和人口统计学方面的表现。
关键思路

引入LMOD数据集，对13个最先进的LVLM进行基准测试，发现它们在理解眼科图像方面远未达到完美。模型在诊断分析和人口统计学方面存在困难，揭示了空间推理、处理域外查询、处理眼科图像生物标志物的弱点。
其它亮点

LMOD数据集包括21,993个图像，涵盖光学相干断层扫描、扫描激光眼底成像、眼部照片、手术场景和彩色眼底照片。实验发现，当前的LVLM在理解眼科图像方面表现不够理想，需要进一步改进。
相关研究

近期相关研究包括： 1. 'Vision-Language Pre-training with Contrastive Cross-Modal Tasks'； 2. 'VisualBERT: A Simple and Performant Baseline for Vision and Language'； 3. 'Unified Vision-Language Pre-Training for Image Captioning and VQA'。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问