- 简介人工智能已经在医疗应用中产生了显著影响,特别是随着医学大型视觉语言模型(Med-LVLMs)的出现,为自动化和个性化医疗的未来带来了乐观的前景。然而,Med-LVLMs的可信度尚未得到验证,未来模型部署存在重大风险。在本文中,我们介绍了CARES,并旨在全面评估Med-LVLMs在医疗领域的可信度。我们评估了Med-LVLMs在五个维度上的可信度,包括可信度、公平性、安全性、隐私和鲁棒性。CARES包括约41K个问题-答案对,包括闭合和开放式格式,涵盖16种医学图像模态和27个解剖区域。我们的分析显示,这些模型在可信度方面存在一贯的问题,常常显示出事实不准确,并未能在不同的人口群体中保持公平。此外,它们容易受到攻击,并表现出缺乏隐私意识。我们在https://github.com/richard-peng-xia/CARES公开发布了我们的基准和代码。
- 图表
- 解决问题评估医疗大规模视觉语言模型的可信度问题
- 关键思路CARES评估系统通过五个维度对医疗大规模视觉语言模型的可信度进行全面评估
- 其它亮点CARES包含41K个问题-答案对,涵盖16种医学图像模态和27个解剖区域,发现模型存在事实不准确、缺乏公平性、存在安全漏洞、隐私意识不足等问题
- 近期的相关研究主要集中在医疗领域的人工智能应用,如基于深度学习的医学图像分析、疾病预测等。
沙发等你来抢
去评论
评论
沙发等你来抢