- 简介公平性在深度学习中至关重要,特别是在医疗保健领域,这些模型会影响诊断和治疗决策。尽管公平性已在仅视觉领域得到研究,但医疗视觉语言(VL)模型的公平性仍未被探索,因为缺乏用于研究公平性的医疗VL数据集。为了弥补这一研究差距,我们介绍了第一个公平的视觉语言医疗数据集FairVLMed,该数据集提供了详细的人口属性、基本事实标签和临床笔记,以便深入研究VL基础模型中的公平性。利用FairVLMed,我们对两个广泛使用的VL模型(CLIP和BLIP2)进行了全面的公平性分析,这些模型在自然和医疗领域上都进行了预训练,并跨越四个不同的受保护属性进行了分析。我们的结果突出显示了所有VL模型中的显着偏见,其中亚洲人、男性、非西班牙裔和西班牙语是种族、性别、族裔和语言等受保护属性中首选的子群。为了缓解这些偏见,我们提出了FairCLIP,这是一种基于最优传输的方法,通过减少整体样本分布与每个人口群体对应的分布之间的Sinkhorn距离,实现了性能和公平性之间的有利平衡。作为这种类型的第一个VL数据集,FairVLMed具有促进开发既具有伦理意识又具有临床效应的机器学习模型的潜力。我们的数据集和代码可在https://ophai.hms.harvard.edu/datasets/fairvlmed10k上获得。
- 图表
- 解决问题论文旨在解决医疗视觉语言模型中的公平性问题,为此引入了第一个公平的医疗视觉语言数据集FairVLMed,并提出了一个基于最优传输的方法FairCLIP来减轻模型中存在的偏见。
- 关键思路论文的关键思路是使用FairVLMed数据集来评估现有的医疗视觉语言模型中的公平性问题,并提出一种基于最优传输的方法来减轻模型中存在的偏见。
- 其它亮点论文使用FairVLMed数据集对两种常用的医疗视觉语言模型进行公平性分析,并发现所有模型中都存在显著的偏见。作者提出的FairCLIP方法通过减少样本分布与每个人口统计组对应的分布之间的Sinkhorn距离,在性能和公平性之间实现了有利的权衡。该数据集和代码已经公开。
- 最近的相关研究包括公平性在机器学习中的研究,以及医疗图像和自然语言处理方面的研究。
沙发等你来抢
去评论
评论
沙发等你来抢