- 简介使用预训练的视觉-语言模型(VLM)进行微调,在医学图像和文本描述协同方面表现出了显著的能力。然而,许多预训练数据集由于涉及患者隐私问题而受到限制,可能包含会对下游性能产生负面影响的噪声。此外,对多模态生成的依赖日益增长,加剧了这个问题,因为它容易受到对抗性攻击的影响。为了研究在对抗性噪声数据上训练的VLM在下游医学任务中的表现,我们首先使用多模态对抗性攻击来制造噪声上游数据集。通过我们的全面分析,我们揭示了适度的噪声可以增强模型的鲁棒性和可转移性,但是增加噪声水平会对下游任务性能产生负面影响。为了缓解这个问题,我们提出了修复对抗性噪声(RAN)框架,这是一个旨在有效防御对抗性攻击并在微调过程中纠正上游噪声影响的方法。
- 图表
- 解决问题本论文旨在研究使用对抗噪声数据训练的视觉语言模型在医学任务中的表现,并提出了一种用于防御对抗攻击和纠正上游噪声影响的框架
- 关键思路通过对多模态对抗攻击制作噪声上游数据集,研究表明适度的噪声可以增强模型的鲁棒性和可传递性,但增加噪声水平会对下游任务性能产生负面影响。为了解决这个问题,提出了纠正对抗性噪声(RAN)框架,可以有效地防御对抗攻击并纠正精调过程中上游噪声的影响
- 其它亮点本文设计了实验来验证模型的性能,使用医学图像和文本描述数据集。提出的RAN框架在对抗攻击下表现出色,可以有效地提高模型的鲁棒性和可传递性。
- 近期的相关研究包括使用VLMs进行医学图像和文本描述合成的研究,以及使用对抗训练提高模型鲁棒性的研究,例如“Adversarial Training for Free!”, “Generating Multi-Label Discrete Patient Records using Generative Adversarial Networks”等。
沙发等你来抢
去评论
评论
沙发等你来抢