- 简介这篇文章讨论了医学视觉问答(Med-VQA)的交叉点,这是一个具有挑战性的研究课题,具有患者参与和临床专家参与进行第二意见的优点。然而,现有的基于联合嵌入的Med-VQA方法无法解释其提供的结果是基于正确的推理还是巧合答案,这破坏了VQA答案的可信度。本文研究构建一个更加连贯和稳定的Med-VQA结构。受因果效应的启发,我们提出了一种新颖的三角形推理VQA(Tri-VQA)框架,该框架从“为什么是这个答案?”的角度构建反向因果问题,以阐明答案的来源并刺激更合理的正向推理过程。我们在来自五个中心的内窥镜超声(EUS)多属性注释数据集上评估了我们的方法,并在医学VQA数据集上进行了测试。实验结果表明,我们的方法优于现有方法。我们的代码和预训练模型可在https://anonymous.4open.science/r/Tri_VQA上获得。
- 图表
- 解决问题本文旨在构建一个更具连贯性和稳定性的医疗视觉问答(Med-VQA)框架,解决现有基于联合嵌入的Med-VQA方法无法说明提供的答案是否基于正确的推理或巧合答案的问题,从而破坏了VQA答案的可信度的问题。
- 关键思路本文提出了一种新的三角推理VQA(Tri-VQA)框架,受因果效应的启发,从“为什么这个答案?”的角度构建反向因果问题,以阐明答案的来源并激发更合理的正向推理过程。
- 其它亮点本文在来自五个中心的内窥镜超声(EUS)多属性注释数据集上进行了评估,并在医学VQA数据集上进行了测试。实验结果表明,本文方法优于现有方法。作者提供了代码和预训练模型。
- 最近在这个领域中,还有一些相关的研究,如《Deep Learning for Medical Image Analysis: A Review》、《Medical Visual Question Answering: A Survey》等。
沙发等你来抢
去评论
评论
沙发等你来抢