Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis

2024年06月21日
  • 简介
    这篇文章讨论了医学视觉问答(Med-VQA)的交叉点,这是一个具有挑战性的研究课题,具有患者参与和临床专家参与进行第二意见的优点。然而,现有的基于联合嵌入的Med-VQA方法无法解释其提供的结果是基于正确的推理还是巧合答案,这破坏了VQA答案的可信度。本文研究构建一个更加连贯和稳定的Med-VQA结构。受因果效应的启发,我们提出了一种新颖的三角形推理VQA(Tri-VQA)框架,该框架从“为什么是这个答案?”的角度构建反向因果问题,以阐明答案的来源并刺激更合理的正向推理过程。我们在来自五个中心的内窥镜超声(EUS)多属性注释数据集上评估了我们的方法,并在医学VQA数据集上进行了测试。实验结果表明,我们的方法优于现有方法。我们的代码和预训练模型可在https://anonymous.4open.science/r/Tri_VQA上获得。
  • 图表
  • 解决问题
    本文旨在构建一个更具连贯性和稳定性的医疗视觉问答(Med-VQA)框架,解决现有基于联合嵌入的Med-VQA方法无法说明提供的答案是否基于正确的推理或巧合答案的问题,从而破坏了VQA答案的可信度的问题。
  • 关键思路
    本文提出了一种新的三角推理VQA(Tri-VQA)框架,受因果效应的启发,从“为什么这个答案?”的角度构建反向因果问题,以阐明答案的来源并激发更合理的正向推理过程。
  • 其它亮点
    本文在来自五个中心的内窥镜超声(EUS)多属性注释数据集上进行了评估,并在医学VQA数据集上进行了测试。实验结果表明,本文方法优于现有方法。作者提供了代码和预训练模型。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Deep Learning for Medical Image Analysis: A Review》、《Medical Visual Question Answering: A Survey》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论