Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis

简介

这篇文章讨论了医学视觉问答（Med-VQA）的交叉点，这是一个具有挑战性的研究课题，具有患者参与和临床专家参与进行第二意见的优点。然而，现有的基于联合嵌入的Med-VQA方法无法解释其提供的结果是基于正确的推理还是巧合答案，这破坏了VQA答案的可信度。本文研究构建一个更加连贯和稳定的Med-VQA结构。受因果效应的启发，我们提出了一种新颖的三角形推理VQA（Tri-VQA）框架，该框架从“为什么是这个答案？”的角度构建反向因果问题，以阐明答案的来源并刺激更合理的正向推理过程。我们在来自五个中心的内窥镜超声（EUS）多属性注释数据集上评估了我们的方法，并在医学VQA数据集上进行了测试。实验结果表明，我们的方法优于现有方法。我们的代码和预训练模型可在https://anonymous.4open.science/r/Tri_VQA上获得。
图表
解决问题

本文旨在构建一个更具连贯性和稳定性的医疗视觉问答（Med-VQA）框架，解决现有基于联合嵌入的Med-VQA方法无法说明提供的答案是否基于正确的推理或巧合答案的问题，从而破坏了VQA答案的可信度的问题。
关键思路

本文提出了一种新的三角推理VQA（Tri-VQA）框架，受因果效应的启发，从“为什么这个答案？”的角度构建反向因果问题，以阐明答案的来源并激发更合理的正向推理过程。
其它亮点

本文在来自五个中心的内窥镜超声（EUS）多属性注释数据集上进行了评估，并在医学VQA数据集上进行了测试。实验结果表明，本文方法优于现有方法。作者提供了代码和预训练模型。
相关研究

最近在这个领域中，还有一些相关的研究，如《Deep Learning for Medical Image Analysis: A Review》、《Medical Visual Question Answering: A Survey》等。

Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis

评论