PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery

2024年05月22日
  • 简介
    这篇论文介绍了PitVQA数据集和PitVQA-Net模型,用于在内镜垂体手术中进行视觉问答(VQA),利用大型语言模型(LLMs)提供了改善术中决策和促进外科医生与人工智能交互的独特机会。然而,手术VQA的LLMs的开发受到了缺乏多样化和广泛数据集的困扰,同时由于图像和文本两种信息类型之间的固有差异以及对齐它们所涉及的复杂性,图像和文本模态的上下文融合仍然是一个开放的研究挑战。PitVQA是一个新颖的数据集,专门设计用于内镜垂体手术中的VQA,包括25个操作视频和丰富的问题-答案对,涵盖了关键的手术方面,如阶段和步骤识别、上下文理解、工具检测和定位以及工具-组织相互作用。PitVQA-Net包括一种新颖的基于图像的文本嵌入,将图像和文本特征投影到共享嵌入空间中,以及具有激励块分类头的GPT2骨干网络,用于在内镜垂体手术的复杂领域中生成相关的答案。我们的图像-文本嵌入利用联合嵌入、交叉注意和上下文表示来理解问题和手术图像之间的上下文关系。我们在PitVQA和公开可用的EndoVis18-VQA数据集上展示了PitVQA-Net的有效性,分别在平衡准确性上比最近的基线提高了8%和9%。我们的代码和数据集可以在https://github.com/mobarakol/PitVQA上找到。
  • 图表
  • 解决问题
    论文旨在解决在外科手术领域中使用大型语言模型进行视觉问答(VQA)的问题,但是由于缺乏复杂的推理任务和图像文本融合的挑战,这一领域的数据集和算法还不够完善。
  • 关键思路
    该论文提出了PitVQA数据集和PitVQA-Net模型,用于视觉问答中的内镜垂体手术,通过共享嵌入空间和交叉注意力等技术,实现了图像和文本的融合,并在EndoVis18-VQA数据集上取得了比最新基线算法更好的结果。
  • 其它亮点
    PitVQA数据集包含25个手术视频和丰富的问题-答案对,涵盖了手术的关键方面,如阶段和步骤识别、上下文理解、工具检测和定位、工具-组织交互等。PitVQA-Net模型使用了新颖的图像嵌入和GPT2骨干网络,实现了上下文相关的答案生成。该论文代码和数据集已经开源。
  • 相关研究
    与此相关的研究包括:EndoVis18-VQA数据集以及在视觉问答领域中使用大型语言模型的其他研究,如VQA-Med和SurgVQA。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论