Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery

简介

最近在外科视觉问答（Surgical-VQA）和相关区域定位方面的进展为机器人和医疗应用提供了很大的希望，解决了个性化手术指导自动化方法的迫切需求。然而，现有模型主要提供简单的结构化答案，由于在识别长距离依赖和对齐多模态信息方面的能力有限，它们难以处理复杂情境。在本文中，我们介绍了Surgical-LVLM，这是一种专为复杂外科场景量身定制的新型个性化大型视觉语言模型。利用预训练的大型视觉语言模型和专门的视觉感知LoRA（VP-LoRA）块，我们的模型在理解外科环境中的复杂视觉语言任务方面表现出色。在解决视觉定位任务时，我们提出了Token-Interaction（TIT）模块，它在将其投影到潜在空间后，加强了定位模块与大型视觉语言模型（LVLM）的语言响应之间的交互。我们在几个基准测试中展示了Surgical-LVLM的有效性，包括EndoVis-17-VQLA，EndoVis-18-VQLA和新引入的EndoVis Conversations数据集，这些数据集树立了新的性能标准。我们的工作通过提供一个上下文感知的解决方案，有助于推进自动化外科指导领域的发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决自动化手术辅导中的视觉问题，提出了一种针对复杂手术场景的个性化大视觉语言模型。
关键思路

本文提出了Surgical-LVLM模型，通过预训练的大视觉语言模型和专门的VP-LoRA模块，加强了视觉-语言任务的理解能力和长距离依赖关系的识别能力，并提出了TIT模块来加强视觉定位任务的交互。
其它亮点

实验结果表明，Surgical-LVLM模型在EndoVis-17-VQLA、EndoVis-18-VQLA和新引入的EndoVis Conversations数据集上表现出色，取得了新的性能标准。
相关研究

最近在这个领域中，也有一些相关的研究，如Surgical-VQA和相关区域定位等。

Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery

提问交流

提问交流