- 简介手术三元组识别是实现下一代上下文感知手术室的重要基础。其目标是识别手术视频帧中呈现的仪器、动词和目标的组合。本文提出了DiffTriplet,一种新的手术三元组识别生成框架,采用扩散模型,通过迭代去噪来预测手术三元组。为了处理三元组关联的挑战,我们在扩散框架中提出了两个独特的设计,即关联学习和关联指导。在训练过程中,我们优化模型在三元组和个体组件的联合空间中,以捕捉它们之间的依赖关系。在推理过程中,我们将关联约束集成到迭代去噪过程的每个更新中,利用个体组件的信息来精细化三元组预测。在CholecT45和CholecT50数据集上的实验表明,所提出的方法在手术三元组识别方面具有卓越的性能,达到了最新的最优表现。我们的代码将会发布。
- 图表
- 解决问题本论文旨在解决手术视频中的手术三元组识别问题,提出了一种基于扩散模型的生成框架DiffTriplet,通过迭代去噪的方式预测手术三元组,解决了三元组关联的挑战。
- 关键思路论文提出了一种新的生成框架DiffTriplet,通过迭代去噪的方式预测手术三元组,并在训练过程中优化模型以捕捉它们之间的依赖关系。在推理过程中,将关联约束集成到每次迭代去噪的更新中,使用单独组件的信息来细化三元组预测。
- 其它亮点实验表明,DiffTriplet在CholecT45和CholecT50数据集上表现优异,达到了手术三元组识别的最新性能水平。研究者将公开代码。
- 近期的相关研究包括:'Surgical Phase Recognition and Tool Detection with Mask R-CNN and Fisher Vectors', 'Surgical tool detection and tracking in retinal microsurgery videos using deep learning-based techniques', 'Endonet: A Deep Convolutional Neural Network for Endoscopy and its Application to Colorectal Polyp Detection'等。
沙发等你来抢
去评论
评论
沙发等你来抢