- 简介通过视频进行手术场景感知对于推进机器人手术、远程手术和人工智能辅助手术,尤其是眼科手术至关重要。然而,缺乏多样性和丰富注释的视频数据集阻碍了智能系统用于手术工作流分析的发展。现有的手术工作流分析数据集通常面临小规模、手术和阶段类别缺乏多样性以及缺乏时间本地化注释等挑战,限制了复杂和多样化真实手术场景中的动作理解和模型泛化验证的要求。为了解决这一问题,我们引入了OphNet,这是一个大规模的、专家注释的眼科手术工作流理解视频基准。OphNet包括:1)一个包含2,278个手术视频的多样化收集,涵盖66种白内障、青光眼和角膜手术类型,详细注释了102个独特的手术阶段和150个粒度操作;2)它为每个手术、阶段和操作提供了顺序和分层注释,实现了全面理解和改进的可解释性;3)此外,OphNet提供了时间本地化注释,有助于在手术工作流中进行时间定位和预测任务。OphNet拥有约205小时的手术视频,比现有的最大手术工作流分析基准大约多20倍。我们的数据集和代码已在以下网址提供:\url{https://github.com/minghu0830/OphNet-benchmark}。
- 图表
- 解决问题论文旨在解决缺乏多样化和详细标注的眼科手术视频数据集,阻碍了智能系统对手术工作流程的分析和理解的问题。
- 关键思路论文介绍了OphNet,一个大规模的、专家注释的眼科手术视频基准,涵盖66种白内障、青光眼和角膜手术类型,提供了102个独特的手术阶段和150个细致的操作的详细注释,以及时间本地化注释,使得在手术工作流程中进行时间本地化和预测任务更加容易。
- 其它亮点OphNet是目前最大的手术工作流程分析基准的20倍,提供了全面的理解和改进的可解释性。数据集和代码已经公开发布。
- 最近的相关研究包括:1.《Surgical Workflow Analysis: A Review of the State of the Art》2.《Surgical Phase Recognition and Tool Detection using Faster R-CNN with ResNet-101》3.《EndoNet: A Deep Architecture for Recognition Tasks on Laparoscopic Videos》
沙发等你来抢
去评论
评论
沙发等你来抢