为AI模型获取大规模带有高质量注释的数据仍然具有挑战性。

2021 年 10 月 7 日,npj digital medicine杂志发表文章,介绍了一种数据标注系统,该系统基于AI,可以减少注释者的工作量,同时提高注释的质量。

论文链接:https://doi-org.xjpgl.80599.net/10.1038/s41746-021-00520-6

摘要

生物学已成为部署深度学习和人工智能(AI)的主要领域,这在很大程度上是由该领域所能产生的海量数据集所促成的,大多数AI任务的关键是可用来训练AI模型的足够大的标记数据集。利用显微镜等技术很容易生成包含数百万个细胞和结构的图像数据集。然而,为AI模型获取大规模带有高质量注释的数据仍然具有挑战性。

为此,研究者提出人类增强的标注系统(Human-Augmenting Labeling System,HALS)的概念,HALS是一种人参与其中的数据标注体系。它从未初始化的情况下开始并实时学习人类的注释。HALS使用由三个深度学习模型组成多重AI模型,仅从几个示例中学习,可以及时减少注释者的工作量,同时提高注释的质量。本研究利用4个常见的细胞和两个组织染色类型,结合7名生物标本显微分析领域的病理学家专家的实验数据,展示了HALS体系如何减少90.60%的工作量,并且将平均数据注释质量提升了4.34%。

HALS系统架构如上图,(a)数据预处理。数字图像首先通过一个深度学习模型(HoverNet)进行预处理,该模型对每个单元格进行分割并生成包围盒。然后通过一个带有两个AI模型的标记接口,实时地使用图像和包围盒来增强和加速专家标记。(b)实时AI增强框架。

内容中包含的图片若涉及版权问题,请及时与我们联系删除