通常情况下,模型性能较差可能是由于训练数据质量不高引起的。即使在 2022 年,由于数据是公司最重要的资产之一,开发人员也经常因数据质量低劣而感到工作棘手。本文中,总部位于德国柏林的面向视觉 AI 从业者的下一代注释工具提供商 Hasty,希望通过更快、更高效地清理数据来简化和降低视觉 AI 解决方案开发的风险。
研究者开发了 AI Consensus Scoring (AI CS) 功能来改进、更新和升级最流行的目标检测基准数据集 PASCAL VOC 2012 。他们的目的是如果数据质量足够好,模型性能会不会随之提高,为了执行这个测试,设置了一个包含以下步骤的实验:
-
在 Hasty 平台上使用 AI Consensus Scoring 功能清洗 PASCAL VOC 2012;
-
使用 Faster R-CNN 架构在原始的 PASCAL 训练集上训练自定义模型;
-
使用相同的 Faster R-CNN 架构和参数,在清理后的 PASCAL 训练集上准备一个自定义模型;
-
实验之后,得出结论。
实验结论:
该研究并没有试图击败任何 SOTA 或获得比此前研究更好的结果。研究者希望通过实验结果展示:花费时间改进数据有利于模型性能。希望通过添加 3000 个缺失标签使 COCO mAP 增加 13% 的案例足够令人信服。
原文链接:
https://hasty.ai/content-hub/articles/cleaning-pascal-improving-map-by-13?utm_source=mk832ksa
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢