有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%

通常情况下，模型性能较差可能是由于训练数据质量不高引起的。即使在 2022 年，由于数据是公司最重要的资产之一，开发人员也经常因数据质量低劣而感到工作棘手。本文中，总部位于德国柏林的面向视觉 AI 从业者的下一代注释工具提供商 Hasty，希望通过更快、更高效地清理数据来简化和降低视觉 AI 解决方案开发的风险。

研究者开发了 AI Consensus Scoring (AI CS) 功能来改进、更新和升级最流行的目标检测基准数据集 PASCAL VOC 2012 。他们的目的是如果数据质量足够好，模型性能会不会随之提高，为了执行这个测试，设置了一个包含以下步骤的实验：

在 Hasty 平台上使用 AI Consensus Scoring 功能清洗 PASCAL VOC 2012；
使用 Faster R-CNN 架构在原始的 PASCAL 训练集上训练自定义模型；
使用相同的 Faster R-CNN 架构和参数，在清理后的 PASCAL 训练集上准备一个自定义模型；
实验之后，得出结论。

实验结论：

在一周内清理了 PASCAL VOC 2012 数据集中的 17120 张图像，并发现 PASCAL 中 6.5% 的图像有不同的错误（缺失标签、类标签错误等）。研究者在创纪录的时间内修复了这些错误，并将模型的性能提高了 13% 的 mAP。

该研究并没有试图击败任何 SOTA 或获得比此前研究更好的结果。研究者希望通过实验结果展示：花费时间改进数据有利于模型性能。希望通过添加 3000 个缺失标签使 COCO mAP 增加 13% 的案例足够令人信服。

原文链接：

https://hasty.ai/content-hub/articles/cleaning-pascal-improving-map-by-13?utm_source=mk832ksa

内容中包含的图片若涉及版权问题，请及时与我们联系删除

有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%

评论列表

评论