TXL-PBC: a freely accessible labeled peripheral blood cell dataset

简介

在最近的一项研究中，我们发现公开的BCCD和BCD数据集存在标记错误、样本数量不足和数据质量差等重大问题。为了解决这些问题，我们对这两个数据集进行了样本删除、重新标记和整合。此外，我们引入了PBC和Raabin-WBC数据集，并最终创建了一个高质量、样本平衡的新数据集，命名为TXL-PBC。该数据集包含1008个训练集、288个验证集和144个测试集。首先，该数据集经过了严格的手动注释、YOLOv8n模型的自动注释和手动审核步骤，以确保注释的准确性和一致性。其次，我们解决了原始数据集中血细胞错误标记的问题。标签边界框面积分布和标签数量比BCCD和BCD数据集更好。此外，我们使用YOLOv8n模型对这三个数据集进行了训练，TXL-PBC数据集的性能超过了原始的两个数据集。最后，我们采用YOLOv5n、YOLOv5s、YOLOv5l、YOLOv8s、YOLOv8m检测模型作为TXL-PBC的基线模型。这项研究不仅提高了血细胞数据集的质量，而且支持研究人员改进血细胞目标检测模型。我们在https://github.com/lugan113/TXL-PBC\_Dataset上发布了我们的免费可访问的TXL-PBC数据集。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决公共血细胞数据集存在的标签错误、样本量不足和数据质量差等问题，提出了一个新的高质量、样本平衡的数据集TXL-PBC，并使用YOLOv8n模型进行训练和性能评估。
关键思路

论文的关键思路是通过严格的手动标注、YOLOv8n模型自动标注和手动审核等步骤，解决血细胞数据集中的标注问题，同时引入新的数据集TXL-PBC，并使用不同的检测模型进行性能评估。
其它亮点

论文提出的TXL-PBC数据集经过了严格的手动标注、自动标注和审核，解决了原始数据集中的标注问题，同时使用不同的检测模型对其进行了性能评估。研究结果表明，TXL-PBC数据集的性能优于原始数据集。此外，作者还公开了TXL-PBC数据集的代码，支持研究者进一步研究。
相关研究

近期的相关研究包括使用不同的模型对血细胞数据集进行性能评估，如YOLOv5n、YOLOv5s、YOLOv5l、YOLOv8s和YOLOv8m等。

TXL-PBC: a freely accessible labeled peripheral blood cell dataset

提问交流

提问交流