上海交大的研究学者发文 MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis ,公布了其收集整理的10个医学领域的图像数据集MedMNIST,旨在促进AutoML(自动机器学习)在医学领域的技术研究。

该数据集的特点可以概括如下:

  • 利于研究教学:数据来自具有知识共享(CC)许可的多个开放式医学图像数据集,易于用于教育目的。
  • 标准化:将数据预处理为相同格式,无需用户了解任何背景知识
  • 多样性:涵盖了各种数据规模(从100到100,000)和任务(二进制/多类,有序回归和多标签分类)。
  • 轻量级:28×28的图像大小适合快速原型设计和试验多模式机器学习和AutoML算法。

该数据集覆盖了常见的医学影像数据源:病理图片、胸部X光、皮肤镜、超声、眼底摄影、OCT、CT等。另外,作者提供了代码,在此10个数据集上进行了人工设计网络和常见AutoML模型的评测。

评测结果显示:

  • Google AutoML Vision 在大多数情况下都表现不错,但相比手工设计的 ResNet-18/50也有逊色的时候;
  • auto-sklearn 的表现一直很稳定的差 /sad;
  • AutoKeras 在数据量较大的数据集上表现很好,在数据量小时往往不佳。

感兴趣的可以戳项目链接。

内容中包含的图片若涉及版权问题,请及时与我们联系删除