Precision at Scale: Domain-Specific Datasets On-Demand

2024年07月03日
  • 简介
    在自监督学习领域,传统的智慧倾向于使用大规模的通用领域数据集来预训练强大的骨干网络。本文挑战了这一想法,探索了是否有可能弥合通用数据集和(传统上较小的)特定领域数据集之间的规模差距,以减少当前的性能差距。更具体地,我们提出了一种新方法——比例精度(PaS),用于自主按需创建特定领域数据集。PaS管道的模块化使得可以利用最先进的基础和生成模型,以最小的人为干预创建任何给定大小和属于任何给定领域的图像集合。在两个复杂领域的广泛分析中,证明了PaS数据集在多样性、规模和训练视觉变换器和卷积神经网络的有效性方面优于现有的传统特定领域数据集。特别地,我们证明了自动生成的特定领域数据集比大规模监督数据集(如ImageNet-1k和ImageNet-21k)更适合预训练。具体而言,使用PaS管道构建的特定领域数据集训练的模型,在所有考虑到的领域和分类任务中,比ImageNet-1k预训练的骨干网络至少高出12%,并且在食品领域性能方面优于ImageNet-21k预训练,同时数据集大小只有后者的1/12。代码库:https://github.com/jesusmolrdv/Precision-at-Scale/
  • 作者讲解
  • 图表
  • 解决问题
    本论文试图探讨如何通过自动创建特定领域的数据集来缩小通用数据集和特定领域数据集之间的差距,以提高视觉转换器和卷积神经网络的预训练效果。
  • 关键思路
    本论文提出了一种名为Precision at Scale(PaS)的方法,通过使用最先进的基础模型和生成模型来自动创建特定领域的数据集,从而实现了对数据集规模和多样性的精确控制。
  • 其它亮点
    本论文的实验结果表明,使用PaS方法创建的特定领域数据集比传统的特定领域数据集在多样性、规模和训练效果方面都更好,甚至比大规模监督数据集ImageNet-1k和ImageNet-21k的预训练效果更好。作者还提供了代码库,方便其他研究者进行复现和进一步研究。
  • 相关研究
    在最近的相关研究中,也有一些关于自动数据集生成的研究,如《Data-Efficient Learning of Symmetrically Structured Visual Concepts Using Deep Generative Models》和《Learning to Learn from Synthetic Data》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问