Curriculum Dataset Distillation

2024年05月15日
  • 简介
    大多数数据集蒸馏方法由于计算和内存需求巨大,难以适应大规模数据集。本文提出了一种基于课程的数据集蒸馏框架,旨在将可扩展性与效率相结合。该框架通过按从简单到复杂的课程策略蒸馏合成图像。通过引入课程评估,我们解决了以往方法产生同质化和简单化图像的问题,并以可管理的计算成本实现了这一目标。此外,我们引入了对合成图像的对抗优化,以进一步提高其代表性,并防止其过度拟合于蒸馏中涉及的神经网络。这增强了蒸馏图像在各种神经网络架构中的泛化能力,并增加了它们对噪声的稳健性。广泛的实验表明,我们的框架在大规模数据集蒸馏方面设立了新的基准,Tiny-ImageNet上取得了11.1%的显着改进,ImageNet-1K上取得了9.0%的改进,ImageNet-21K上取得了7.3%的改进。源代码将向社区发布。
  • 图表
  • 解决问题
    本论文旨在解决大规模数据集压缩的问题,通过设计一种基于课程学习的数据集压缩框架,实现了可扩展性和效率的统一。同时,引入对抗优化来提高合成图像的代表性和鲁棒性。
  • 关键思路
    本论文的关键思路是基于课程学习的数据集压缩框架,通过合成图像的方式,将数据集从简单到复杂地进行压缩。同时,引入对抗优化来提高合成图像的代表性和鲁棒性。
  • 其它亮点
    本论文通过实验验证了该方法在Tiny-ImageNet、ImageNet-1K和ImageNet-21K数据集上的有效性,相比先前的方法,取得了11.1%,9.0%和7.3%的显著改进。此外,本论文还开源了代码。
  • 相关研究
    在相关研究方面,最近的研究包括《Learning to Learn from Noisy Labeled Data》、《Adversarial Learning for Semi-Supervised Semantic Segmentation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论