Curriculum Dataset Distillation

简介

大多数数据集蒸馏方法由于计算和内存需求巨大，难以适应大规模数据集。本文提出了一种基于课程的数据集蒸馏框架，旨在将可扩展性与效率相结合。该框架通过按从简单到复杂的课程策略蒸馏合成图像。通过引入课程评估，我们解决了以往方法产生同质化和简单化图像的问题，并以可管理的计算成本实现了这一目标。此外，我们引入了对合成图像的对抗优化，以进一步提高其代表性，并防止其过度拟合于蒸馏中涉及的神经网络。这增强了蒸馏图像在各种神经网络架构中的泛化能力，并增加了它们对噪声的稳健性。广泛的实验表明，我们的框架在大规模数据集蒸馏方面设立了新的基准，Tiny-ImageNet上取得了11.1％的显着改进，ImageNet-1K上取得了9.0％的改进，ImageNet-21K上取得了7.3％的改进。源代码将向社区发布。
图表
解决问题

本论文旨在解决大规模数据集压缩的问题，通过设计一种基于课程学习的数据集压缩框架，实现了可扩展性和效率的统一。同时，引入对抗优化来提高合成图像的代表性和鲁棒性。
关键思路

本论文的关键思路是基于课程学习的数据集压缩框架，通过合成图像的方式，将数据集从简单到复杂地进行压缩。同时，引入对抗优化来提高合成图像的代表性和鲁棒性。
其它亮点

本论文通过实验验证了该方法在Tiny-ImageNet、ImageNet-1K和ImageNet-21K数据集上的有效性，相比先前的方法，取得了11.1％，9.0％和7.3％的显著改进。此外，本论文还开源了代码。
相关研究

在相关研究方面，最近的研究包括《Learning to Learn from Noisy Labeled Data》、《Adversarial Learning for Semi-Supervised Semantic Segmentation》等。

评论