- 简介Dataset Distillation(DD)的目标是将庞大的数据集中的知识提炼出来,制作更紧凑的数据集,同时保持测试集的性能,从而降低存储成本和培训费用。然而,现有的方法经常受到计算强度的影响,特别是由于缺乏对DD问题进行分析的强大的理论框架,因此在处理大型数据集时表现不佳。为了应对这些挑战,我们提出了BAyesian optimal CONdensation framework(BACON),这是第一个将贝叶斯理论框架引入到DD文献中的工作。该框架为增强DD的性能提供了理论支持。此外,BACON使用贝叶斯框架将DD问题表述为在联合概率分布中最小化期望风险函数。此外,通过分析最优压缩的期望风险函数,我们基于特定假设推导出一个可数的下界,为BACON提供了近似解。我们在几个数据集上验证了BACON,证明了其相对于现有最先进的方法的卓越性能。例如,在IPC-10设置下,BACON在CIFAR-10数据集上比IDM方法获得了3.46%的准确度提高,在TinyImageNet数据集上获得了3.10%的提高。我们的广泛实验证实了BACON的有效性及其与现有方法的无缝集成,从而增强了它们在DD任务中的性能。代码和压缩数据集可在BACON上获得。
-
- 图表
- 解决问题该论文旨在解决数据集压缩(Dataset Distillation)的问题,即如何在保持测试集性能的同时,将大型数据集中的知识提炼到更紧凑的数据集中,以降低存储成本和训练费用。
- 关键思路该论文提出了BAyesian optimal CONdensation framework(BACON)框架,将贝叶斯理论框架引入数据集压缩问题的研究中,提供了理论支持来提高数据集压缩的性能。BACON通过使用贝叶斯框架,将数据集压缩问题转化为在联合概率分布中最小化期望风险函数的问题。
- 其它亮点论文在多个数据集上验证了BACON的有效性,并与现有的最先进方法进行比较。实验结果表明,在CIFAR-10数据集和TinyImageNet数据集上,BACON相对于IDM方法分别获得了3.46%和3.10%的准确率提高。此外,论文还开源了代码和压缩后的数据集。
- 在数据集压缩领域,最近的相关研究包括IDM、HAT和SPP等方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流