Scaling Training Data with Lossy Image Compression

2024年07月25日
  • 简介
    经验确定的缩放定律在预测具有训练数据和参数数量的大型机器学习模型的演变方面取得了广泛的成功。因此,它们对于优化有限资源的分配非常有用,最显著的是计算时间。在某些应用中,存储空间是一个重要的限制因素,因此需要仔细选择数据格式。计算机视觉是一个突出的例子:图像本质上是模拟的,但始终使用有限数量的比特以数字格式存储。给定一组数字图像数据集,可以使用有损数据压缩来进一步减少存储每个图像所需的比特数$L$。然而,这可能会降低在这些图像上训练的模型的质量,因为每个示例的分辨率更低。为了把握这种权衡并优化训练数据的存储,我们提出了一种“存储缩放定律”,描述了测试误差与样本大小和每个图像的比特数的联合演变。我们证明了该定律在图像压缩的样式化模型中成立,并在两个计算机视觉任务上进行了经验证实以提取相关参数。然后,我们展示了该定律可用于优化有损压缩水平。在给定的存储空间下,通过在最佳压缩图像上训练的模型相对于在原始数据上训练的模型呈现出显著较小的测试误差。最后,我们研究了随机化压缩级别的潜在好处。
  • 图表
  • 解决问题
    论文旨在解决如何在有限存储空间下优化机器学习模型的训练数据压缩问题,同时保证模型的质量。
  • 关键思路
    提出了一种“存储缩放定律”,该定律描述了样本大小和图像每个像素的位数与测试误差之间的关系。在图像压缩的理论模型和两个计算机视觉任务上进行了验证,证明了该定律的有效性,并展示了如何使用该定律来优化数据压缩水平。
  • 其它亮点
    论文的实验设计合理,使用了两个计算机视觉任务的数据集,展示了该定律的实际应用价值。同时,论文还探讨了随机压缩水平的潜在好处。
  • 相关研究
    在相关研究方面,最近的一些研究包括:“Deep image prior”和“Image compression with neural networks”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论