A Study in Dataset Pruning for Image Super-Resolution

2024年03月25日
  • 简介
    在图像超分辨率(SR)中,依赖于大型数据集进行训练是一把双刃剑。虽然提供了丰富的训练材料,但也需要大量的计算和存储资源。在这项工作中,我们分析了数据集修剪作为解决这些挑战的方法。我们引入了一种新的方法,将数据集减少到一组核心训练样本,这些样本是根据一个简单的预训练SR模型确定的损失值进行选择的。通过仅针对原始数据集的50%进行训练,特别是针对损失值最高的样本进行训练,我们实现了与在整个数据集上进行训练所获得的结果相当甚至更好的结果。有趣的是,我们的分析表明,损失值最高的前5%样本会对训练过程产生负面影响。排除这些样本并调整选择以支持更容易的样本可以进一步增强训练结果。我们的工作为图像SR中未开发的数据集修剪潜力开辟了新的视角。它表明,基于损失值指标仔细选择训练数据可以导致更好的SR模型,挑战了更多数据必然导致更好性能的传统智慧。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决图像超分辨率(SR)中需要大量数据集进行训练所带来的计算和存储资源消耗的问题,同时验证数据集修剪对于解决这一问题的有效性。
  • 关键思路
    论文提出了一种基于损失值的数据集修剪方法,通过一个简单的预训练SR模型确定损失值,选取损失值最高的50%的样本作为核心训练集,从而达到甚至超过使用整个数据集进行训练的效果。同时,论文发现损失值最高的5%的样本对于训练过程有负面影响,去除这些样本并调整样本选择策略可以进一步提高训练效果。
  • 其它亮点
    论文的实验结果表明,数据集修剪可以有效地解决大量数据集训练所带来的资源消耗问题,并且通过选择样本的损失值进行修剪可以获得更好的SR模型效果。此外,论文还发现了损失值最高的5%的样本对于训练效果的负面影响,并提出了去除这些样本并调整样本选择策略的方法。论文使用了多个数据集进行实验,并且提供了开源代码。
  • 相关研究
    与本论文相关的研究包括:《Learning to Remember: A Synaptic Plasticity Driven Framework for Continual Learning》、《Deep Residual Learning for Image Recognition》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问