- 简介本文介绍了为了有效缓解连续学习(CL)过程中稳定性和可塑性之间的权衡而设计的各种算法。为了实现这一目标,调整每个算法的适当超参数至关重要。作为评估协议,通常的做法是在基准数据集构建的CL场景中使用不同的超参数值训练CL算法。随后,使用最佳超参数值获得的最佳性能作为评估CL算法的标准。本文认为,这种评估协议不仅不切实际,而且无法有效评估CL算法的CL能力。回到机器学习中模型评估的基本原则,我们提出了一种评估协议,其中包括超参数调整和评估阶段。这些阶段包含不同的数据集,但共享相同的CL场景。在超参数调整阶段,每个算法都会迭代地使用不同的超参数值进行训练,以找到最佳的超参数值。随后,在评估阶段,直接应用最佳超参数值来训练每个算法,并以它们在评估阶段的性能作为评估它们的标准。通过在基于提出的协议的CIFAR-100和ImageNet-100上进行的实验,我们不仅观察到现有的评估方法未能正确评估每个算法的CL能力,而且观察到一些最近提出的报告了优异性能的最新算法,实际上与以前的算法相比表现出较差的性能。
- 图表
- 解决问题论文提出了一种新的评估协议,用于评估连续学习算法的能力,以解决现有评估方法的不足。
- 关键思路新的评估协议包括超参数调整和评估两个阶段,使用相同的连续学习场景但不同的数据集,直接将最佳超参数应用于评估阶段,以评估算法的性能。
- 其它亮点论文在CIFAR-100和ImageNet-100数据集上进行了实验,发现现有的评估方法无法正确评估算法的连续学习能力,同时发现一些最新算法的表现实际上比之前的算法更差。
- 与该论文相关的研究包括:《A Comprehensive Survey on Continual Learning for Image Classification》、《Continual Learning: A Comparative Study on How to Defy Forgetting in Classification Tasks》等。
沙发等你来抢
去评论
评论
沙发等你来抢