- 简介在许多应用中,机器学习训练数据的有限可用性是一个挑战,对性能和泛化影响严重。传统的数据增强方法旨在通过适度充足的数据集增强训练。生成模型(如生成对抗网络(GAN))在生成大量和多样化的数据样本时往往面临收敛问题。扩散模型虽然有效,但仍然面临高计算成本和长时间的训练。本文介绍了一种创新的扩张合成模型,可以从最少的样本中生成大规模、高保真度的数据集。所提出的方法利用扩展图映射和特征插值来合成扩展数据集,同时保持固有数据分布和特征结构关系。该模型的理论基础是神经网络潜在空间的非线性特性,以及由Koopman算子捕获的线性特征空间,以便从更小的数据集开始构建更大和更丰富的一致数据集。该过程通过自编码器架构进行优化,增强了自注意力层,并通过最优传输进一步优化了分布一致性。我们通过训练分类器并将其性能与训练在更大的原始数据集上的分类器进行比较,验证了我们的扩张合成。实验结果表明,训练在合成数据上的分类器达到了与训练在全尺寸数据集上的分类器相当的性能指标,展示了该模型有效增强训练数据的潜力。这项工作代表了数据生成方面的重大进展,为解决数据稀缺问题提供了一个强大的解决方案,并为机器学习应用中的增强数据可用性铺平了道路。
- 图表
- 解决问题解决问题的问题是什么?
- 关键思路论文提出了一种创新的扩张合成模型,可以从最小样本中生成大规模、高保真度的数据集。该模型利用扩展图映射和特征插值来合成扩展数据集,同时保留内在数据分布和特征结构关系。
- 其它亮点该模型通过自注意力层进行优化,并通过最优传输进行分布一致性的进一步优化。实验结果表明,使用合成数据训练的分类器达到了与使用完整数据集训练的分类器相当的性能指标。
- 相关工作包括传统的数据增强方法、生成对抗网络和扩散模型等。
沙发等你来抢
去评论
评论
沙发等你来抢