- 简介进化算法(EAs)在实际应用中往往具有挑战性,因为进化计算涉及对通常昂贵的适应度函数进行大量评估。例如,一个评估可能涉及训练一个新的机器学习模型。在这种情况下,可以使用真实函数的近似(也称为元模型或代理)来减轻计算成本。本文提出了一种两阶段代理辅助进化方法,以解决在大型数据集的包装器设置中使用遗传算法(GA)进行特征选择时出现的计算问题。我们定义“近似有用性”来捕捉确保使用近似时EA计算正确性所需的必要条件。基于这个定义,我们提出了一种通过主动选择数据实例来构建轻量级定性元模型的过程。然后,我们使用元模型来执行特征选择任务。我们将这个过程应用到基于GA的算法CHC(交叉世代精英选择,异质重组和灾变突变)中,创建了一种定性近似变体CHCQX。我们表明,CHCQX更快地收敛到具有显着更高准确性的特征子集解(与CHC相比),特别是对于具有超过100K个实例的大型数据集。我们还展示了我们方法背后的思想更广泛地适用于Swarm Intelligence(SI),这是进化计算(EC)范例的另一个分支,通过PSOQX的结果展示了这一点,它是粒子群优化(PSO)方法的定性近似适应。完整实现的GitHub存储库可用。
- 图表
- 解决问题在使用遗传算法进行特征选择时,由于需要评估昂贵的适应度函数,所以难以在真实世界中应用。本文提出了一种基于代理模型的遗传算法特征选择方法,以解决大型数据集的计算问题。
- 关键思路本文提出了一种两阶段代理辅助进化方法,其中第一阶段使用活动选择数据实例构建轻量级的定性代理模型,第二阶段使用代理模型进行特征选择。这种方法可以加速收敛速度和提高准确性。
- 其它亮点本文提出的方法可以在大型数据集上更快地收敛到更准确的解,特别是针对具有超过100K个实例的数据集。作者还将这种方法应用于Swarm Intelligence中的Particle Swarm Optimization方法,并提供了完整的实现代码。
- 最近的相关研究包括使用代理模型的其他遗传算法和粒子群优化算法的变体,以及其他特征选择方法的改进。其中一些论文的标题包括“代理模型的遗传算法在大规模数据集上的应用”和“基于代理模型的粒子群优化算法的特征选择”。
沙发等你来抢
去评论
评论
沙发等你来抢