- 简介研发出了一种新颖的方法,名为Pareto Envelope Augmented with Reinforcement Learning(PEARL),用于解决多目标问题所带来的挑战,特别是在工程领域,候选解的评估可能很耗时。PEARL通过学习单一策略,区别于传统的基于策略的多目标强化学习方法,消除了需要多个神经网络独立解决简单子问题的需求。它基于深度学习和进化技术的多个版本,适用于无约束和约束问题领域。PEARL利用课程学习有效地管理这些版本中的约束。首先在经典的多目标基准测试中评估了PEARL的性能。此外,还在两个实际的PWR堆芯装载图案优化问题上进行了测试,以展示其在实际应用中的可行性。第一个问题涉及优化循环长度和钢棒集成峰值因子作为主要目标,而第二个问题则将平均富集度作为附加目标。此外,PEARL解决了与硼浓度、针尖烧蚀峰值和针尖功率峰值相关的三种约束类型。结果与传统方法——非支配排序遗传算法进行了系统比较。值得注意的是,PEARL,特别是PEARL-NdS变体,可以有效地发现Pareto前沿,而不需要算法设计者额外的努力,而不是使用缩放目标进行单一优化。它在多个性能指标上优于传统方法,包括超体积。
- 图表
- 解决问题多目标问题中的优化挑战,特别是在工程领域中候选解的评估可能很耗时。
- 关键思路使用PAREL方法解决多目标问题,学习单一策略,不需要多个神经网络独立解决简单的子问题。
- 其它亮点PAREL使用深度学习和进化技术,适用于无约束和有约束问题领域。使用课程学习有效地管理约束。在多个性能指标上优于传统方法,包括超体积。
- 与传统策略基础的多目标强化学习方法相比,PAREL是一种新的方法。
沙发等你来抢
去评论
评论
沙发等你来抢