- 简介我们提出了一种通过课程学习(CL)原则和精心设计奖励的近端策略优化(PPO)代理,以优化现实世界的高吞吐量废物分类设施。我们的工作解决了有效平衡操作安全、体积优化和最小化资源使用等竞争目标的挑战。从头开始训练基本代理来解决这些多重标准的问题是不可行的,因为其固有的复杂性。这个问题特别困难,因为环境的奖励具有极长的时间范围和类别(或动作)不平衡,重要的动作在最佳策略中很少出现。这迫使代理预测长期行动后果并优先考虑罕见但有回报的行为,创造了一个非常复杂的强化学习任务。我们的五阶段CL方法通过逐步增加策略转移过程中环境动态的复杂性,同时完善奖励机制来解决这些挑战。这个迭代和适应性的过程使代理能够学习到所需的最优策略。结果表明,我们的方法显著提高了推理时间的安全性,在提高废物分类厂效率的同时实现了近乎零的安全违规。
-
- 图表
- 解决问题本论文旨在通过课程学习和精细的奖励工程来优化实际高吞吐量废物分类设施,解决操作安全、体积优化和最小化资源使用等竞争目标之间的有效平衡问题。
- 关键思路通过逐步增加环境动态的复杂性和同时完善奖励机制的五阶段课程学习方法,使代理人能够学习到所需的最优策略。
- 其它亮点该论文的亮点在于使用了课程学习和精细的奖励工程来解决竞争目标之间的有效平衡问题,设计了适应性强的迭代实验流程,实验结果表明该方法显著提高了推理时的安全性,并增强了废物分类设施的效率。
- 与此相关的研究包括:Proximal Policy Optimization算法、课程学习方法、奖励工程等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流