【作者团队】Tian Yu, Jing Huang, Qing Chang
【论文链接】https://www.sciencedirect.com/science/article/pii/S0278612521001527
【推荐理由】人机协作 (HRC) 为提高制造流程的效率提供了机会。然而,现有的 HRC 任务规划方法在很多方面仍然受到限制,在本文中,HRC 装配工作过程被格式化为一种新颖的棋盘设置,其中棋子移动的选择被用来类比 HRC 装配工作过程中人类和机器人的决策。为了优化完成时间,考虑了马尔可夫博弈模型,该模型以任务结构和代理状态作为状态输入,以总完成时间作为奖励。没有专家的知识,该博弈模型能够在具有收敛性的代理之间寻求相关的均衡策略,从而做出面对动态环境的实时决策。为了提高寻找任务调度最优策略的效率,应用了一种基于深度 Q 网络(DQN)的多智能体强化学习(MARL)方法,并与 Nash-Q 学习、动态规划和 DQN-基于单智能体的强化学习方法。高度可调的办公桌组件用作案例研究,以证明所提出的算法在不同数量的任务和代理下的有效性。应用基于深度 Q 网络 (DQN) 的多智能体强化学习 (MARL) 方法并与 Nash-Q 学习、动态规划和基于 DQN 的单智能体强化学习方法进行比较。高度可调的办公桌组件用作案例研究,以证明所提出的算法在不同数量的任务和代理下的有效性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢