- 简介机器人政策总是受到复杂的、二阶动力学的影响,这些影响使得它们的行动与结果状态纠缠在一起。在强化学习(RL)环境中,政策需要通过大量的经验和复杂的奖励函数来解密这些复杂的交互,以学习如何完成任务。此外,政策通常直接向控制器发出操作,如操作空间控制(OSC)或关节PD控制,在任务或关节空间中引起直线运动。然而,在这些空间中的直线运动大多不能捕捉到我们的机器人需要展示的丰富、非线性的行为,这将更完全地转移发现这些行为的负担给代理。与这些更简单的控制器不同,几何织物通过基于非线性几何的人工二阶动力学捕获了更丰富和理想的行为集。这些人工动力学通过适当的控制法则转移机器人的未受控制的动力学,形成行为动力学。行为动力学解锁了一个新的行动空间和安全的、引导性的行为,可以对其进行RL政策的训练。行为动力学使得RL策略的bang-bang-like动作仍然对真实机器人是安全的,简化了奖励工程,并帮助序列化现实世界的高性能策略。我们描述了这个框架的更一般的情况,并为高度驱动的机器人手对一个立方体进行熟练的手中重新定位问题创建了一个具体的实例。
-
- 图表
- 解决问题论文旨在解决强化学习中,控制器的直线运动无法捕捉到机器人需要展现的丰富、非线性行为的问题。
- 关键思路论文提出了一种基于非线性几何的人工动力学框架,通过适当的控制方法,将机器人的无控制动力学转换为人工动力学,从而形成行为动力学,为机器人提供更丰富、更安全的行为空间。
- 其它亮点论文提出的框架可以简化奖励函数的设计,帮助实现高性能的策略序列。实验表明,该框架可以应用于高度积极的机器人手在手中重新定向一个立方体的问题中,并取得了很好的效果。
- 最近的相关研究包括:Learning Dexterous In-Hand Manipulation,Deep Reinforcement Learning for Vision-Based Robotic Grasping,Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流