- 简介我们需要在学习系鞋带的时候仔细观察,但是一旦掌握了这个技能,就可以只凭触觉来系鞋带。我们称这种现象为“感性脚手架”:对于一个高手来说不需要的观察流可能会对初学者有帮助。我们考虑为训练人工智能代理设置这种感性脚手架。例如,一个机器人手臂可能只需要一个低成本、坚固、通用的摄像头,但是它的性能可能会通过在训练时特权地访问昂贵而笨重的运动捕捉设备或易碎的触觉传感器等信息来提高。为了解决这些问题,我们提出了“Scaffolder”,一种强化学习方法,它有效地利用了评论家、世界模型、奖励估计器等只在训练时使用的辅助组件中的特权感知,以改善目标策略。为了评估感性脚手架代理,我们设计了一个新的“S3”套件,其中包括十个不同的模拟机器人任务,探索了各种实用的传感器设置。代理必须使用特权摄像头感知来训练盲人跨栏者,使用特权主动视觉感知来帮助机器人手臂克服视觉遮挡,使用特权触觉传感器来训练机器人手等等。Scaffolder轻松地超越了相关的基线,并且经常表现出与在测试时可以访问特权传感器的策略相当的性能。网站:https://penn-pal-lab.github.io/scaffolder/
- 图表
- 解决问题论文旨在解决如何利用特权传感器来提高机器人学习的问题。研究人员提出了一种称为Scaffolder的强化学习方法,并设计了一套名为S3的测试套件来评估这种方法。
- 关键思路Scaffolder利用仅在训练时可用的特权传感器来提高机器人的性能,包括批判者、世界模型、奖励估计器等。
- 其它亮点论文设计了一套新的测试套件S3,其中包括十个不同的机器人任务,用于评估Scaffolder的性能。论文还展示了Scaffolder相对于相关基线的优越性,并且在某些任务中甚至表现出与具有测试时访问特权传感器的策略相当的性能。
- 最近的相关研究包括使用特权信息进行机器学习的其他方法,以及用于机器人控制的强化学习技术的其他改进。
沙发等你来抢
去评论
评论
沙发等你来抢