刚刚,ACM 官方宣布将 2021 ACM 计算奖(ACM Prize in Computing)授予加州大学伯克利分校教授 Pieter Abbeel,以表彰他在机器人学习方面的贡献,包括从演示中学习和用于机器人控制的深度强化学习。

在获奖公告中,ACM 提到:「Abbeel 率先教会机器人从人类演示中学习(学徒学习)和通过自己的反复试错学习(强化学习),这为下一代机器人技术奠定了基础。」

ACM 计算奖设立于 2007 年,由 IT 巨头 Infosys 赞助,奖金为 25 万美元,旨在表彰在职业生涯早期到中期(40岁左右)在计算领域做出基础性创新贡献的研究者,这些贡献通过其深度和广泛的影响体现了该学科的最高成就。2015年前曾经名为“ACM-Infosys基金会奖”。

过往获奖者包括谷歌 AI 负责人 Jeff Dean (2012)、AlphaGo 之父 David Silver (2019)、量子计算先驱 Scott Aaronson (2020) 、LDA论文一作David Blei(2013)等著名计算机科学家。

Abbeel 将于今年 6 月 11 日在旧金山举行的 ACM 年度颁奖晚宴上正式获颁 ACM 计算奖。

伯克利大牛 Pieter Abbeel 的研究贡献

Pieter Abbeel 现为加州大学伯克利分校计算机科学与电气工程教授,也是人工智能机器人公司 Covariant 的联合创始人、总裁兼首席科学家。Abbeel 在比利时鲁汶大学获得电气工程学士学位,并在斯坦福大学获得计算机科学硕士和博士学位(师从吴恩达)。

Abbeel 曾获得多项荣誉,包括美国科学家及工程师总统早期职业奖、美国国家科学基金会早期职业发展计划奖和 Diane McEntyre 卓越教学奖。此外,Abbeel 还被 MIT Technology Review 评为 35 岁以下杰出青年创新者,并获得了机器人与自动化领域的 Dick Volz 最佳美国博士论文奖。同时,Abbeel 也是 IEEE Fellow。

在职业生涯的早期,Abbeel 开发了新的学习技术,以显著改善机器人操作。随着该领域的成熟,研究人员能够对机器人进行编程,以使其感知、操纵木块或勺子等刚性物体。然而,通过编程让机器人操纵可变形物体(例如布)相对来说较为困难,因为软性材料在被触摸时的移动方式是不可预测的。Abbeel 引入了增强机器人视觉感知、基于物理的跟踪、控制和从演示中学习的新方法。通过结合这些新方法,Abbeel 开发了一种能够折叠毛巾和衬衫等衣服的机器人,这在当时被认为是一个重要的里程碑。

Abbeel 的贡献还包括开发能进行手术缝合、物体检测以及在不确定环境下规划轨迹的机器人。最近,他开创了「少样本模仿学习」,即先让机器人接受大量相关任务演示的预训练,然后使其仅通过一次演示就学会执行一项任务。

Abbeel 做出重要贡献的另一个方向是机器人深度强化学习。强化学习是机器学习的一个领域,在该领域中,智能体在奖励的驱动下不断前进(比如赢得一场比赛)。虽然早期的强化学习程序非常有效,但它们只能执行简单的任务。将强化学习与深度神经网络相结合的创新之举催生了深度强化学习这一新领域。与仅使用强化学习开发的程序相比,它可以解决复杂得多的问题。

Abbeel 在该领域的突破性贡献是开发了一种名为「信赖域策略优化(Trust Region Policy Optimization)」的深度强化学习方法。这种方法稳定了强化学习过程,使机器人能够学习一系列模拟的控制技能。通过分享研究结果、发布视频教程以及发布开源代码,Abbeel 帮助建立了一个研究社区,进一步推动了用于机器人的深度学习研究,可以让机器人执行更复杂的任务。

Abbeel 还做出了其他几项开创性的贡献,包括:

  • generalized advantage estimation,这使得第一个 3D 机器人运动学习成为可能;
  • soft-actor critic,这是迄今为止最流行的深度强化学习算法之一;
  • domain randomization,它展示了在适当随机化的模拟器中进行的学习如何能够很好地泛化到现实世界;
  • hindsight experience replay,这对奖励稀疏 / 目标导向的环境中的深度强化学习很有帮助。

内容中包含的图片若涉及版权问题,请及时与我们联系删除