科研成果合辑 | CoRL 2024顶会成果速览（上）

- CoRL 2025论文发布合辑-

科研成果速览

在即将举行的机器人研究领域的顶级学术会议2024 Conference on Robots Learning中，清华大学助理教授赵行、高阳、陈建宇、许华哲各研究组共计发布9项最新科研成果。人形机器人跑酷，带有基础先验的强化学习框架，通过层次化的机器人变压器模型增强机器人操作控制，跨多种视觉干扰类型进行泛化的通用框架等创新成果，为机器人操作和人机协作等领域研究提供了新思路。

人形机器人跑酷：Humanoid Parkour Learning

赵行研究组

赵行研究组提出了一种全新的人形机器人Parkour学习框架，通过端到端的基于视觉的全身控制策略，实现了无需运动先验的多技能Parkour，如跳高、跃障、爬低等。该框架创新性地使用了分形噪声来训练机器人，简化了奖励函数设计，并采用了两阶段强化学习方法和多GPU加速策略，实现了从模拟到真实世界的零样本迁移。

人形机器人虽然有各种各样的硬件被设计制造了出来，但是运动控制算法大多局限在平地或者平缓的小台阶范围。这因为之前的强化学习算法大多依赖一个预先设定好的平地行走的动作参考，或者手动设计平地行走的关键运动学参数。这些方法逼迫双足机器人在任何需要移动的时候都必须抬脚，并且需要设计新的参考动作才能完成更加复杂的移动通过任务。赵行研究组提出让人形机器人的移动，可以像最简单的训练机器狗一样，并且可以结合机载视觉系统，让人形机器人通过极度复杂，甚至不连续的地形。

图| 用Perlin Noise在不同地形上产生粗糙的表面，用scan dot作为expert apolicy对环境感知的方法

此外，研究组还验证了人形机器人在移动操作中的可能性。即使本次工作的神经网络是训练用于同时控制上肢和下肢，在复写上肢动作后，下肢仍然能够成功的保持平衡，并且根据遥操作指令准确执行上肢动作。为进行复杂的地形移动同时上肢进行操作的需求提供了可行性参考。

图 | 使用远程操作设置覆盖跑酷策略的动作

该研究推动了人形机器人在敏捷性、自主性和多任务能力方面的发展，为未来人形机器人在搜索救援、娱乐表演甚至日常生活中的应用奠定了基础。论文第一作者为清华大学交叉信息院2024级博士生庄子文，通讯作者为清华大学交叉信息院助理教授赵行。其他作者为上海科技大学本科生姚屾喆。

项目论文：

Humanoid Parkour Learning, Ziwen Zhuang, Shenzhe Yao, Hang Zhao. https://arxiv.org/abs/2406.10759, CoRL 2024.

针对随机驾驶环境的不确定性导向决策Transformer

赵行研究组

赵行研究组提出使用不确定性导向的决策Transformer (Decision Transformer) 来将离线强化学习应用于自动驾驶的运动规划。通过条件互信息来估算驾驶过程中状态转移的不确定性，并根据估计的不确定性对驾驶动作序列进行切分，将受到环境随机性影响的全局收益替换为确定的每段局部收益，从而解决决策Transformer在随机收益作为条件学习下失效的问题。

虽然学界广泛认为强化学习在自动驾驶运动规划任务中有着巨大的潜力，但由于真车交互的安全性问题，通常难以保障能够学习到模型所需求的边缘场景，这就导致了强化学习通常只能在驾驶仿真器中进行交互学习。一种可能的解决方案是利用离线强化学习从离线收集的真车驾驶数据中进行学习，而决策Transformer正是一个代表性的离线强化学习方案。Transformer能够有效地对驾驶过程的长序列进行学习，但也会受到环境随机性影响，学习到的动作可能会因为环境变化而无法达到训练时预期的收益。因此，如果能找到一种方案解决决策Transformer的确定性收益依赖，就可能将离线强化学习广泛应用于自动驾驶任务当中。

图 |（左）切分驾驶任务后收益不确定性降低（中）不确定性随驾驶步长累计（右）优化未来不同步长的最优驾驶动作近似完全一致

赵行研究组基于自动驾驶场景下“不确定性累计”和“时序局部性”性质，提出使用条件互信息来估计驾驶过程中的状态转移不确定性，进而依据估计结果切分序列，将受到环境随机性影响的全局收益替换为确定的每段局部收益。具体来说，不同于原决策Transformer直接将整段驾驶序列作为输入学习，模型会在估计状态转移不确定处切分输入序列，并将条件收益保留为至切分点的确定性奖励总和，从而保证从训练集中学习的动作可以稳定泛化至测试集取得相近收益。

图 | 不确定性导向的决策Transformer训练框架

赵行研究组首先从CARLA仿真器的多种城镇地图/天气组合中收集30h的驾驶数据。之后首先使用两接收不同状态输入（相差一个时间步）的Transformer训练估计收益分布，用二者之间的分布差距作为不确定性度量切分之前提取得到的数据集进行决策Transformer训练。然后在测试环境中，模型仍会对实时接收到的环境状态不确定性进行估计和序列划分，再使用训练好的决策Transformer进行动作规划。

在仅使用离线收集数据、不进行任何交互的情况下，模型在CARLA仿真器的新场景中取得了比SOTA离线强化学习模型更高6.5%的驾驶得分，并在多个边缘测试场景中作出了更鲁棒的动作规划。值得注意的是，模型的不确定性估计展现出了较强的可解释性，例如图6中自车在刚开始跟车时由于不确定前车行为导致不确定性上升，在适应之后不确定性快速下降。总的来说，该工作为离线强化学习在自动驾驶任务中的广泛应用提供了新的方案。

图 | 在不同边缘场景下模型（右）相较Baseline（左）的表现

图 | 模型不确定性估计所展现出的可解释性

不确定性导向的决策Transformer为离线强化学习在自动驾驶运动规划中的应用提供了全新的思路。相关成果收录于CoRL2024（Oral）中。本论文第一作者为清华大学交叉信息院2023级博士生李泽楠，通讯作者为清华大学助理教授赵行。其他作者为上海期智研究院实习生聂帆，研究员孙桥，和轻舟智航大方。

项目论文：

Uncertainty-Aware Decision Transformer for Stochastic Driving Environments, Zenan Li, Fan Nie, Qiao Sun, Fang Da, and Hang Zhao, https://arxiv.org/abs/2309.16397, CoRL 2024.

基于大模型先验知识的强化学习：一种通往具身智能体高效率与自主学习的框架

高阳研究组

高阳研究组提出“基于大模型先验知识的强化学习”框架(Reinforcement Learning with Foundation Priors) 来促进具身智能体在操作任务中的学习效率和自主探索能力。该框架通过利用策略、价值和成功奖励等基础模型为智能体提供指导和反馈，成功地使机器人能够在真实环境和仿真环境中更高效地完成复杂的操作任务。

基于大模型先验知识的强化学习(Reinforcement Learning with Foundation Priors, RLFP) 框架为机器人在复杂操作任务中的学习和自主探索能力提供了重要突破。机器人在现实世界中的应用，特别是在操作复杂物体时，往往受到强化学习算法数据需求量大、手动奖励设计繁琐等问题的限制。为了克服这些挑战，研究组提出了RLFP框架，通过利用大模型（如策略、价值和成功奖励模型）的先验知识，为强化学习过程提供反馈和指导，从而显著提升了机器人在探索新环境时的效率，并减少了对手动设计奖励函数的依赖。

图 | FAC算法的测试环境

（含8种模拟场景和5种真实场景）

高阳研究组创新性地提出了基础模型引导的Actor-Critic（Foundation-guided Actor-Critic, FAC）算法，旨在自动生成奖励函数，并为机器人提供智能探索路径。该算法通过结合分层强化学习和基础模型的预训练策略，解决了机器人在真实世界中操作任务中常见的样本效率低和手动奖励设计难的问题。

图 | 大模型先验策略知识的失败案例和FAC的成功案例

RLFP框架提出的创新在于通过大模型的先验信息来引导强化学习过程，极大减少了手动工程设计的工作量。FAC算法通过自动生成奖励和引导策略，允许机器人更快适应任务环境，从而减少了传统RL方法中大规模数据采集和繁琐的奖励函数设计。

RLFP框架及FAC算法有效解决了机器人操作任务中数据采集成本高和奖励函数难以设计的问题。传统的强化学习方法往往需要数百万次的环境交互，而RLFP仅需不到1小时的训练时间，便能在仿真和真实环境中取得显著成功。该方法在5个真实机器人任务中的平均成功率达到86%，而在Metaworld模拟器中的8个任务中，RLFP框架在其中7个任务中实现了100%的成功率，大幅超越了基于手动设计奖励的基准方法。

RLFP框架为机器人自主探索和复杂任务操作提供了全新的解决方案，具有重要的实际应用潜力。它不仅加速了强化学习算法在真实世界中的落地，还为未来机器人能够自主学习、应对更多样化任务奠定了基础。该框架对机器人感知能力、底层控制策略及复杂环境中的自适应学习提供了研究新思路，展示了在强化学习与机器人领域的广泛应用前景。

本论文第一作者为清华大学交叉信息院2020级博士生叶葳蕤，通讯作者为交叉信息院高阳助理教授。其他作者为上海研究院实习生张云生、研究员辜先凡，清华大学交叉信息院2022级本科生翁颢洋、2021级本科生王孟晨，清华大学交叉信息院2023级博士生王圣杰、张彤，加州大学伯克利分校Pieter Abbeel教授。

项目论文：

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own, Weirui Ye, Yunsheng Zhang, Haoyang Weng, Xianfan Gu, Shengjie Wang, Tong Zhang, Mengchen Wang, Pieter Abbeel, Yang Gao, https://arxiv.org/pdf/2310.02635, CoRL 2024 ( Oral ).

DexCatch: 使用灵巧手学习抛接任意物体

高阳研究组

高阳研究组提出应用于灵巧手动态抛接物体的高效学习训练框架DexCatch。该方法在45个场景中（多样的手部姿势和物体）实现了73%的成功率，且所学习的策略在未见过的物体上展示了强大的零样本迁移性能。此外，在物体侧向朝手掌外的困难任务中，所有基线算法都无法完成任务，而提出的方法仍然实现了超过60%的成功率。

灵巧手的研究旨在匹配人类手部的复杂能力，研究人员利用强化学习技术应用于灵巧手的多项任务，解决了如开门、组装乐高和解魔方等操控任务。尽管抓取-放置行为能满足许多日常任务的需求，但动态投掷-接物有望更高效地完成任务。例如，两台机器人可以通过投掷-接物来高效传递物体，可以扩展工作空间的同时来避免机器人之间的碰撞。然而，精准接住任意物体仍然极具挑战性。首先，高动态的接触会导致物体从手中掉落。之前的无模型强化学习研究在投掷-接物任务中成功率接近0%。其次，不同物体的属性（如质量分布、摩擦力、形状）要求接物行为足够稳健，尤其是需要能适应日常各类物品。为此，之前的方法需学习物体动力学，增加了系统复杂性。第三，面对从随机方向飞来的物体，接物手必须采用不同姿势，尤其在侧面朝向时，物体缺少手掌支撑而容易掉落，而这一挑战更是尚未被研究。

图｜使用影子手进行投掷和接住物体的泛化任务

为了解决上述三大挑战，研究组提出了一个基于强化学习的框架，用于使用灵巧手完成投掷-接物任务。这一简单但高效的框架能够在多种日常物体和不同的投掷-接物场景中（无论手掌朝上还是朝侧）实现出色的性能。DexCatch的核心算法设计包括：

1）提出了一种混合优势估计方法，在传统优势估计中引入了李雅普诺夫稳定性和内在奖励。虽然稳定性的约束主要用于保证控制系统的稳健性，但本项目是首次观察到其可以让策略生成的动态抓取物体的行为更为稳定有效，从而提高了投掷-接物的准确性。

2）通过使用物体点云的压缩特征作为输入，并在训练过程中应用域随机化，提出的方法在处理具有不同属性（如质量分布、摩擦力、形状和初始姿态）的物体时表现出色，即使面对此前未见过的物体也能有效完成抓取。

图｜DexCatch网络结构图

为了测试算法的泛化能力，研究组使用YCB_Pybullet数据集中的物体进行训练和测试。结果显示，提出的算法在各类手势构型的任务上均优于基线算法，如TRPO，SAC，DDPG 和PPO。同时该方法展示了在灵巧手投掷-接物任务中可以泛化出不同抓取手势的能力，从而能成功操控各种物体。此外，由于对物体点云信息的引入，以及物体质量、惯量和重心位置等进行加噪，该方法在训练和测试物体上都能保持较高的成功率。

图｜多组仿真实验结果

图｜灵巧手抓取手势的泛化结果

DexCatch为灵巧手动态操作物体提出了一种新的可能。本论文第一作者为清华大学博士生兰沣卜和清华大学交叉信息研究院2023级博士生王圣杰，通讯作者为清华大学张涛教授和高阳助理教授。其他作者为清华大学交叉信息院2021级本科生张赟喆，清华大学硕士生徐皓天，科罗拉多矿业学院博士生Oluwatosin Oseni，清华大学本科生张子叶。

项目论文：

DexCatch: Learning to Catch Arbitrary Objects with Dexterous Hands, Fengbo Lan, Shengjie Wang, Yunzhe Zhang, Haotian Xu, Oluwatosin Oseni, Yang Gao†, Tao Zhang, https://dexcatch.github.io/, CoRL 2024.

通用流作为可扩展机器人学习的基础可供性表征

高阳研究组

高阳研究组提出使用“通用流”(General Flow)来作为机器人学习的一种基础可供性表征 (Affordance)。该表征通过描述空间中被操作物体上若干3D点的未来走向，将操作者本体与操作技能进行解耦，从而建立起人类技能向机器人技能进行转移的桥梁。通过在人类视频上训练流表征预测模型并部署到实体机器人上，研究组实现了从RGBD人类视频中提取可泛化的机器人操作技能，在没有使用任何机器人数据的前提下，于6个场景、18个任务上取得了81%的平均成功率。

图｜通用流（General Flow）作为一种基础可供性表征（Affordance）

由于收集机器人操作数据具有很高的时间成本，因此提高机器人操作数据的数量级十分困难，这也导致了现有的机器人模仿学习方法仅具有有限的可扩展性。一种可能的解决方案是引入人类操作视频数据集。人类操作与机器人操作具有较高的相似性，因此学界普遍认为人类操作视频能够为机器人操作提供先验。人类操作视频的收集较为简单，并且已有较大规模的收集量。因此，如果能够找到一种高效的从人类视频数据集中提取机器人技能的方法，就能够极大的提升机器人学习的可扩展性。高阳研究组提出使用通用流（General Flow）作为一种基础可供性表征（Affordance），从而建立起从人类操作视频与机器人技能之间的桥梁。具体来说，General Flow描述被操作物体上若干3D点的未来移动轨迹。这一表征与操作者本体无关，但又精确描述了操作技能本身的动作形态，因此能够高效实现人类操作视频向机器人技能的转移。

图｜通用流作为人类视频向机器人技能转移的中间表征

高阳研究组首先使用原有数据标注、分割模型、追踪模型等从HOI4D数据集和自采集数据中提取通用流表征。然后基于PointNeXt点云预测架构，设计了基于尺度的流表征预测模型，并使用之前提取得到的数据集进行训练。然后，研究组将流表征预测模型部署到真实机器人上。具体来说，给定场景点云和被操作物体上的若干3D点，机器人首先使用预训练好的预测模型预测通用流表征。然后，机器人移动物体，使得物体尽可能的跟随预测的流表征轨迹。

图｜通用流表征预测模型训练框架

在不使用任何机器人数据的情况下，基于通用流表征预测的方法在6个训练时未见过的场景中的18个物体操作任务上取得了81%的成功率。值得注意的是，被操作物体涉及刚体、结构体和软体，展现了流表征方法的通用性。除此之外，流表征方法展现出了多种优良性质，包括对机器人分割的鲁棒性、对物体形状的泛化性，对抓取方法的普适性，以及对空间关系的感知性。总的来说，该工作为更大规模的从人类视频中学习机器人操作技能提供了新的方法。

图｜通用流表征方法所展现出的优良性质

本论文第一作者为清华大学交叉信息院2024级硕士生袁承博，通讯作者为高阳助理教授。其他作者为清华大学交叉信息院2020级博士生汶川、张彤。

项目论文：

General Flow as Foundation Affordance for Scalable Robot Learning, Chengbo Yuan, Chuan Wen, Tong Zhang, Yang Gao, https://general-flow.github.io/, CoRL 2024.

利用局部性提升机器人操作任务中的样本效率

高阳研究组

高阳研究组提出“SGRv2框架”(Semantic-Geometric Representation V2)，通过改进视觉和动作表征来提升机器人操作任务中的样本效率。研究组引入了关键的归纳偏置——动作局部性，即机器人的动作主要由目标物体及其与局部环境的关系决定。基于此，研究组提出了一种编码器-解码器架构，并采用逐点预测和加权平均等策略来生成动作预测。通过在多个仿真基准测试上的广泛评估，研究组展示了SGRv2卓越的效果和强大的样本效率。

图｜SGRv2的样本效率及模拟结果概览

由于在真实世界中收集机器人数据需要很高的成本，样本效率始终是机器人研究中的一个关键问题。在机器学习领域，引入归纳偏置是提升样本效率的常用策略。在机器人操作中，一个关键的归纳偏置是动作局部性。动作局部性假设，机器人的动作主要由目标物体及其与周围局部环境的关系决定。然而，以往针对机器人操作的表征学习研究并未有效利用这一偏置。这些研究通常利用一个全局表征，以捕捉整个场景的信息，然后直接用于预测机器人的动作。然而，这些方法在样本效率上表现出明显的不足。例如SGR在将演示次数从100次减少到5次后，其成功率会显著降低。

图｜SGRv2网络结构图

为有效利用动作局部性的归纳偏置，高阳研究组提出了SGRv2 (Semantic-Geometric Representation v2)，一个系统化的视觉动作策略框架。SGRv2以SGR为基础，但在整个框架中融入了动作局部性。SGRv2的核心算法设计包括：首先，与SGR使用的仅编码器架构不同，研究组采用了PointNeXt的编码器-解码器架构，该架构可以为每个点生成富含全局和局部信息的特征。其次，基于逐点特征，为每个点预测相对目标位置。通过将相对预测与点自身的坐标相加，得到动作预测的绝对位置。对于其他动作组件，如旋转和夹爪开关状态等，则直接预测绝对值。第三，在获得逐点动作预测后，采用加权平均的方式将这些预测整合为最终的动作预测。最后，为了增强局部特征的学习效率，采用了密集监督策略。

SGRv2表现出卓越的样本效率，并在各种演示规模下始终优于之前的方法。SGRv2在仅使用5次演示时便能取得显著效果，其甚至超过SGR在100次演示下的效果。研究组通过行为克隆在RLBench、ManiSkill2和MimicGen三个基准测试上对SGRv2进行了广泛的评估：SGRv2显著超越了SGR和PointNeXt，并且在RLBench任务中持续优于包括R3M、PerAct和RVT在内的基线模型。

图｜真机实验任务

此外，通过使用Franka Emika Panda机器人进行的真实环境实验，SGRv2展示了其完成复杂长时间任务的能力，进一步验证了其有效性。

SGRv2该框架为提高机器人操作任务中的样本效率提供了新思路，并展现了局部性等归纳偏置在机器人任务上的广阔前景。本论文第一作者为清华大学交叉信息院2020级博士生张彤，通讯作者为高阳助理教授。其他作者为清华大学交叉信息院2021级博士生胡英东、2023级博士生游嘉诚。

项目论文：

Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation, Tong Zhang, Yingdong Hu, Jiacheng You, Yang Gao, https://sgrv2-robot.github.io/, CoRL 2024.

编辑 | 姜月亮

审核 | 吕厦敏

学术顾问 | 高阳、赵行

总审核｜马雄峰

内容中包含的图片若涉及版权问题，请及时与我们联系删除

科研成果合辑 | CoRL 2024顶会成果速览（上）

评论