- ICRA 2024论文发布合辑- 

科研成果速览




近期,清华大学交叉信息研究院人工智能方向的研究团队在国际知名的机器人与自动化学术盛会IEEE International Conference on Robotics and Automation (ICRA 2024)上,发表了一系列突破性的科研成果。陈建宇、高阳、吴翼、许华哲、弋力、赵行六位助理教授团队共发表8项创新科研进展,涵盖机器人运动控制、通用机器人操作、多模态对比学习,以及自动驾驶等多个前沿研究方向。另有6项工作将于ICRA workshop进行同步展示。




去中心化的复杂机器人控制算法—DEMOS

陈建宇 清华大学助理教授


人形机器人的全身控制是一个具有挑战性的课题。陈建宇团队提出一种去中心化的复杂机器人控制算法DEMOS,在不牺牲任务性能的前提下,鼓励机器人在强化学习过程中自主发现可以解耦合的模块,同时保留必要合作模块之间的连接。该算法为机器人的设计和开发提供了新的视角,特别是在需要高度自主性和适应性的领域,如搜索和救援、探索和工业自动化。


01 Decentralized Motor Skill Learning for Complex Robotic Systems


强化学习在足式机器人控制上取得了重大的成功,但是强化学习得到的策略往往是中心化的特异性策略,该策略对局部错误不鲁棒,并且难以迁移到新任务中。陈建宇课题组提出一种去中心化的复杂机器人控制算法DEMOS (Decentralized motor skill),在不牺牲任务性能的前提下,鼓励机器人在强化学习过程中自主发现可以解耦合的模块,同时保留必要合作模块之间的连接。

DEMOS策略在提高机器人系统的鲁棒性、泛化能力和多任务学习方面具有显著的优点,具体包括:

1. 对局部错误更加鲁棒,可以克服局部电机故障带来的影响,并且能够更好地泛化到新任务。

2. 可以通过组合、微调的方式快速学习新的技能。该方法在四足机器人,机械臂+四足机器人,人型机器人等复杂机器人系统上都展现了优越的性能。

3. 该算法为机器人的设计和开发提供了新的视角,特别是在需要高度自主性和适应性的领域,如搜索和救援、探索和工业自动化。


(上下滑动查看科研成果概要)

论文作者:

Yanjiang Guo, Zheyuan Jiang, Yen-Jen Wang, Jingyue Gao, Jianyu Chen

项目链接:

https://arxiv.org/pdf/2306.17411





机器人任务规划和执行领域系列进展 — VILA & CoPa 

高阳 清华大学助理教授


高阳团队在机器人任务规划和执行领域取得重要进展,在ICRA 2024 workshop 中将展示2项重要成果—CoPa和VILA算法框架。ViLa侧重于高层任务规划,CoPa侧重低层子任务执行,两个工作都基于视觉语言模型(VLM)GPT-4V。展示了在复杂和开放世界任务中,机器人能够如何利用先进的人工智能技术来提高其自主性和适应性。


01 ViLa: Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning


机器人任务规划领域面临的一大挑战是如何使机器人能够理解复杂的视觉语言信息并据此做出决策。针对此,高阳团队提出了ViLa框架(Robotic Vision-Language Planning)。ViLa的核心创新在于直接使用了视觉语言模型来帮助机器人进行推理,解决了传统大型语言模型缺乏物理世界感知的问题。得益于对GPT-4V视觉语言模型的创新使用,ViLa在对空间布局和物体属性的理解能力上有显著的提升,同时还支持多模态目标设定和视觉反馈,增强了机器人在动态环境中的闭环规划能力。在真实世界和模拟环境中的测试表明,ViLa在多个长周期操作任务上均展现出色的表现,验证了其有效性。

展望未来,ViLa的应用前景广阔。它不仅能提升个人助理机器人的自主性,还能在工业自动化等领域发挥重要作用。随着技术的进一步成熟,ViLa有望成为推动机器人智能化的关键技术之一,为机器人执行复杂任务提供强有力的支持。

(上下滑动查看科研成果概要)

论文作者:

Yingdong Hu*, Fanqi Lin*, Tong Zhang, Li Yi, Yang Gao

项目链接:

https://robot-vila.github.io/


02 CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models


在机器人技术领域,适应复杂环境的操作能力是关键挑战之一。针对此,高阳团队开发了CoPa框架(General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models),利用基础模型内嵌的常识知识,通过空间约束实现机器人的通用操控能力。该框架包括两个主要阶段:任务导向的抓取和任务感知的运动规划。通过创新地应用视觉-语言大模型,CoPa能够在无需额外训练的情况下,根据自然语言指令和场景观测生成一系列精确的六自由度末端执行器姿态,从而应对开放世界的操控任务。

在真实世界的实验中,CoPa展现了优异的性能,特别是在需要对场景进行细粒度理解的任务上,如用锤子敲钉子、插花、按按钮等,都显示出了对任务相关对象的准确识别与处理。此外,CoPa能与ViLa等高级规划方法无缝集成,完成如制作手冲咖啡和布置浪漫餐桌等长周期复杂任务,验证了其实用性与通用性。

作为利用基础模型解决机器人操作任务的尝试,CoPa的成功为机器人操作提供了新的思路,并为机器人领域大规模数据收集提供了新的解决方案。


论文作者:

Haoxu Huang*, Fanqi Lin*, Yangdong Hu, Shenjie Wang, Yang Gao

项目链接:

https://copa-2024.github.io/





四足机器人双足运动控制

吴翼 清华大学助理教授


吴翼团队在四足机器人执行类人双足运动研究中取得重要进展,在ICRA 2024上发表2项成果。提出了一个分层框架,能够响应人类视频或自然语言指令,实现模仿拳击、芭蕾舞等动作,并与人类进行物理互动。提出了LAGOON系统,它使用预训练模型生成人类动作,然后通过强化学习在模拟环境中训练控制策略,以模仿生成的人类动作,并通过领域随机化将学习到的策略部署到真实世界的四足机器人上,实现了如“后空翻”、“踢球”等复杂行为。


01 Learning Agile Bipedal Motions on a Quadrupedal Robot


为机器人平台上开发拟人的运动控制策略是机器人走进人类生活的关键步骤。由于人形机器人与人体结构相似,之前这方面的研究多在人形机器人上进行,但是人形机器人成本高、硬件相对不成熟,给这类研究带来了较大阻碍。另一方面,四足机器人经过数十年的发展,已经展现出了较强的运动能力,且成本相对低,但由于结构上的差异,双足运动控制难度较高。吴翼团队提出了一套基于强化学习的控制方法,在四足机器人cyberdog2上首次实现了拟人的双足运动控制,提供了一种比人形机器人代价更低的双足运动解决方案。该方法分为两层:低层是强化学习驱动的参数化控制策略,可以控制四足机器人跟踪随机的本体的速度以及前肢末端的位置,高层则从多种模态的交互中生成合适的动作参数。低层策略在经过现实数据标定的仿真环境中训练,从而减小了仿真和仿真的领域差距,可以直接部署至真实机器人上。高层接受人的视频或自然语言输入。对于视频输入采用人体关键点检测模型解析出上肢运动,再映射到机器狗动作参数上;对于自然语言输入,利用大语言模型的常识将语言指令分解成一系列动作。整套方法可以让机器狗模仿人的动作、听从语言指令以及与人肢体接触。


(上下滑动查看科研成果概要)

论文作者:

Yunfei Li, Jinhan Li, Wei Fu, Yi Wu

项目链接:

https://sites.google.com/view/bipedal-motions-quadruped/


02 Language-Guided Generation of Physically Realistic Robot Motion and Control


随着基础大模型的飞速发展,自然语言已成为诸多人工智能应用的通用人机接口。让机器人听从高层语言指令做出对应的动作对于自然的人机交互具有关键意义。尽管已有的生成式模型能从自然语言产生动作序列,但是由于真实机器人的身体结构和物理属性和人的运动数据集不一致,这些生成的动作往往不能严格服从物理约束,难以在现实机器人上执行。为了能从自然语言生成 可直接控制真实机器人的策略,吴翼团队提出了LAGOON(language-guided motion control),一种多阶段的运动控制方法。LAGOON首先利用预训练模型从语言命令生成对应的人体运动序列,并根据机器人的身体结构映射得到语义正确但是物理上不准确的目标动作轨迹。然后,LAGOON进入强化学习阶段,在物理正确的模拟环境中训练控制策略,使得控制策略既符合语义又符合物理约束。最后通过域随机化,LAGOON可以将控制策略由模拟环境迁移到真实世界中。该控制策略可以成功部署到四足机器人上,让机器狗在现实世界中完成多种自然语言描述的动作,如站起来挥手、倒立等。LAGOON克服了物理真实性和语言导向的机器人运动控制的挑战,为实现更加自然、智能的人机交互打下了基础。


(上下滑动查看科研成果概要)

论文作者:

Shusheng Xu, Huaijie Wang, Jiaxuan Gao, Yutao Ouyang, Chao Yu, Yi Wu

项目链接:

https://sites.google.com/view/lagoon-text2control




用于可泛化操作的阵列式机器人&可穿戴机械手 —ArrayBot & HIRO Hand

许华哲 清华大学助理教授


许华哲团队在机器人学习与操作研究中取得重要进展,在ICRA 2024上发表2项成果。运用强化学习算法实现通用分布式操作的系统ArrayBot,通过触觉传感器进行操作学习,可用于真实世界的多种操作任务,展示了在模拟环境训练后无需领域随机化即可迁移至真实机器人的能力。提出了一种新型的手对手模仿学习可穿戴灵巧手HIRO Hand,它结合了专家数据收集和灵巧操作的实现,使操作者能够利用自己的触觉反馈来确定适当的力量、位置和动作,以执行更复杂的任务。


01 ArrayBot: Reinforcement Learning for Generalizable Distributed Manipulation through Touch


许华哲团队提出了一种用于可泛化操作的阵列式机器人。从硬件层面,阵列式机器人是一个由垂直滑动柱体阵列所组成的分布式操控系统,其中的每一个柱体的顶部都集成了触觉传感器。从功能上讲,阵列式机器人旨在同时支撑、感知和操纵放置于其上的待操作物体。为了实现可泛化的操作控制,团队提出利用强化学习算法自动发现基于触觉作为观测输入的控制策略。面对阵列式机器人在其动作空间中存在着大量冗余动作的挑战,团队提出通过考虑空间域的局部动作以及频率域中的低频动作来重塑动作空间。利用重塑的动作空间上训练得到的强化学习智能体,不仅在模拟器中表现出对于形状各异的物体的泛化性,而且还能在不需要进行模拟器到现实世界微调的情况下,直接部署到现实世界的机器人上。


(上下滑动查看科研成果概要)

论文作者:

Zhengrong Xue*, Han Zhang*, Jingwen Cheng, Zhengmao He, Yuanchen Ju, Changyi Lin, Gu Zhang, Huazhe Xu

项目链接:

https://steven-xzr.github.io/ArrayBot/


02 A Wearable Robotic Hand for Hand-over-Hand Imitation Learning


灵巧的操作通过模仿学习在机器人研究中受到了显著关注。高质量的专家数据对于使用模仿学习至关重要。现有的获取专家数据的方法通常涉及使用数据手套捕捉手部运动信息,但这些方法存在局限性,如无法直接映射到机器人手的自由度或结构差异,以及无法准确捕获演示过程中手和物体之间的力反馈信息。为了克服这些挑战,论文提出了一种新型的可穿戴灵巧手,即HIRO Hand,它结合了专家数据收集和灵巧操作的实现。HIRO Hand使操作者能够利用自己的触觉反馈来确定适当的力量、位置和动作,从而更准确地模仿专家的动作。

主要贡献如下:

1. 提出了一种新型的可穿戴灵巧手,集成了专家数据收集和灵巧操作,解决了使用数据手套收集数据时的触觉反馈限制。

2. 开发了基于PID和视觉模仿学习的控制器,使HIRO Hand能够展示10种不同的抓取和操作任务。

3. 开发了一个完全3D打印的、具有15个自由度(DOF)的灵巧手,成本效益高(400美元),重复偏差低于0.14毫米,能够处理80%的人类抓取类型。

(上下滑动查看科研成果概要)

论文作者:

Dehao Wei, Huazhe Xu

项目链接:

https://sites.google.com/view/hiro-hand




自监督学习&多模态数据融合 —CrossVideo & TEG-Track

弋力 清华大学助理教授


弋力团队在机器人视觉与触觉感知领域研究中取得重要进展,通过自监督学习和多模态数据融合来提升机器人对环境的理解和交互能力,在ICRA 2024上发表2项成果。提出了一种自监督的跨模态对比学习方法CrossVideo,通过模态内和跨模态的对比学习技术,提高点云视频理解的性能。团队提出了一种触觉增强的6D姿态跟踪系统TEG-Track,用于跟踪手中持有的未见过的物体。该方法在合成和真实世界场景中均能一致性地提升最先进的通用6D姿态跟踪器的性能。相关成果可运用推广到机器人导航、增强现实、自动化驾驶等领域。


01 CrossVideo: Self-supervised Cross-modal Contrastive Learning  for Point Cloud Video Understanding


点云视频是基于三维点云数据构建的动态序列,包含丰富的几何和拓扑信息,能够准确描述现实世界中的对象和场景。它在自动驾驶、机器人导航和增强现实等领域有着广泛的应用。尽管4D数据无处不在,但在大规模上对这些数据进行详细信息标注是成本高昂的。因此需要找到利用大量未标注数据的方法。在可能的解决方案中,自监督表示学习已在包括图像、视频和点云在内的各个领域证明了其有效性。基于此,弋力团队提出了第一个4D自监督跨模态对比学习方法,该方法促进了图像视频和点云视频学习的信息协同交互。该方法提出使用模态内和跨模态对比学习来促进有效的点云视频理解。广泛的实验表明,该方法大幅度超过了以前的最先进方法,并且全面的消融研究也验证了设计的有效性。


(上下滑动查看科研成果概要)

论文作者:

Yunze Liu, Changxi Chen, Zifan Wang, Li Yi

项目链接:

https://arxiv.org/abs/2401.09057


02 TEG-Track: Self-supervised Cross-modal Contrastive Learning  for Point Cloud Video Understanding


手内物体位姿跟踪是轴孔装配等机械臂精细操作算法的重要组成部分。先前可泛化的物体位姿跟踪算法仅依赖视觉信息,在跟踪手内物体时由于视觉遮挡严重而表现不佳。得益于GelSight光学触觉传感器捕捉的高精度物体接触区域几何信息,弋力团队提出了首个通用的利用触觉信息优化可泛化的手内物体位姿跟踪的算法框架—TEG-Track,其能够方便地整合到多种基于视觉信息的可泛化物体位姿跟踪算法中。为检验TEG-Track的性能,研究组制造了操作模式多样的仿真数据,并构建了真实场景中首个大规模视触觉融合的手内物体位姿跟踪数据集。实验证明TEG-Track可在仿真和真实场景中显著提高多个先进的可泛化物体位姿跟踪算法的准确度。



(上下滑动查看科研成果概要)

论文作者:

Yun Liu*, Xiaomeng Xu*, Weihang Chen, Haocheng Yuan, He Wang, Jing Xu, Rui Chen, Li Yi

数据集和代码:

https://github.com/leolyliu/TEG-Track

项目链接:

https://ieeexplore.ieee.org/abstract/document/10333330





促进自动驾驶的离线强化学习—HsO-VP

赵行 清华大学助理教授


赵行团队在离线强化学习能够超越专家性能、无需危险环境交互的特性,提出了HsO-VP框架,实现了纯粹基于离线数据的长程运动规划。框架通过变分自编码器(VAE)从离线演示中学习技能,解决自动驾驶中的长期规划问题。设计了双分支序列编码器,有效应对后验坍塌问题。为自动驾驶车辆规划提供了一种新的强化学习方法。


Learning Agile Bipedal Motions on a Quadrupedal Robot

Traditional Offline RL Planner

Hierarchical Skill-Based Planner


近来伴随着不同驾驶模拟器和大规模驾驶数据集的出现,基于深度学习的运动规划方式成为了自动驾驶的关键一环。区别于以往常用的模仿或强化学习算法,赵行团队瞄准了离线强化学习(Offline Reinforcement Learning, Offline RL)能够超越专家性能、无需危险环境交互的特性,提出了HsO-VP框架,实现了纯粹基于离线数据的长程运动规划。框架以驾驶技能为根基,将规划分为提取有效驾驶技能和基于技能的策略学习两阶段,通过更高层次的规划和反馈来稳定长程驾驶过程。为解决常见技能提取时的后验坍塌问题,HsO-VP结合人类驾驶先验,引入了双分支序列编码器,以同时捕捉复杂驾驶技能的离散选项和连续变化,使框架能从离线数据中提取出灵活且可解释的大量驾驶技能。相比于先前方案,HsO-VP在新的测试场景中取得了6.4%的驾驶得分提升。


(上下滑动查看科研成果概要)

论文作者:

Zenan Li*, Fan Nie*, Qiao Sun, Fang Da, Hang Zhao

项目链接:

https://arxiv.org/abs/2309.13614





编辑 | 姜月亮   

审核 | 吕厦敏   

内容中包含的图片若涉及版权问题,请及时与我们联系删除