分论坛简介

具身智能广泛存在于生物体中,强调智能由脑、身体与环境协同影响,而实际行为是由主体与环境通过信息感知和物理操作过程连续、动态地相互作用而产生的。它与强调逻辑、推理与问题求解的离身智能可以协同发展,相互补充,并为智能的突破提供途径。具身智能的研究源于心理学领域,但近年来在认知科学、人工智能与机器人等多个领域得到了高度关注。特别地,具身认知理论认为,“大脑通过身体来认知世界”,即智能由脑、身体与环境协同影响。这为机器人行为智能的突破开辟了新的思路。人类能够在动态不确定环境下完成各种高度复杂的任务,正是基于“脑-体-环”协同系统对视、听、触觉信息的多模态主动感知与融合理解,以及在此基础上形成的自主学习能力。利用“脑-体-环”协同具身认知机理实现的智能机器人是新一代智能机器人发展的趋势。另一方面,复杂高动态环境对机器人的感知与学习提出了更加迫切的需求。本论坛邀请在基础模型与具身智能交叉领域取得丰硕成果的青年学者,共同探讨大模型在具身智能中的应用。

分论坛主席

刘华平,清华大学计算机科学与技术系教授,研究方向为机器人感知与学习,获国家杰出青年科学基金资助。担任机器人领域顶级期刊International Journal of Robotics Research的高级编委、中国自动化学会智能自动化专业委员会主任委员,入选爱思唯尔中国高被引学者。曾获日内瓦发明展金奖、IEEE仪器与测量学会 Andy Chi最佳论文奖、IROS最佳认知机器人论文奖。

徐静清华大学机械系长聘副教授,博士生导师,青年科学基金项目(A类)获得者,曾入选国家级青年人才。主要从事智能机器人和智能制造方向研究,承担了国家自然基金委项目、北京市自然基金项目等项目数十项,在IEEE TRO、IEEE TPAMI、Science Advances等期刊上发表SCI论文90余篇,多篇论文入选高被引论文或国际会议最佳会议论文奖;以第一发明人授权发明专利42项;以第一完成人获北京市技术发明一等奖(拟奖)、中国智能制造十大科技进展、中国仪器仪表学会技术发明一等奖、北京发明创新大赛特等奖、中国发明协会发明创业项目奖一等奖等多个奖项;入选斯坦福大学全球前2%顶尖科学家;获高等教育国家级教学成果一等奖、北京市高等教育教学成果一等奖;担任Robotica期刊编委等职务。


分论坛讲者&报告简介

报告题目

探索与预想相结合的具身导航

报告摘要

具身智能是真实物理世界中人工智能的重要表现形态,在动态开放环境的无人系统与人机协同系统中有潜在重大应用价值。具身导航是指智能体根据任务目标(如语言指令)感知与理解周围环境,预测并执行移动动作,从而逐步完成任务,是具身智能系统与真实世界交互的关键技术之一。现有的具身导航方法大多仅依赖于当前及过往的视觉观察进行短期的单步动作预测,缺乏针对未观测环境推测,并进行长远动作规划能力。生理学研究表明,人类在导航中不仅依赖当前探索观测,还能从先前记忆中预想未观测环境,通过探索与预想的结合不断修正与完善对环境的认知。因此如何赋予智能体“预想”的能力,进而帮助其预测未观测环境状况,评估导航动作的长期价值,实现更高效准确的导航决策,是一项值得研究的重要问题。本报告将首先介绍具身智能与具身导航的研究背景,并汇报探索与预想相结合的具身导航的研究进展,包括自监督语义地图生成和基于神经辐射表征的前瞻探索等具身导航技术,最后介绍具身导航从虚拟到真实环境的适配并给出演示。

讲者简介

蒋树强,中国科学院大学特聘教授,博士生导师,先后担任期刊《IEEE TMM》、《ACM ToMM》、《IEEE Multimedia》、《计算机研究与发展》、《JCST》、《CAD学报》编委,中国人工智能学会具身智能专委会主任,中国计算机学会多媒体专委会副主任、中国自动化学会网络计算专委会副主任、ACM SIGMM中国分会副主席。主要研究方向是多媒体内容分析、多模态具身智能技术和食品计算。主持承担科技创新2030-“新一代人工智能”重大项目、国家自然科学基金青年基金A类(杰青)、B类(优青)、重点等项目20余项,发表论文200余篇,获授权专利20余项,多项技术应用到实际系统中,先后获省部级或学会奖励5项。

报告题目

触觉驱动具身智能发展新引擎

报告摘要

我们人类的眼睛和耳朵分别处理光和声音,而触觉却涉及一个“感官大拼盘”:戳、拉、吹、抚摸、振动以及各种温度和化学刺激,分别形成了压力、疼痛、瘙痒、柔软与坚硬、冷热感,以及身体在空间中的定位感等多样的触觉感知,因此有研究者认为触觉是最难研究的感官。报告首先介绍了生物触觉机制,回顾了机器人触觉发展过程,重点介绍了以图像表征触觉的系列研究工作,包括视触觉传感器工艺制备、Tacchi仿真器、触觉统一表征AnyTouch、视觉-语言-触觉数据集Touch100K等,最后展望了触觉驱动具身智能的发展趋势,分享了VTLA视觉-触觉-语言-动作大模型的研究思考。

讲者简介

方斌,北京邮电大学“拔尖人才”教授,原清华大学计算机系任教工作,主要研究方向具身智能、灵巧操作及机器人大模型等。兼任中国人工智能学会理事,认知系统与信息处理专委会秘书长,中国人工智能学会杰出会员, IEEE 高级会员。发表Nature 子刊、IEEE TRO等高水平期刊及ICRA等会议论文上百篇,出版中英文专著各1部,获得国际会议/国际期刊最佳论文奖8项。多次带领学生在国际比赛中获得冠军,曾被清华大学评为“优秀指导教师”。研制的“触感灵巧手”入选了国家“十三五”科技创新成就展。 曾获IEEE仿生机电及机器人技术委员会“早期职业生涯奖”、 CICC青年科学家奖、北京市“创新大工匠”、 CAA自然科学奖一等奖、ICRA"新一代学术之星"等。

报告题目  

解决具身智能中的数据瓶颈

报告摘要

The concept of scaling laws is now often seen as a foundational approach towards achieving general intelligence. However, the field of robotics faces a significant challenge due to the scarcity of data. In this presentation, I introduce adata pyramid strategy designed to address this issue. At its core, the strategy advocates for the comprehensive utilization of diverse data sources to mutually enhance and compensate for their inherent limitations. These sources include vast internet-scale datasets, human tele-operated data, and experiences actively collected by robots.Specifically, the talk will detail three works in this regime:

(1) CoPa: Harnessing the knowledge encapsulated in large-scale, pretrained Vision-Language Models (VLMs) to execute manipulation tasks with a high degree of generalizability.

(2) General Flow & ATM: Learn from human videos in a cross-embodiment manner and handles rigid, articulated, deformable objects within a single framework.

(3) Foundation RL: Empower reinforcement learning with foundation models, such that the agent actively collect meaningful trajectories. The presentation posits that data serves as the wellspring of knowledge. By shifting our perspective from a purely algorithmic focus to one that prioritizes data, we can potentially identify and tackle prominent challenges in the pursuit of general robotic intelligence.

讲者简介

高阳,清华大学交叉信息研究院助理教授,千寻智能联合创始人。主要研究计算机视觉与机器人学。此前,他在美国加州大学伯克利分校获得博士学位,师从Trevor Darrell教授。他还在加州伯克利大学与Pieter Abbeel等人合作完成了博士后工作。在此之前,高阳从清华大学计算机系毕业,与朱军教授在贝叶斯推理方面开展了研究工作。他在2011-2012年在谷歌研究院进行了自然语言处理相关的研究工作、2016年在谷歌自动驾驶部门Waymo的相机感知团队工作,在2018年与Vladlen Koltun博士在英特尔研究院在端到端自动驾驶方面进行了研究工作。高阳在人工智能顶级会议NeurIPS,ICML,CVPR,ECCV,ICLR等发表过多篇学术论文,谷歌学术引用量超过5000次。

报告题目

具身智能的自身模型:运动-神经系统的动力学建模与控制

Self Model for Embodied Intelligence: Modeling and Control of Neuro-Musculo-Skeletal System

报告摘要

神经-肌肉-骨骼系统的建模和控制对于理解人体运动控制机理、发展具身智能和优化人机交互系统非常重要。然而,目前的模型仅限于有限的身体部位,且肌肉数量通常较少。同时缺乏能够控制全身肌肉以产生合理人体运动的算法。我们建立了一个涵盖全身的神经驱动的肌肉骨骼模型,可以模拟全身动力学并与外部设备交互。我们提出新算法,使用低维表示和分层深度强化学习来实现有效的全身控制。这一系统有助于对生物运动控制的更深入了解和调节。

Abstract

Modeling and control of the neuro-musculo-skeletal system is important for understanding human motor control mechanisms, developing embodied intelligence, and optimizing human-robot interaction systems. However, current models are restricted to a limited range of body parts and often with a reduced number of muscles. There is also a lack of algorithms capable of controlling whole-body muscles to generate reasonable human movements. To fill this gap, we build a neural signal driven musculoskeletal model with all movement related muscle-tendon units, allowing simulation of whole-body dynamics and interaction with various devices. We develop algorithms using low-dimensional representation and hierarchical deep reinforcement learning to achieve effective whole-body control. The system will help towards better understanding and modulation of biological motion control.

讲者简介

眭亚楠(YananSui.com),清华大学航天航空学院副教授,主要研究面向具身智能和脑机交互的神经-肌肉-骨骼系统建模、控制与强化学习。于清华大学获得学士学位,美国加州理工学院获得博士学位,并在加州理工学院和斯坦福大学进行博士后工作。主持科技创新2030、国家人才计划等青年科学家研究项目。研究成果安全强化学习方法作为独立专题写入斯坦福大学教科书《Algorithms for Optimization》,在Caltech/CMU/Stanford等多所高校的课程中被讲授。偏好反馈强化学习方法用于机器人控制研究曾获国际机器人与自动化会议ICRA最佳论文奖和最佳人机交互论文奖,成果应用于运动-神经损伤疾病的临床诊断与治疗。多次担任人工智能顶级国际会议组委会成员和领域主席。因在人工智能与神经工程领域的贡献入选MIT科技评论中国“35岁以下科技创新35人”。

Bio

Yanan Sui (YananSui.com), associate professor at Tsinghua University, is dedicated to the research of human neuro-musculo-skeletal modeling and control, with applications in embodied intelligence and brain-machine interaction. He received his B.S. from Tsinghua University, his Ph.D. from Caltech, and did postdoctoral work at Caltech and Stanford University. His work on safe optimization has been included in textbooks at Stanford and other universities. He co-won the Best Conference Paper Award and the Best Paper Award on Human-Robot Interaction at the 2020 International Conference on Robotics and Automation. His work has been successfully applied to the clinical treatment of neural injuries in China and the United States. He has served as committee member and area chair for leading AI conferences. For his contribution to the interdisciplinary field of artificial intelligence and neural engineering, he was selected as one of MIT Technology Review's Innovators Under 35 in China.


后续我们将继续更新本次学术年会相关信息,敬请持续关注!

本次年会报名推送请查看:开启报名 | 清华大学基础模型2025学术年会

点击下方 关注我们

内容中包含的图片若涉及版权问题,请及时与我们联系删除