协作式异构机器人系统可以极大提高目标搜索与导航任务的效率。本文设计了一个由无人机(UAV)和无人地面车辆(UGV)组成的异构机器人系统,用于在未知环境中的搜救任务。文章第一作者为美国阿拉巴马大学陈昀博士,通讯作者为新加坡南洋理工大学肖佳平研究员。该文所提系统能够通过深度强化学习算法学习策略,在类似迷宫的矿井环境中搜索目标并导航至目标。在训练过程中,如果同时训练两个机器人,与它们协作相关的奖励可能无法正确获取。因此,研究引入了多阶段强化学习框架和好奇心模块,以鼓励智能体探索未访问的环境。仿真环境中的实验表明,该框架能够训练异构机器人系统在目标位置未知的情况下实现搜索与导航,而现有的基线方法则可能无法做到。UGV在原始环境中的任务成功率达到89.1%,并在未经训练的复杂环境中保持了67.6%的成功率。

图片来自Springer

全文下载:

Target Search and Navigation in Heterogeneous Robot Systems with Deep Reinforcement Learning

Yun Chen & Jiaping Xiao

https://link.springer.com/article/10.1007/s11633-024-1512-6

https://www.mi-research.net/article/doi/10.1007/s11633-024-1512-6

 

全文导读

随着自动化和人工智能的发展,移动机器人的研究取得了重大突破,并已应用于各个领域。目前,移动机器人被广泛应用于搜索与救援(SAR)场景,因为它们可以帮助探索未知和复杂的环境,提高救援效率,同时减少救援人员的工作量。先进的计算机视觉技术进一步增强了这些机器人的能力,使其能够进行更复杂的避障和环境交互。

 

在地下矿井环境(发生矿难时)中,大部分环境信息是未知的,移动机器人的视野因存在许多障碍物而受阻,且地下环境信号微弱,使得人工远程控制无法完成搜救任务。因此,在此环境中,机器人需要具备自主完成任务的能力。然而,在这种未知且复杂的环境中,无人地面车辆(UGV)在定位方面存在显著局限性,对复杂地形的感知能力差,只能执行局部路径规划。这些缺点使得难以快速搜索受害者并开展救援行动。为了应对这些挑战,激光雷达技术已被集成到移动机器人系统中。激光雷达提供精确的距离数据和3D点云,这对于在低能见度、信号差的条件下进行空间感知和障碍物检测至关重要,从而增强了路径规划和导航能力。另一方面,无人机(UAV)面临续航能力有限和无法携带大量设备的限制。为了克服这些挑战,使用空地机器人系统来增强其感知和操作能力是一种有效的方法。空地机器人系统由UGV和UAV组成。通过信息交换和协作行为,它可以极大提高仅使用UGV的系统在复杂未知环境中的导航和避障能力。

 

通常,机器人导航问题涉及确定从自身到目标位置的无碰撞路径,同时最小化导航路径的成本。现有的优化导航方法通常分为全局导航方法和局部导航方法。常见的全局导航方法包括A*、快速探索随机树(RRT)等,而局部导航方法包括人工势场(APF)法、动态窗口法(DWA)等。其他启发式方法包括神经网络(NN)、模糊逻辑、遗传算法(GA)等。全局导航方法需要预先了解整个环境,而局部导航方法通常需要更长的计算时间。

 

最近,一些研究人员在空地机器人系统领域进行了尝试,例如用于室内环境探索,使用UAV进行地图构建,随后采用传统计算机视觉方法为UGV进行分类和路径规划。然而,这些研究通常使用非学习算法作为其协作方法;采用强化学习等方法可以为系统带来更高的智能性和协作能力。

 

目前,机器学习算法已广泛应用于计算机视觉、导航与避障以及多智能体系统研究中,并取得了可喜的成果。其中,与传统算法相比,强化学习使智能体能够学习并与环境交互,并根据奖励更有效地更新其策略。RL已被用于机器人搜救和导航,但随着环境复杂度的增加,它面临维度灾难问题,这限制了其应用场景。深度强化学习(DRL)算法的出现,在神经网络的辅助下,在一定程度上解决了这些问题。可以通过神经网络提取和学习状态特征,从而在一定程度上降低维度。此外,已证明DRL在应对复杂任务中的不确定性和制定更好目标方面比非学习方法更有效。

 

一种常用的DRL算法是近端策略优化(PPO),它是一种策略梯度算法,通过梯度上升更新策略,并限制策略变异以减少方差和收敛时间,同时保持效率和稳定性,并取得良好的学习效果。然而,在DRL的训练过程中,由于稀疏奖励和高维状态空间的问题,策略可能难以收敛到全局最优解。

 

为了应对这些挑战,本文提出了一种多阶段强化学习方法,用于异构机器人系统在地下矿井环境中的协作搜索与导航。

 

本文的主要贡献总结如下:

 

1) 提出了一种基于学习的方法,用于异构机器人系统的协作搜索与导航,该方法在仿真环境中实现了高成功率。该方法采用多阶段强化学习方法,分两个阶段训练UAV和UGV的策略。此外,引入了内在好奇心模块(ICM)来解决稀疏奖励问题,使智能体在训练过程中能够更有效地探索环境。

 

2) 所提出的导航方法不需要任何地图构建,UGV只需跟随UAV同时避开障碍物即可到达目标位置。而且,UGV和UAV在整个过程中不会获取任何与目标位置相关的信息。

 

3) 通过在日益复杂的环境中评估了训练策略的性能和泛化能力。结果表明,与现有的基线方法相比,本文所提出的方法具有优越的性能。

 

本文的其余部分结构如下。第2节总结了相关工作。第3节描述了异构机器人系统协作搜救导航的问题。第4节提出了一个多阶段强化学习框架。第5节对所提的方法进行了仿真实验验证并讨论了结果。第6节总结了本工作并对未来工作进行了展望。

 

本文作者

全文下载:

Target Search and Navigation in Heterogeneous Robot Systems with Deep Reinforcement Learning

Yun Chen & Jiaping Xiao

https://link.springer.com/article/10.1007/s11633-024-1512-6

https://www.mi-research.net/article/doi/10.1007/s11633-024-1512-6

BibTex:

@Article {MIR-2024-02-024,

author={ Yun Chen, Jiaping Xiao },

journal={Machine Intelligence Research},

title={Target Search and Navigation in Heterogeneous Robot Systems with Deep Reinforcement Learning},

year={2025},

volume={22},

issue={1},

pages={79-90},

doi={10.1007/s11633-024-1512-6}}

 

特别感谢本文两位作者、陈昀博士及肖佳平研究员对以上内容的审阅和修改!

关于Machine Intelligence Research

Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%,2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4,位列人工智能及自动化&控制系统两个领域JCR Q1区;2025年发布的最新影响因子达8.7,继续跻身JCR Q1区,最佳排名进入全球第6名;2025年一举进入中科院期刊分区表计算机科学二区。

 

往期目录
2025年第4期 | 特约专题: 具身智能
2025年第3期 | 大语言模型、医学图像分割、图像阴影去除、写作风格变化检测......
2025年第2期 | 常识知识获取、图因子分解机、横向联邦学习、分层强化学习...
2025年第1期 | 机器视觉、机器人、神经网络、反事实学习、小样本信息网络...
2024年第6期 | 图神经网络,卷积神经网络,生物识别技术...
2024年第5期 | 大语言模型,无人系统,统一分类与拒识...
2024年第4期 | 特约专题: 多模态表征学习
2024年第3期 | 分布式深度强化学习,知识图谱,推荐系统,3D视觉,联邦学习...
2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...
2024年第1期 | 特约专题: AI for Art
2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计...
2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR)
2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习......
2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习... 
2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调
2023年第1期 | 类脑智能机器人、联邦学习、视觉-语言预训练、伪装目标检测... 

 

 

好文推荐
南开大学程明明团队 | MCANet:基于多尺度交叉轴注意力的医学图像分割
自动化所吴书 等 | GraphFM: 用于特征交互建模的图因子分解机
香港理工大学周立培团队等 | 综述: 面向以物体为中心的机器人操作的具身学习
清华大学朱军团队 | DPM-Solver++:用于扩散概率模型引导采样的快速求解器
南航张道强团队 | 综述:基于脑电信号与机器学习的注意力检测研究
可信图神经网络的全面综述:隐私性、鲁棒性、公平性和可解释性
哈工大江俊君团队 | SCNet:利用全1X1卷积实现轻量图像超分辨率
下载量TOP好文 | 人工智能领域高下载文章集锦(2023-2024年)
自动化所刘成林团队 | 统一分类与拒识: 一种一对多框架
上海交大张拳石团队 | 综述: 基于博弈交互理论的神经网络可解释性研究
专题好文 | 再思考人群计数中的全局上下文
专题好文 | Luc Van Gool团队: 基于分层注意力的视觉Transformer
浙江大学孔祥维团队 | 综述: 迈向真正以人为本的XAI
澳大利亚国立大学Nick Barnes团队 | 对息肉分割的再思考: 从分布外视角展开
前沿观点 | Segment Anything并非一直完美: SAM模型在不同真实场景中的应用调查
精选好文 | 推荐系统的波纹知识图谱卷积网络
复旦邱锡鹏团队 | MOSS: 一个开源的对话式大语言模型
自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱
约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法
专题综述 | 大语言模型中的知识生命周期
精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战
欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用
金耀初团队&郑锋团队 | 综述: 深度工业图像异常检测
专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑战
综述 | 清华张学工教授: 肺癌影像组学中的机器学习
哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计
Luc Van Gool团队 | 通过Swin-Conv-UNet和数据合成实现实用图像盲去噪
贺威团队&王耀南院士团队 | 基于动态运动基元的机器人技能学习
乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR)
南科大于仕琪团队 | YuNet:一个速度为毫秒级的人脸检测器
上海交大严骏驰团队 | 综述: 求解布尔可满足性问题(SAT)的机器学习方法
西电公茂果团队 | 综述: 多模态数据的联邦学习
高文院士团队 | 综述: 大规模多模态预训练模型
前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究
港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法
南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法
ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR)

 

 

MIR资讯
影响因子全球第6名!MIR稳步进军世界一流期刊行列
挺进Q1区前10名!MIR首个影响因子发布
喜报 | MIR 首次入选中科院期刊分区表计算机科学类二区
2025年 AI领域国际学术会议参考列表
致谢审稿人 | Machine Intelligence Research
MIR 2024年度优秀编委名单
喜报!MIR入选中国科技期刊卓越行动计划二期项目
特别提醒!请认准MIR官方渠道,谨防受骗
前进20名!MIR再度跻身国际影响力TOP期刊榜单
喜报 | MIR入选图像图形领域 T2级 “知名期刊”!
喜报 | MIR被 ESCI 收录!
喜报 | MIR 被 EI 与 Scopus 数据库收录

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除