



成功率超 90%,半数故障依然「能打」
受自然界群体行为启发,科学家们一直在探索如何让机器人集群协同完成复杂任务。无论是空中的微型飞行器、陆地上的机动立方体机器人,还是水中的机器鱼群,都表现出了群体协作的巨大潜力。
然而,微型机器人集群研究仍然面临诸多挑战。
在微观尺度下,热噪声、布朗运动等因素干扰了机器人的轨迹,同时激光等驱动方式在控制多个机器人时,由于彼此之间的强耦合作用,也进一步增加了精确控制单个微型机器人的复杂性。随着尺寸不断缩小,将传感器、微控制器、微执行器等集成到微型机器人中变得愈加困难,这也限制了其独立完成复杂任务的能力。另外,群体机器人控制通常依赖电、磁、声等全局场来实现集体行为,但通常比较简单且效率低下,难以满足复杂任务的需求。
为了克服上述挑战,研究团队结合“多智能体强化学习”与“反事实奖励”机制,将控制的复杂问题转化为如何设计合适的奖励函数,从而让每个机器人在协作中优化行为。
然而,简单地给所有智能体赋予相同的团队奖励,容易引发 “懒惰智能体问题”。因此,研究团队在学习过程中引入了反事实奖励机制,让机器人根据个体贡献自动优化行为,而无需依赖复杂的环境模型,简化了集体任务的控制过程。

图 | 受自然启发的独立控制微型机器人系统中的大型货物集体运输
研究团队首先聚焦于一个复杂任务——大型杆状物体的旋转。由于杆体尺寸较大且流体阻力显著,单个微型机器人无法对其产生有效作用,必须依靠集群的协同力量才能完成任务。
为了训练机器人完成这一任务,团队使用了由 30 到 35 个微型机器人组成的集群,并通过激光驱动控制它们围绕杆进行操作。在训练初期,由于神经网络的初始权重随机,机器人行为十分混乱,几乎没有规律可言。
然而,随着训练的进行,部分机器人偶然与杆发生碰撞,产生微小的旋转,并因此获得奖励。这一反馈促使机器人逐渐意识到与杆互动并推动杆是获取奖励的有效方式。
经过约 20 个回合的训练,机器人集群开始协调一致地从杆的两端施加推力,推动杆顺时针旋转。随着训练的深入,杆的旋转速度逐渐加快并趋于稳定,机器人之间的协作效率显著提高,集群的整体表现也逐步优化。
接下来,研究团队将任务难度提升,要求机器人将杆运输到指定位置,并朝着预定方向进行精准控制。为了精确判断机器人对任务的贡献,研究人员采用了反事实奖励机制,将杆划分为 60 个小片段,并通过这些片段间的成对距离变化来作为关键性能指标。
实验结果显示,微型机器人集群在不到 3000 次动作的训练中,成功将杆推送到目标区域,成功率高达 90% 以上。在整个任务过程中,机器人集群在任务分解、策略选择以及协同操作方面显示出强大的能力。
为了进一步验证微型机器人集群的可靠性与适应性,研究团队进行了鲁棒性和可扩展性测试。
在鲁棒性测试中,研究团队通过引入故障情境,故意使部分机器人出现故障。实验结果表明,即使在 20% 至 50% 的机器人故障情况下,集群依然能够保持较高的任务完成效率,当故障比例超过 50% 时,集群的性能略有下降,但仍能维持约 30 % 的水平。
在可扩展性测试中,研究团队通过改变机器人数量,考察不同规模集群的性能表现。结果发现,当集群规模接近训练时的规模(约 35 个机器人)时,系统表现更佳;而当机器人数量减少至 20 个时,集群的性能仍能保持稳定。令人惊讶的是,即使只有 9 个机器人,集群的性能也能保持 50% 左右。然而,当机器人数量超过训练规模的两倍时,集群的性能有所下降。这是因为机器人之间的相互作用变得更加复杂,导致在有限空间内的干扰增多,影响了整体效率。

接下来,研究团队将任务难度提升,要求机器人将杆运输到指定位置,并朝着预定方向进行精准控制。为了精确判断机器人对任务的贡献,研究人员采用了反事实奖励机制,将杆划分为 60 个小片段,并通过这些片段间的成对距离变化来作为关键性能指标。
不足与展望
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢