Google DeepMind等｜不用大模型，进化算法来搜索控制机器人的Python代码

Jim Fan推荐了谷歌的这篇论文，不采用大语言模型或神经网络,而是使用进化算法来搜索控制机器人的Python代码的方法论文。这种方法的优点是:

可解释性强:直接演化Python代码,可以清楚地理解和分析控制逻辑。
可适应性好:代码可以根据环境变化进行模块化和在线调整,实现对环境变化的适应。
更简单可控:不需要复杂的神经网络结构,编程和调试更简单。
更高效:不需要大量数据进行神经网络预训练,直接搜索代码可以更高效获得控制策略。
对理论研究有帮助:输出的代码形式有利于分析算法背后的理论原理。

Discovering Adaptable Symbolic Algorithms from Scratch

探索可适应的从零开始的符号算法

Stephen Kelly, Daniel S. Park, Xingyou Song, Mitchell McIntire, Pranav Nashikkar, Ritam Guha, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh Boddeti, Jie Tan, Esteban Real

Google Research、Google DeepMind、McMaster University、Michigan State University

论文地址：arxiv.org/abs/2307.16890

我们在遗传编程领域的最新工作:AutoRobotics-Zero (ARZ)，通过使用AutoML-Zero的搜索方法，可以届时能够构建紧凑且可解释的机器人策略,这些策略可以快速适应剧烈的环境变化。这项工作展示了遗传编程在机器人控制领域的潜力。

在真实复杂环境中,机器人需要能快速适应环境变化的控制策略。论文提出了AutoRobotics-Zero (ARZ)方法,基于AutoML-Zero,可以从零开始发现可适应的策略。
与只优化模型参数的神经网络方法不同,ARZ可以构建具有完整线性寄存器机表达能力的控制算法。
ARZ可以演化模块化策略,在运行时同时优化模型参数和推理算法,以适应突然的环境变化。
在四足仿真机器人平台上,演化出了避免腿部断裂导致跌倒的安全控制策略,两个流行的神经网络基准在此任务上失败。
新颖的动态控制基准Cataclysmic Cartpole上,ARZ表现显著优于突然环境变化,并能学习到简单可解释的策略。
整体而言,ARZ可从零开始发现对环境变化具有鲁棒性的控制策略,对开发可适应的自主机器人有重要意义。

视频YouTube: youtu.be/sEFP1Hay4nE

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Google DeepMind等｜不用大模型，进化算法来搜索控制机器人的Python代码

评论