Generating and Evolving Reward Functions for Highway Driving with Large Language Models

简介

强化学习在推进自动驾驶技术方面发挥着至关重要的作用，通过最大化奖励函数来实现最优策略。然而，在许多实践中，设计这些奖励函数一直是一个复杂且手动的过程。为了减少这种复杂性，我们引入了一种新颖的框架，将大型语言模型（LLMs）与强化学习相结合，以改进自动驾驶中的奖励函数设计。该框架利用了LLMs在其他领域已经证明的编码能力，以生成和演化高速公路场景的奖励函数。该框架首先指导LLMs基于驾驶环境和任务描述创建初始的奖励函数代码。然后，通过强化学习训练和LLMs的反思进行迭代循环来细化这个代码，而LLMs的反思能力使其能够审查和改进输出。我们还开发了一个特定的提示模板，以提高LLMs对复杂驾驶模拟的理解，确保生成有效且无错误的代码。我们在一个高速公路驾驶模拟器上进行的实验跨越了三种交通配置，结果显示我们的方法超越了专家手工设计的奖励函数，实现了22%的平均成功率提高。这不仅表示更安全的驾驶，而且还意味着在开发生产力方面取得了显著的收益。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过将大型语言模型（LLMs）与强化学习（RL）相结合，提高自动驾驶中的奖励函数设计，从而实现更安全的驾驶。
关键思路

论文提出了一种新的框架，利用LLMs的编码能力生成和进化高速公路场景下的奖励函数代码，并通过RL训练和LLMs的反思来不断优化。
其它亮点

论文的实验在高速公路驾驶模拟器中进行，结果表明该方法优于专家手工制作的奖励函数，平均成功率提高了22%。论文还提出了特定的提示模板来提高LLMs对复杂驾驶模拟的理解，确保生成有效且无误的代码。
相关研究

最近的相关研究包括使用深度学习和强化学习技术来实现自动驾驶，如《End-to-end Learning of Driving Models from Vision and LIDAR》和《Deep Reinforcement Learning for Autonomous Driving》。

Generating and Evolving Reward Functions for Highway Driving with Large Language Models

提问交流

提问交流