- 简介强化学习在推进自动驾驶技术方面发挥着至关重要的作用,通过最大化奖励函数来实现最优策略。然而,在许多实践中,设计这些奖励函数一直是一个复杂且手动的过程。为了减少这种复杂性,我们引入了一种新颖的框架,将大型语言模型(LLMs)与强化学习相结合,以改进自动驾驶中的奖励函数设计。该框架利用了LLMs在其他领域已经证明的编码能力,以生成和演化高速公路场景的奖励函数。该框架首先指导LLMs基于驾驶环境和任务描述创建初始的奖励函数代码。然后,通过强化学习训练和LLMs的反思进行迭代循环来细化这个代码,而LLMs的反思能力使其能够审查和改进输出。我们还开发了一个特定的提示模板,以提高LLMs对复杂驾驶模拟的理解,确保生成有效且无错误的代码。我们在一个高速公路驾驶模拟器上进行的实验跨越了三种交通配置,结果显示我们的方法超越了专家手工设计的奖励函数,实现了22%的平均成功率提高。这不仅表示更安全的驾驶,而且还意味着在开发生产力方面取得了显著的收益。
-
- 图表
- 解决问题论文旨在通过将大型语言模型(LLMs)与强化学习(RL)相结合,提高自动驾驶中的奖励函数设计,从而实现更安全的驾驶。
- 关键思路论文提出了一种新的框架,利用LLMs的编码能力生成和进化高速公路场景下的奖励函数代码,并通过RL训练和LLMs的反思来不断优化。
- 其它亮点论文的实验在高速公路驾驶模拟器中进行,结果表明该方法优于专家手工制作的奖励函数,平均成功率提高了22%。论文还提出了特定的提示模板来提高LLMs对复杂驾驶模拟的理解,确保生成有效且无误的代码。
- 最近的相关研究包括使用深度学习和强化学习技术来实现自动驾驶,如《End-to-end Learning of Driving Models from Vision and LIDAR》和《Deep Reinforcement Learning for Autonomous Driving》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流