In-context Learning for Automated Driving Scenarios

简介

本文介绍了一种创新的方法，利用大型语言模型（LLMs）以人为中心的方式直观有效地优化强化学习（RL）奖励函数，以实现成本效益高的灵活、精确和类人行为。我们开发了一个框架，将指令和动态环境描述输入到LLM中。然后，LLM利用这些信息来协助生成奖励，从而将RL代理的行为引导到更接近人类驾驶的模式。实验结果表明，这种方法不仅使RL代理更类人化，而且还能达到更好的性能。此外，还研究了各种奖励代理和奖励塑形策略，揭示了提示设计对塑造自动驾驶车辆行为的影响。这些发现为开发更先进、更类人化的自动驾驶系统提供了有前途的方向。我们的实验数据和源代码可以在此处找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何以更加灵活、精确、类人的方式优化强化学习（RL）驾驶代理的行为？
关键思路

使用大型语言模型（LLM）来优化RL奖励函数，从而更加类人化地引导RL代理的行为。
其它亮点

论文设计了一个框架，将指令和动态环境描述输入LLM，LLM利用这些信息来辅助生成奖励，从而将RL代理的行为引导到更接近类人驾驶的模式。实验结果表明，这种方法不仅使RL代理更加人类化，而且达到了更好的性能。此外，论文还探讨了奖励代理和奖励塑形的各种策略，揭示了提示设计对塑造AD车辆行为的重要影响。论文的实验数据和源代码可以在其网站上找到。
相关研究

最近的相关研究包括：《End-to-End Robotic Reinforcement Learning without Reward Engineering》、《Learning to Drive Smoothly in Minutes》、《Deep Reinforcement Learning for Autonomous Driving: A Survey》等。

In-context Learning for Automated Driving Scenarios

提问交流

提问交流