In-context Learning for Automated Driving Scenarios

2024年05月07日
  • 简介
    本文介绍了一种创新的方法,利用大型语言模型(LLMs)以人为中心的方式直观有效地优化强化学习(RL)奖励函数,以实现成本效益高的灵活、精确和类人行为。我们开发了一个框架,将指令和动态环境描述输入到LLM中。然后,LLM利用这些信息来协助生成奖励,从而将RL代理的行为引导到更接近人类驾驶的模式。实验结果表明,这种方法不仅使RL代理更类人化,而且还能达到更好的性能。此外,还研究了各种奖励代理和奖励塑形策略,揭示了提示设计对塑造自动驾驶车辆行为的影响。这些发现为开发更先进、更类人化的自动驾驶系统提供了有前途的方向。我们的实验数据和源代码可以在此处找到。
  • 作者讲解
  • 图表
  • 解决问题
    如何以更加灵活、精确、类人的方式优化强化学习(RL)驾驶代理的行为?
  • 关键思路
    使用大型语言模型(LLM)来优化RL奖励函数,从而更加类人化地引导RL代理的行为。
  • 其它亮点
    论文设计了一个框架,将指令和动态环境描述输入LLM,LLM利用这些信息来辅助生成奖励,从而将RL代理的行为引导到更接近类人驾驶的模式。实验结果表明,这种方法不仅使RL代理更加人类化,而且达到了更好的性能。此外,论文还探讨了奖励代理和奖励塑形的各种策略,揭示了提示设计对塑造AD车辆行为的重要影响。论文的实验数据和源代码可以在其网站上找到。
  • 相关研究
    最近的相关研究包括:《End-to-End Robotic Reinforcement Learning without Reward Engineering》、《Learning to Drive Smoothly in Minutes》、《Deep Reinforcement Learning for Autonomous Driving: A Survey》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问