Optimizing Autonomous Driving for Safety: A Human-Centric Approach with LLM-Enhanced RLHF

2024年06月06日
  • 简介
    强化学习从人类反馈中学习(RLHF)在大型语言模型(LLMs)中很受欢迎,而传统的强化学习(RL)通常不够好。目前的自动驾驶方法通常使用人工反馈的机器学习,包括RL或LLMs。大多数反馈指导汽车代理的学习过程(例如控制汽车)。RLHF通常应用于微调步骤,需要直接的人类“喜好”,这在优化自动驾驶模型中并不常用。在这项研究中,我们创新地将RLHF和LLMs结合起来,以增强自动驾驶的安全性。使用人类指导从头开始训练模型效率低下。我们的框架从预先训练的自动驾驶汽车代理模型开始,并实现多个人工控制的代理,例如汽车和行人,以模拟真实的道路环境。自动驾驶汽车模型不是直接由人类控制的。我们将物理和生理反馈集成到微调模型中,使用LLMs优化此过程。这个多代理交互环境确保在真实世界应用之前进行安全、逼真的交互。最后,我们将使用在新泽西州和纽约市的实际测试平台收集的数据验证我们的模型。
  • 图表
  • 解决问题
    本论文旨在通过结合强化学习和人类反馈来提高自动驾驶的安全性,解决自动驾驶中存在的安全问题。
  • 关键思路
    论文提出了一种新的框架,将已经预训练好的自动驾驶模型与多个人类控制的代理(如汽车和行人)相结合,以模拟真实道路环境。同时,将物理和生理反馈整合到模型的微调中,使用大型语言模型进行优化,以确保在真实应用之前进行安全、真实的交互。
  • 其它亮点
    论文设计了多个实验来验证提出的框架的有效性,并使用来自新泽西和纽约市的真实测试数据来验证模型。此外,该论文还强调了使用强化学习和人类反馈相结合的方法相比传统强化学习方法在大型语言模型中的优越性。
  • 相关研究
    最近的相关研究包括使用深度强化学习来解决自动驾驶问题的研究,以及将人类反馈应用于自动驾驶模型微调的研究。例如,论文《End-to-End Learning for Self-Driving Cars》和《Reinforcement Learning with Human Feedback in the Loop》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论