每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Jailbreaking LLM-Controlled Robots
Alexander Robey ,
Zachary Ravichandran ,
Vijay Kumar ,
...
2024年10月17日
最近引入的大规模语言模型(LLMs)已经通过实现场景推理和直观的人机交互彻底改变了机器人领域,这些应用涵盖了从操作、移动到自动驾驶汽车等多个方面。当被视为独立技术时,已知大规模语言模型容易受到越狱攻击的影响,即恶意用户通过绕过安全防护措施来诱使模型生成有害文本。为了评估在机器人中部署大规模语言模型的风险,本文介绍了RoboPAIR,这是首个旨在对由大规模语言模型控制的机器人进行越狱的算法。与现有的针对大规模语言模型聊天机器人的文本攻击不同,RoboPAIR能够诱使由大规模语言模型控制的机器人执行有害的物理动作,这一现象我们在三个场景中进行了实验验证:(i)白盒设置,攻击者可以完全访问NVIDIA Dolphins 自动驾驶大规模语言模型;(ii)灰盒设置,攻击者部分访问配备GPT-4o 规划器的Clearpath Robotics Jackal UGV 机器人;(iii)黑盒设置,攻击者仅能查询集成GPT-3.5 的Unitree Robotics Go2 机器狗。在每个场景中,通过对三种新的有害机器人动作数据集的测试,我们证明了RoboPAIR以及几种静态基线方法能够快速有效地找到越狱方法,通常能够实现100%的攻击成功率。我们的结果首次揭示,被越狱的大规模语言模型的风险远不止于文本生成,因为被越狱的机器人有可能在现实世界中造成物理损害。事实上,我们在Unitree Go2 上的结果代表了首次成功越狱商用机器人系统的案例。解决这一新兴漏洞对于确保大规模语言模型在机器人领域的安全部署至关重要。更多媒体资料可访问:https://robopair.org
343
热度
PDF
解读