Jailbreaking LLM-Controlled Robots

简介

最近引入的大规模语言模型（LLMs）已经通过实现场景推理和直观的人机交互彻底改变了机器人领域，这些应用涵盖了从操作、移动到自动驾驶汽车等多个方面。当被视为独立技术时，已知大规模语言模型容易受到越狱攻击的影响，即恶意用户通过绕过安全防护措施来诱使模型生成有害文本。为了评估在机器人中部署大规模语言模型的风险，本文介绍了RoboPAIR，这是首个旨在对由大规模语言模型控制的机器人进行越狱的算法。与现有的针对大规模语言模型聊天机器人的文本攻击不同，RoboPAIR能够诱使由大规模语言模型控制的机器人执行有害的物理动作，这一现象我们在三个场景中进行了实验验证：（i）白盒设置，攻击者可以完全访问NVIDIA Dolphins 自动驾驶大规模语言模型；（ii）灰盒设置，攻击者部分访问配备GPT-4o 规划器的Clearpath Robotics Jackal UGV 机器人；（iii）黑盒设置，攻击者仅能查询集成GPT-3.5 的Unitree Robotics Go2 机器狗。在每个场景中，通过对三种新的有害机器人动作数据集的测试，我们证明了RoboPAIR以及几种静态基线方法能够快速有效地找到越狱方法，通常能够实现100%的攻击成功率。我们的结果首次揭示，被越狱的大规模语言模型的风险远不止于文本生成，因为被越狱的机器人有可能在现实世界中造成物理损害。事实上，我们在Unitree Go2 上的结果代表了首次成功越狱商用机器人系统的案例。解决这一新兴漏洞对于确保大规模语言模型在机器人领域的安全部署至关重要。更多媒体资料可访问：https://robopair.org
图表
解决问题

该论文旨在评估在机器人技术中部署大型语言模型（LLMs）的风险，特别是这些模型可能受到的‘越狱攻击’，这种攻击可能导致机器人执行有害的物理动作。这是一个新的问题，因为之前的研究主要集中在文本生成中的安全问题。
关键思路

论文提出了RoboPAIR算法，这是第一个专门设计用于越狱LLM控制机器人的算法。与现有的针对LLM聊天机器人的文本攻击不同，RoboPAIR能够促使机器人执行有害的物理动作。这一方法在不同的设置下进行了测试，包括白盒、灰盒和黑盒环境，展示了其有效性和普遍性。
其它亮点

论文通过三个不同的场景展示了RoboPAIR的有效性，包括对NVIDIA Dolphins自驾车LLM、Clearpath Robotics Jackal UGV和Unitree Robotics Go2机器狗的成功越狱。实验使用了三个新的有害机器人动作数据集，并且在某些情况下达到了100%的攻击成功率。此外，论文首次成功地越狱了一个商用机器人系统。研究结果强调了确保LLM在机器人技术中安全部署的重要性。项目相关媒体资料可在https://robopair.org获取。
相关研究

近期相关研究包括： 1. 'Evaluating and Mitigating Safety Risks in Language Models' - 探讨了LLMs在文本生成中的安全风险及缓解措施。 2. 'Adversarial Attacks on Text-to-Image Models' - 研究了对抗性攻击如何影响文本到图像模型。 3. 'Security Challenges in Autonomous Systems' - 讨论了自主系统中的各种安全挑战，包括硬件和软件层面的安全问题。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论