LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions

向作者提问

NEW

简介

人机交互（HRI）和人工智能（AI）社区的成员认为，大型语言模型（LLMs）是机器人任务的一种有前途的资源，例如自然语言交互、家庭和工作场所任务、近似“常识推理”和人类建模。然而，最近的研究引起了人们对LLMs在真实世界机器人实验和应用中可能产生歧视性结果和不安全行为的担忧。为了解决这些问题，我们对几个评分较高的LLMs进行了基于HRI的歧视和安全标准评估。我们的评估揭示了LLMs在遇到具有不同受保护身份特征（例如种族、性别、残疾状态、国籍、宗教及其交叉等）的人时缺乏鲁棒性，产生与直接歧视结果一致的偏见输出，例如“吉普赛”和“哑巴”被标记为不可信，但“欧洲人”或“健全人”则没有。此外，我们在自然语言不受限制（开放词汇）的情况下测试了模型，并发现它们无法安全地行动，生成接受危险、暴力或非法指令的响应，例如导致事故的错误陈述、拿走人们的移动辅助设备和性侵犯。我们的结果强调了需要系统、常规和全面的风险评估和保障，以改善结果并确保LLMs仅在安全、有效和公正的情况下在机器人上运行。数据和代码将提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型语言模型在机器人交互中的歧视和安全性问题
关键思路

通过基于人机交互的评估，揭示大型语言模型在面对多样性人群时存在的歧视风险和安全隐患，并强调需要系统性的风险评估和保障措施。
其它亮点

论文通过评估多个高评价的大型语言模型在机器人交互中的歧视和安全性表现，发现这些模型在面对多样性人群时缺乏稳健性，产生与直接歧视结果一致的偏见输出；同时，这些模型在自然语言输入方面缺乏安全性，生成接受危险、暴力或非法指令的回应。作者呼吁需要系统性、常规性和全面性的风险评估和保障措施，以改善结果并确保大型语言模型只在安全、有效和公正的情况下操作机器人。
相关研究

最近的相关研究包括：《Language (Technology) is Power: A Critical Survey of “Bias” in NLP》、《Measuring and Mitigating Unintended Bias in Text Classification》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问