- 简介“对齐”这个概念的一个关键问题是“对齐到什么?”。人工智能系统在全球范围内的使用越来越普遍,但安全对齐往往集中在同质的单语言环境中。此外,偏好训练和安全措施往往过度拟合于西方中心数据集中普遍存在的危害。在这里,我们探讨了不同对齐方法的可行性,以平衡双重目标:解决和优化非同质语言和文化偏好的集合,同时最小化全球和局部的危害。我们收集了第一组人类注释的红队提示,使用不同的语言区分全球和局部危害,这些提示可作为理解当面临地理和语言上的非平稳偏好分布时,对齐技术的可靠性的实验室。虽然这种情况在文献中很少被涵盖,主要集中在英语危害缓解上,但它捕捉了全球范围内与人工智能系统的实际互动。我们在6种语言中建立了最先进的对齐技术的新先例,而一般性能的降低最小化。我们的工作为跨语言转移和新型优化方法提供了重要的见解,以保护旨在为全球人口服务的人工智能系统。
-
- 图表
- 解决问题探索跨语言文化偏好训练和安全措施的可行性,以平衡全球和本地伤害的最小化
- 关键思路通过收集人类注释的红队测试提示,建立了一个新的标准,探索了6种语言的最新对齐技术,同时最小化了全局和本地伤害
- 其它亮点实验设计了一个收集人类注释的红队测试提示的实验室,使用了不同的语言,开创了一个新的先例,提供了跨语言转移和新的优化方法,保障了为全球人口设计的AI系统
- 最近的研究主要集中在英语伤害缓解上,而本文则探索了非同质化的语言和文化偏好分布,为这个领域提供了重要的见解
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流