The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm

简介

“对齐”这个概念的一个关键问题是“对齐到什么？”。人工智能系统在全球范围内的使用越来越普遍，但安全对齐往往集中在同质的单语言环境中。此外，偏好训练和安全措施往往过度拟合于西方中心数据集中普遍存在的危害。在这里，我们探讨了不同对齐方法的可行性，以平衡双重目标：解决和优化非同质语言和文化偏好的集合，同时最小化全球和局部的危害。我们收集了第一组人类注释的红队提示，使用不同的语言区分全球和局部危害，这些提示可作为理解当面临地理和语言上的非平稳偏好分布时，对齐技术的可靠性的实验室。虽然这种情况在文献中很少被涵盖，主要集中在英语危害缓解上，但它捕捉了全球范围内与人工智能系统的实际互动。我们在6种语言中建立了最先进的对齐技术的新先例，而一般性能的降低最小化。我们的工作为跨语言转移和新型优化方法提供了重要的见解，以保护旨在为全球人口服务的人工智能系统。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

探索跨语言文化偏好训练和安全措施的可行性，以平衡全球和本地伤害的最小化
关键思路

通过收集人类注释的红队测试提示，建立了一个新的标准，探索了6种语言的最新对齐技术，同时最小化了全局和本地伤害
其它亮点

实验设计了一个收集人类注释的红队测试提示的实验室，使用了不同的语言，开创了一个新的先例，提供了跨语言转移和新的优化方法，保障了为全球人口设计的AI系统
相关研究

最近的研究主要集中在英语伤害缓解上，而本文则探索了非同质化的语言和文化偏好分布，为这个领域提供了重要的见解

The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm

提问交流

提问交流