The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm

向作者提问

NEW

简介

“对齐”这个概念的一个关键问题是“对齐到什么？”。人工智能系统在全球范围内的应用越来越广泛，但安全对齐通常集中在同质单语环境中。此外，偏好训练和安全措施通常过度拟合于西方中心数据集中常见的伤害。在这里，我们探讨了在平衡双重目标时不同对齐方法的可行性：解决和优化非同质语言和文化偏好的集合，同时最小化全局和局部的伤害。我们收集了第一批人类注释的红队提示，涵盖不同语言，区分全局和局部伤害，这些提示可以作为了解当面对地理和语言上非平稳的偏好分布时对齐技术可靠性的实验室。虽然这种情况在现有文献中很少涉及，主要集中在英语伤害缓解上，但它捕捉了世界各地与人工智能系统的实际交互。我们在6种语言上建立了最先进的对齐技术的新先例，而一般性能只有轻微的下降。我们的工作为跨语言转移和新颖的优化方法提供了重要的见解，以保障旨在为全球人口服务的人工智能系统。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

这篇论文试图解决如何在非同质化的多语言和文化背景下，实现AI系统的安全对齐问题。同时，该论文还尝试减少全局和局部的伤害。
关键思路

通过收集人类注释的红队测试提示，探讨在非同质化的多语言和文化背景下实现AI系统的安全对齐的可行性。为此，提出了一种新颖的优化方法，以保护全球人口所设计的AI系统。
其它亮点

该论文收集了第一个人类注释的红队测试提示，用于理解在非同质化的多语言和文化偏好分布下，安全对齐技术的可靠性。实验结果表明，提出的方法在6种语言中都有较好的表现。该论文的方法对于跨语言转移和保护全球人口所设计的AI系统具有重要的洞察力。
相关研究

最近在该领域中，有一些相关研究，如：《Towards Robust and Verified AI: Specification Testing, Robust Training, and Formal Verification》、《Safety Gym: A Safe Reinforcement Learning Benchmark》、《AI Safety Gridworlds》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问