AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts

2024年04月09日
  • 简介
    随着大型语言模型(LLM)和生成式人工智能的普及,与其使用相关的内容安全风险也在增加。我们发现高质量的内容安全数据集和全面覆盖各种关键安全领域的基准测试存在明显不足。为了解决这个问题,我们定义了广泛的内容安全风险分类法,包括13个关键风险和9个稀有风险类别。此外,我们策划了AEGISSAFETYDATASET,这是一个新的数据集,包括约26,000个人-LLM交互实例,并附有符合分类法的人工注释。我们计划将此数据集发布给社区,以进一步研究并帮助对LLM模型进行安全基准测试。为了证明数据集的有效性,我们指导调整了多个基于LLM的安全模型。我们展示了我们的模型(名为AEGISSAFETYEXPERTS)不仅超越或与最先进的基于LLM的安全模型和通用LLM竞争,而且在多个越狱攻击类别下表现出鲁棒性。我们还展示了在LLM对齐阶段使用AEGISSAFETYDATASET不会对对齐模型在MT Bench分数上的性能产生负面影响。此外,我们提出了AEGIS,一种新颖的应用无悔在线适应性框架的方法,以在部署中使用LLM内容安全专家集合进行内容调节,并具有强大的理论保证。
  • 图表
  • 解决问题
    缺乏高质量的内容安全数据集和基准测试,这篇论文试图解决这个问题。作者定义了广泛的内容安全风险分类法,创建了AEGISSAFETYDATASET数据集,并使用该数据集训练了AEGISSAFETYEXPERTS模型。
  • 关键思路
    论文的关键思路是创建一个全面的内容安全风险分类法,并使用AEGISSAFETYDATASET数据集训练AEGISSAFETYEXPERTS模型,以提高大型语言模型的内容安全性能。
  • 其它亮点
    论文创建了一个包含13个关键风险和9个稀有风险类别的内容安全风险分类法,以及一个包含约26,000个人-LLM交互实例的AEGISSAFETYDATASET数据集,并使用该数据集训练了AEGISSAFETYEXPERTS模型。实验表明,该模型在多个攻击类别下表现出鲁棒性,并且与当前领域的最新研究相比表现出色。
  • 相关研究
    在内容安全领域,最近的相关研究包括:《A Survey of Deep Learning for Content Moderation》、《A Benchmark Dataset for Learning to Intervene in Online Hate Speech》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论