CSRT: Evaluation and Analysis of LLMs using Code-Switching Red-Teaming Dataset

2024年06月17日
  • 简介
    最近对大型语言模型(LLMs)的研究揭示了它们在多语言能力和安全性方面的表现,超越了传统的语言建模任务。然而,当前的基准测试揭示了它们无法全面评估,并且过度依赖于手动注释。在本文中,我们介绍了代码切换红队(CSRT),这是一种简单而有效的红队技术,可以同时测试LLMs的多语言理解和安全性。我们发布了CSRT数据集,其中包括315个代码切换查询,结合了多达10种语言,并引发了各种不良行为。通过对十个最先进的LLMs进行广泛的实验,我们证明了CSRT在英语中比现有方法攻击成功率高46.7%。我们通过消融研究对16K个样本进行了有关各个方面的有害响应分析,包括但不限于缩放规律,不安全的行为类别以及用于生成最佳数据的输入条件。此外,我们通过使用单语数据生成代码切换攻击提示来验证CSRT的可扩展性。
  • 图表
  • 解决问题
    CSRT是一种简单有效的红队技术,用于同时测试LLMs的多语言能力和安全性。该论文旨在解决当前多语言模型评估方法的不足和过度依赖手动注释的问题。
  • 关键思路
    通过引入CSRT数据集,该论文提出了一种新的多语言红队技术,可以更全面地测试LLMs的能力和安全性。
  • 其它亮点
    该论文通过实验验证了CSRT的有效性,并分析了数据集的不同方面。同时,他们还公开了CSRT数据集和代码,为未来的研究提供了基础。
  • 相关研究
    最近的相关研究包括:1. MultilingualBERT: A Multilingual Pretrained BERT Model. 2. XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation. 3. Evaluating Multilingual Language Understanding with Cross-lingual Tasks.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论