- 简介过去两年中,人们对大型语言模型(LLMs)的安全性忧虑迅速增长。研究人员和实践者通过引入大量新数据集来评估和提高LLM的安全性来应对这些担忧。然而,这项工作大多是并行进行的,目标迥然不同,从缓解偏见和有毒内容生成的近期风险到评估长期灾难性风险潜力。这使得研究人员和实践者很难找到最相关的数据集,并确定未来工作可能填补的数据集覆盖范围的空白。为解决这些问题,我们进行了首次系统评估开放数据集,以评估和提高LLM的安全性。我们审查了102个数据集,这些数据集是我们在几个月的迭代和社区驱动过程中确定的。我们强调了模式和趋势,例如趋向完全合成数据集的趋势,以及数据集覆盖范围的空白,例如缺乏非英语数据集。我们还研究了LLM安全数据集在实践中的使用情况——在LLM发布出版物和流行的LLM基准测试中——发现当前的评估实践高度特异,并且只使用了少量可用的数据集。我们的贡献基于SafetyPrompts.com,这是一个关于LLM安全的开放数据集的活动目录,我们承诺在LLM安全领域不断更新。
- 图表
- 解决问题系统性地回顾和总结针对大型语言模型(LLM)安全性的开放数据集,以便研究人员和从业者更好地评估和改进LLM的安全性。
- 关键思路通过系统性地回顾和总结102个开放数据集,帮助研究人员和从业者找到最相关的数据集,并识别未来工作可能填补的数据集覆盖范围的空白。
- 其它亮点论文总结了102个开放数据集的模式和趋势,发现越来越多的数据集是完全合成的,同时也发现缺乏非英语数据集。此外,论文还发现当前的评估实践高度特异性,并且只使用了少量可用数据集。作者建立了SafetyPrompts.com,作为LLM安全性开放数据集的目录,并承诺随着LLM安全性领域的发展不断更新。
- 最近的相关研究包括《GPT-3的安全漏洞和对策》、《对大型语言模型的隐私攻击》等。
沙发等你来抢
去评论
评论
沙发等你来抢