- 简介这篇论文介绍了一个名为PromptBench的统一库,用于评估大型语言模型(LLMs)的性能并减轻潜在的安全风险。它包含了几个关键组件,包括prompt构建、prompt工程、数据集和模型加载、对抗prompt攻击、动态评估协议和分析工具。PromptBench旨在成为一个开放、通用、灵活的代码库,以促进原始研究,创建新的基准测试、部署下游应用程序和设计新的评估协议。该代码可在https://github.com/microsoft/promptbench上获取,并将得到持续支持。
- 图表
- 解决问题介绍了一个名为PromptBench的统一库,用于评估大型语言模型(LLMs)的性能和安全性
- 关键思路PromptBench包括多个组件,包括提示构建、提示工程、数据集和模型加载、对抗性提示攻击、动态评估协议和分析工具,旨在成为一个开放、通用、灵活的代码库,用于研究目的
- 其它亮点PromptBench是一个开源的、易于使用和扩展的库,可以帮助研究人员创建新的基准、部署下游应用程序和设计新的评估协议。代码可在GitHub上获得支持
- 最近的相关研究包括:GPT-3、Turing-NLG、XLNet等
沙发等你来抢
去评论
评论
沙发等你来抢