PromptBench: A Unified Library for Evaluation of Large Language Models

简介

这篇论文介绍了一个名为PromptBench的统一库，用于评估大型语言模型（LLMs）的性能并减轻潜在的安全风险。它包含了几个关键组件，包括prompt构建、prompt工程、数据集和模型加载、对抗prompt攻击、动态评估协议和分析工具。PromptBench旨在成为一个开放、通用、灵活的代码库，以促进原始研究，创建新的基准测试、部署下游应用程序和设计新的评估协议。该代码可在https://github.com/microsoft/promptbench上获取，并将得到持续支持。
图表
解决问题

介绍了一个名为PromptBench的统一库，用于评估大型语言模型（LLMs）的性能和安全性
关键思路

PromptBench包括多个组件，包括提示构建、提示工程、数据集和模型加载、对抗性提示攻击、动态评估协议和分析工具，旨在成为一个开放、通用、灵活的代码库，用于研究目的
其它亮点

PromptBench是一个开源的、易于使用和扩展的库，可以帮助研究人员创建新的基准、部署下游应用程序和设计新的评估协议。代码可在GitHub上获得支持
相关研究

最近的相关研究包括：GPT-3、Turing-NLG、XLNet等