PromptBench: A Unified Library for Evaluation of Large Language Models

2023年12月13日
  • 简介
    这篇论文介绍了一个名为PromptBench的统一库,用于评估大型语言模型(LLMs)的性能并减轻潜在的安全风险。它包含了几个关键组件,包括prompt构建、prompt工程、数据集和模型加载、对抗prompt攻击、动态评估协议和分析工具。PromptBench旨在成为一个开放、通用、灵活的代码库,以促进原始研究,创建新的基准测试、部署下游应用程序和设计新的评估协议。该代码可在https://github.com/microsoft/promptbench上获取,并将得到持续支持。
  • 图表
  • 解决问题
    介绍了一个名为PromptBench的统一库,用于评估大型语言模型(LLMs)的性能和安全性
  • 关键思路
    PromptBench包括多个组件,包括提示构建、提示工程、数据集和模型加载、对抗性提示攻击、动态评估协议和分析工具,旨在成为一个开放、通用、灵活的代码库,用于研究目的
  • 其它亮点
    PromptBench是一个开源的、易于使用和扩展的库,可以帮助研究人员创建新的基准、部署下游应用程序和设计新的评估协议。代码可在GitHub上获得支持
  • 相关研究
    最近的相关研究包括:GPT-3、Turing-NLG、XLNet等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论