AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models

Jiale Cheng ,
Yida Lu ,
Xiaotao Gu ,
Pei Ke ,
Xiao Liu ,
Yuxiao Dong ,
Hongning Wang ,
Jie Tang ,
Minlie Huang
2024年06月24日
  • 简介
    虽然大型语言模型(LLMs)变得越来越强大,但它们仍然存在重大但微妙的弱点,比如在指令遵循或编码任务中出现错误。由于这些意外错误可能会在实际部署中导致严重后果,因此有必要系统地调查LLMs中的限制。传统的基准测试方法无法全面地确定特定模型的缺陷,而手动检查成本高且不可扩展。在本文中,我们介绍了一个统一的框架AutoDetect,用于自动暴露LLMs在各种任务中的弱点。受教育评估过程的启发,该过程测量学生的学习成果,AutoDetect由三个LLM驱动的代理组成:Examiner,Questioner和Assessor。这三个代理之间的协作旨在实现全面和深入的弱点识别。我们的框架在揭示缺陷方面取得了显着的成功,在ChatGPT和Claude等著名模型中,识别成功率超过30%。更重要的是,这些确定的弱点可以指导特定的模型改进,证明比无目标数据增强方法(如Self-Instruct)更有效。我们的方法已经显著提高了流行的LLMs,包括Llama系列和Mistral-7b,在多个基准测试中提高了超过10%的性能。代码和数据可在https://github.com/thu-coai/AutoDetect上公开获取。
  • 图表
  • 解决问题
    自动检测大型语言模型中的弱点,以提高性能。
  • 关键思路
    AutoDetect是一个统一的框架,利用三个LLM-powered agents:Examiner,Questioner和Assessor,自动检测LLMs的弱点。
  • 其它亮点
    AutoDetect框架在ChatGPT和Claude等著名模型中的成功率超过30%,可以指导特定模型的改进,证明比无目标数据增强方法如Self-Instruct更有效。
  • 相关研究
    最近的相关研究包括数据增强,模型架构设计和弱点检测,如《BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》和《Detecting and Correcting for Label Shift with Black Box Predictors》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论