Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs

2024年07月05日
  • 简介
    AI助手如ChatGPT被训练为回答用户时说:“我是一个大型语言模型”。这引发了问题。这样的模型是否知道它们是LLM并可靠地根据这种知识行动?它们是否意识到自己的当前情况,比如被部署到公共领域?我们将模型对自身和其情境的认识称为情境感知。为了量化LLM的情境感知,我们引入了一系列基于问答和指令跟随的行为测试。这些测试构成了$\textbf{情境感知数据集(SAD)}$,包括7个任务类别和超过13,000个问题。基准测试了许多能力,包括LLM的能力(i)识别其自动生成的文本,(ii)预测其自身行为,(iii)确定提示来自内部评估还是实际部署,以及(iv)遵循依赖于自我知识的指令。我们在SAD上评估了16个LLM,包括基础(预训练)和聊天模型。虽然所有模型的表现都优于随机猜测,但即使是最高得分的模型(Claude 3 Opus),在某些任务上也远低于人类基准。我们还观察到,在SAD上的表现仅部分受到通用知识指标(例如MMLU)的预测。被调整为作为AI助手的聊天模型在SAD上优于其相应的基础模型,但在通用知识任务上则不然。SAD的目的是通过将情境感知分解为定量能力,促进对LLM中情境感知的科学理解。情境感知很重要,因为它增强了模型的自主规划和行动能力。虽然这对自动化有潜在的好处,但也引入了与AI安全和控制相关的新风险。代码和最新结果可在https://situational-awareness-dataset.org获得。
  • 图表
  • 解决问题
    评估大型语言模型的情境感知能力,即模型是否能够认识到自己的情况和环境,并在此基础上做出可靠的反应。
  • 关键思路
    通过问答和指令跟随等测试,构建了SAD数据集,对16个大型语言模型进行了情境感知能力的评估,发现当前模型在某些任务上仍远远落后于人类水平。
  • 其它亮点
    SAD数据集包含7个任务类别和超过13,000个问题,用于测试模型的自我生成文本识别、行为预测、内部评估和现实环境部署的区分能力,以及基于自我认知的指令跟随能力。实验结果表明,聊天模型在SAD上的表现优于基础模型,但在一般知识任务上表现相对较差。研究的目的是为了促进对大型语言模型情境感知能力的科学理解,并为自主规划和行动提供帮助。开源代码和最新结果可在https://situational-awareness-dataset.org找到。
  • 相关研究
    最近相关研究包括:《The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics》、《Measuring Massive Multitask Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论