- 简介大型语言模型(LLMs)如果与人类价值观不一致,可能会引发意外甚至有害的内容,给用户和社会带来严重风险。为了减轻这些风险,目前的评估基准主要采用专家设计的情境来评估LLMs与人类价值观的一致性。然而,这些基准的劳动密集型限制了它们的测试范围,阻碍了它们推广到广泛的开放世界用例,并识别罕见但至关重要的长尾风险。此外,这些静态测试无法适应LLMs的快速演变,使得难以评估及时的一致性问题。为了解决这些挑战,我们提出了ALI-Agent,一种评估框架,利用LLM驱动的代理的自主能力进行深入和自适应的一致性评估。ALI-Agent通过两个主要阶段操作:仿真和细化。在仿真阶段,ALI-Agent自动化生成逼真的测试场景。在细化阶段,它迭代地细化场景以探测长尾风险。具体而言,ALI-Agent包括一个记忆模块来指导测试场景的生成,一个工具使用模块来减少人类劳动力,例如评估目标LLMs的反馈,以及一个动作模块来优化测试。在人类价值观的三个方面(刻板印象、道德和合法性)的广泛实验表明,作为一种通用评估框架,ALI-Agent有效地识别了模型不一致性。系统分析还验证了生成的测试场景代表了有意义的用例,并整合了增强措施来探测长尾风险。我们的代码可在https://github.com/SophieZheng998/ALI-Agent.git上获得。
- 图表
- 解决问题提出一种新的评估框架ALI-Agent,旨在解决当前评估大型语言模型(LLMs)时专家设计测试场景所带来的局限性和无法适应LLMs快速演化的问题。
- 关键思路利用LLM驱动的代理人自主能力进行深入和自适应的评估,通过Emulation和Refinement两个阶段来生成测试场景并逐步细化,包括记忆模块、工具使用模块和行动模块。
- 其它亮点ALI-Agent能够有效地识别模型不对齐的情况,且生成的测试场景代表有意义的使用案例,并集成了探测长尾风险的增强措施。实验涵盖了人类价值观的三个方面:刻板印象、道德和合法性。代码已在GitHub上开源。
- 当前领域中的相关研究包括:1. GPT-3和其他LLMs的评估方法研究;2. 评估自然语言生成模型的多样性和可解释性;3. 总结和分类评估方法的综述研究。
沙发等你来抢
去评论
评论
沙发等你来抢