- 简介模型评估是理解人工智能系统的安全性、风险和社会影响的核心。虽然大多数现实世界中的人工智能应用都涉及人工智能与人类的交互,但大多数当前的评估(例如常见的基准测试)并没有考虑到这一点。相反,它们以有限的方式考虑人类因素,评估模型的安全性,因此未能捕捉到人与模型交互的复杂性。在本文中,我们讨论并实现了一种新兴的评估类别的定义——“人机交互评估”(HIEs),这种评估侧重于评估人与模型交互或人类使用模型的过程和结果。首先,我们认为HIEs可以用于增加安全评估的有效性,评估直接的人类影响和交互特定的危害,并指导未来模型社会影响的评估。其次,我们提出了一个以安全为重点的HIE设计框架——包含人-LLM交互分类法——分为三个阶段:(1)确定风险或危害领域,(2)描述使用上下文,(3)选择评估参数。第三,我们将我们的框架应用于两个潜在的评估,即过度依赖和说服风险。最后,我们得出了解决HIEs成本、可复制性和不充分代表性问题的具体建议。
- 解决问题论文试图解决如何评估人工智能模型与人类交互的安全性和风险问题,以及如何指导未来模型的社会影响评估。
- 关键思路论文提出了一种新的评估方法——人机交互评估(HIE),通过评估人类使用模型的过程和结果,来增加安全性评估的有效性,评估直接的人类影响和交互特定的危害,并指导未来模型的社会影响评估。
- 其它亮点论文提出了一个基于人-LLM交互分类法的安全重点HIE设计框架,包括三个阶段:确定风险或危害领域、描述使用环境、选择评估参数。论文还应用该框架提出了两个潜在的评估方法,并提出了解决HIE成本、可复制性和不代表性问题的具体建议。
- 近期的相关研究包括基于人工智能的社会影响评估、人机交互评估方法等。
沙发等你来抢
去评论
评论
沙发等你来抢