- 简介模型评估对于理解人工智能系统的安全性、风险和社会影响至关重要。虽然大多数现实世界的人工智能应用涉及人机交互,但大多数当前的评估(例如常见的基准测试)不涉及人机交互。相反,它们以有限的方式纳入人类因素,评估模型的安全性,因此无法捕捉人-模型交互的复杂性。在本文中,我们讨论并实现了一种新兴评估类别的定义——“人机交互评估”(HIEs),其重点是评估人-模型交互或人类使用模型的过程和结果。首先,我们认为HIEs可以用于增加安全评估的有效性,评估直接的人类影响和交互特定的危害,并指导未来对模型社会影响的评估。其次,我们提出了一个以安全为重点的HIE设计框架——包含人-LLM交互分类法——包括三个阶段:(1)确定风险或危害领域,(2)描述使用情境,(3)选择评估参数。第三,我们将我们的框架应用于两个潜在的评估,即过度依赖和说服风险。最后,我们提出了具体的建议,以解决对HIEs成本、可复制性和不代表性的担忧。
- 图表
- 解决问题论文旨在解决当前AI模型评估中缺乏人机交互的问题,提出了一种新的评估方法——人机交互评估(HIEs),并探讨其在提高模型安全性、评估直接人类影响和交互特定危害方面的应用。
- 关键思路通过设计一个以人-LLM交互分类法为基础的安全重点的HIE设计框架,该框架包含三个阶段:(1)确定风险或危害领域,(2)描述使用环境,(3)选择评估参数。
- 其它亮点论文提出了一种新的评估方法——人机交互评估(HIEs),用于评估人机交互过程中的安全性、直接人类影响和交互特定危害。论文提出了一个以人-LLM交互分类法为基础的安全重点的HIE设计框架,并应用于两个潜在的评估——过度依赖和说服风险。最后,论文提出了解决HIE成本、可复制性和不代表性问题的建议。
- 在这个领域中,还有一些相关的研究,如:《人工智能安全评估:方法、挑战和未来方向》、《人机交互的人工智能:研究进展和未来方向》等。
沙发等你来抢
去评论
评论
沙发等你来抢