Evaluating Superhuman Models with Consistency Checks

L Fluri, D Paleka, F Tramèr
[ETH Zurich]

用一致性检查评估超人模型

  • 动机:如果机器学习模型在各种推理或决策任务上达到超人的能力,该如何评估这些模型,因为人类在这种情况下无法作为真实的参照?
  • 方法:提出一个通过一致性检查来评估超人模型的框架。该框架的前提是,虽然评估超人决策的正确性可能是不可能的,但如果模型的决策不能满足某些逻辑的、人类可以理解的规则,仍然可以找出错误。
  • 优势:无论模型在这些任务上的表现如何(可能是超人的),都可以发现决策制定中的逻辑不一致性。

提出一个新的框架,通过一致性检查来评估超人模型,找出模型决策中的逻辑不一致,从而为批判性的决策场景提供了对模型的信任度的重要考量。

https://arxiv.org/abs/2306.09983 


图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除