- 简介AI模型对齐非常重要,因为训练数据中存在意外偏差,现代机器学习的管道不足以说明问题,会产生许多具有优秀测试集指标的模型,但可能无法满足最终用户的需求。最近的进展表明,通过人类反馈进行后期模型对齐可以解决其中的一些挑战。然而,这些方法通常局限于人类可以解释模型输出并提供反馈的设置(如生成式AI)。在传统的非生成式设置中,模型输出为数字值或类别,通过单个样本输出检测对齐不太容易。本文考虑另一种策略。我们建议通过属性测试解释模型对齐,将对齐模型$f$定义为属于展现特定期望行为的函数子集$\mathcal{P}$中的一个。我们专注于对预训练模型$f$进行后处理,以更好地与$\mathcal{P}$对齐,使用一致风险控制。具体而言,我们开发了一种通用程序,将针对给定属性$\mathcal{P}$的查询转换为适用于一致风险控制算法的一组损失函数。我们证明了一种概率保证,即$f$周围的一致区间包含一个近似满足$\mathcal{P}$的函数。考虑到现代AI模型具有广泛的参数和训练数据的能力,人们可能会认为对齐问题会自然解决。然而,增加随机特征模型的训练数据或参数并不能消除在预训练数据存在偏差时需要对齐技术的需要。我们在监督学习数据集上展示了我们的对齐方法,例如单调性和凹性等属性。我们的灵活程序可以应用于各种期望属性。
- 图表
- 解决问题本文试图通过基于属性测试的方法来解决AI模型对齐的问题,即如何将已有模型对齐到一个特定的函数集合中,以满足特定的性质要求。
- 关键思路本文提出了一种基于conformal risk control的方法,将对于特定属性的查询转化为适用于conformal risk control算法的损失函数的集合,从而通过后处理来提高已有模型的对齐性。
- 其它亮点本文的方法可以应用于不同的期望属性,如单调性和凹性等,具有灵活性。作者通过实验验证了该方法的有效性,并证明了其具有概率保证。本文的方法可以弥补AI模型训练数据偏差和管道不确定性等问题带来的对齐性挑战。
- 与本文相关的研究包括:1. Generative Adversarial Networks (GANs)中的模型对齐方法;2. 基于人类反馈的模型对齐方法;3. 针对特定属性的模型设计方法。
沙发等你来抢
去评论
评论
沙发等你来抢