Conformal Alignment: Knowing When to Trust Foundation Models with Guarantees

2024年05月16日
  • 简介
    在将基础模型的输出应用于高风险任务之前,确保它们符合人类价值观至关重要。例如,在放射学报告生成中,视觉语言模型生成的报告必须符合人类评估,才能在医学决策中使用。本文提出了一种名为“Conformal Alignment”的通用框架,用于识别其输出符合用户指定的对齐标准的单元。无论基础模型或数据分布如何,该方法保证平均选择的单元中有一定比例的单元确实符合对齐标准。给定任何预训练模型和具有模型生成输出的新单元,Conformal Alignment利用具有地面真实对齐状态的参考数据集来训练对齐预测器。然后选择预测的对齐得分超过数据相关阈值的新单元,以证明其相应的输出是可信的。通过应用于问答和放射学报告生成,我们证明了我们的方法能够通过轻量级训练大量的参考数据来准确识别具有可信输出的单元。在此过程中,我们研究了对齐预测中各种特征的信息量,并将其与标准模型结合起来构建对齐预测器。
  • 解决问题
    如何确保基础模型在高风险任务中的输出与人类价值观相符?
  • 关键思路
    提出了一种名为Conformal Alignment的框架,通过训练一个对齐预测器来识别满足用户指定对齐标准的单位,从而保证其输出是可信的。
  • 其它亮点
    论文使用轻量级的训练方法,在少量参考数据上能够准确地识别具有可信输出的单位。实验中应用于问答和放射学报告生成,并探讨了对齐预测的各种特征的信息量以及如何将其与标准模型结合。
  • 相关研究
    近期的相关研究包括基于对抗样本的对齐方法、基于可解释性的对齐方法等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论