Stochastic Online Conformal Prediction with Semi-Bandit Feedback

2024年05月22日
  • 简介
    “符合性预测”已成为一种有效的不确定性量化策略,通过修改模型输出标签集合而不是单个标签。这些预测集合带有保证,即它们包含真实标签的概率很高。然而,“符合性预测”通常需要大量的独立同分布的样本来进行校准。我们考虑在线学习设置,其中样本随时间到来,目标是动态构建预测集。与现有工作不同,我们假设半强化反馈,即只有在真实标签包含在预测集中时才能观察到。例如,考虑将文档检索模型校准到新域的情况;在这种情况下,只有当目标文档在检索文档的预测集中时,用户才能提供真实标签。我们提出了一种针对这种情况的新型“符合性预测”算法,并证明它相对于最优“符合性预测”器具有亚线性的遗憾。我们在检索任务和图像分类任务上评估了我们的算法,并证明它在实践中实现了良好的性能。
  • 图表
  • 解决问题
    论文旨在解决在线学习下的置信度预测问题,即通过半强化学习反馈来动态构建置信度预测集合,而不是像传统方法那样需要大量的离线数据集进行模型校准。
  • 关键思路
    论文提出了一种面向在线学习的置信度预测算法,采用半强化学习反馈,只有当真实标签在预测集合中时才能观察到,证明了该算法相对于最优置信度预测器具有次线性的遗憾值。
  • 其它亮点
    论文在文档检索和图像分类任务中进行了实验,证明了该算法的有效性。值得关注的是,该算法不需要大量的离线数据集进行模型校准,适用于在线学习的场景。论文还提供了开源代码。
  • 相关研究
    相关研究包括传统的置信度预测方法和面向在线学习的置信度预测方法。其中,传统方法包括置信度区间、置信度分布等;面向在线学习的方法包括在线置信度预测、在线置信度区间等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论