Visual Pre-Training on Unlabeled Images using Reinforcement Learning

2025年06月13日
  • 简介
    在强化学习 (RL) 中,基于价值的算法学习将每个观测结果与可能从该观测结果达到的状态和奖励关联起来。我们注意到许多自监督图像预训练方法与此公式相似:学习将图像的不同裁剪与其附近视图的裁剪相关联的特征,例如通过采用不同的裁剪方式或颜色增强。在本文中,我们完善了这一类比,并探索了一种方法,该方法直接将未标注图像数据(如网络爬取的数据和视频帧)的预训练转化为一个强化学习问题。我们在一个动态系统中训练一个通用价值函数,其中代理通过改变视图或添加图像增强来转换图像。以这种方式学习类似于裁剪一致性自监督,但通过奖励函数,当存在精心挑选的图像或弱标注的标题时,提供了一个简单的手段来塑造特征学习。我们的实验表明,在野外的未标注图像上进行训练(包括 EpicKitchens 的视频数据、COCO 的场景数据和 CC12M 的网络爬取数据)可以得到改进的表示。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决的问题是如何在无标签图像数据(如网络爬虫数据、视频帧和场景数据)上利用强化学习框架进行自监督预训练,以学习高质量的视觉表示。这是一个相对较新的问题,因为它将传统的自监督学习任务重新定义为强化学习问题。
  • 关键思路
    关键思路是将自监督学习中的视图一致性问题转化为强化学习问题,通过设计一个动态系统,其中智能体通过改变图像裁剪或应用图像增强来生成不同的视图。算法学习一个通用价值函数,该函数能够预测从当前图像视图出发可能获得的未来奖励。相比现有方法,这种方法提供了一个简单的机制,可以通过奖励函数引入弱监督信号(如标注或策划的图像),从而引导特征学习。
  • 其它亮点
    论文展示了在多个数据集上的实验结果,包括EpicKitchens(视频数据)、COCO(场景数据)和CC12M(网络爬取数据)。实验表明,该方法可以显著提升无标签图像的表示学习效果。此外,论文提出了一种灵活的方法,可以通过奖励函数轻松集成弱监督信息。代码已开源,为后续研究提供了良好的基础。值得进一步研究的方向包括探索更复杂的奖励设计以及在更大规模数据集上的表现。
  • 相关研究
    最近的相关研究包括:1) SimCLR和MoCo系列工作,它们专注于对比学习以改进自监督表示;2) DINO和iBOT,这些方法通过非对称网络架构和信息瓶颈理论改进特征学习;3) BYOL,提出了一种预测机制来避免使用负样本;4) BEiT和MAE,基于掩码技术的自监督学习方法。此外,还有一些研究尝试将强化学习应用于视觉任务,例如'Curiosity-driven Exploration by Self-supervised Prediction'和'Learning to Act by Predicting the Future'。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问