Self-supervised learning of video representations from a child's perspective

2024年02月01日
  • 简介
    孩子们从几年的自我中心视觉经验中学习到了强大的世界内部模型。这些内部模型能否通过孩子与高度通用的学习算法的视觉经验来学习,还是需要强大的归纳偏见?最近大规模、纵向、发展逼真的视频数据集和通用自监督学习(SSL)算法的进展,让我们开始探讨这个本质与养育之间的问题。然而,现有的工作通常专注于基于图像的SSL算法和可以从静态图像中学习的视觉能力(例如物体识别),因此忽略了世界的时间方面。为了弥补这一差距,我们在孩子早期发展阶段(6-31个月)收集的纵向自我中心头戴式摄像头记录上训练自监督视频模型。结果表明,这些模型非常有效地促进了从少量标记示例中学习行动概念;它们具有良好的数据大小缩放特性;并且它们显示出了新兴的视频插值能力。与使用完全相同数据训练的基于图像的模型相比,视频模型也学习了更加稳健的物体表示。这些结果表明,孩子内部世界模型的重要时间方面可能是可以通过他们的视觉经验使用高度通用的学习算法学习而无需强烈的归纳偏见。
  • 图表
  • 解决问题
    论文旨在研究儿童通过视觉经验学习内在模型的能力是否可以通过通用的自监督学习算法来实现,以及这是否需要强烈的归纳偏差。
  • 关键思路
    通过训练自监督视频模型,使用儿童早期发展时期的长期自我记录视频数据,证明高度通用的学习算法可以从儿童的视觉经验中学习到重要的时间性世界的内在模型,无需强烈的归纳偏差。
  • 其它亮点
    论文使用儿童早期发展时期的长期自我记录视频数据,训练自监督视频模型,证明这些模型可以从少量标记示例中学习行动概念,并且拥有有利的数据规模缩放特性和新的视频插值能力。此外,视频模型比使用相同数据训练的基于图像的模型学习到更强大的对象表示。
  • 相关研究
    最近的相关研究包括使用自监督学习算法学习视频表示的工作,如“Unsupervised Learning of Video Representations using LSTMs”和“Slow Feature Analysis for unsupervised learning of representations from sensory data”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论