论文链接:http://arks.princeton.edu/ark:/88435/dsp01t435gh21h
虽然监督学习引发了深度学习的繁荣,但它有一些关键的缺点:(1)它需要大量昂贵的标记数据,(2)它从头开始解决任务,而不是像人类那样利用从先前经验中获得的知识和技能。预训练已成为一种替代和有效的范式,以克服这些缺点,其中模型首先使用容易获得的数据进行训练,然后用于解决感兴趣的下游任务,标记数据比监督学习少得多。使用未标记数据进行预训练,即自监督学习,尤其具有革命性,在不同领域取得了成功:文本、视觉、语音等。这就提出了一个有趣且具有挑战性的问题: 为什么对未标记数据进行预训练应该有助于看似不相关的下游任务?
本文提出并建立了一个理论框架,以研究为什么自监督学习对下游任务有益。该框架适用于对比学习、自回归语言建模和基于自我预测的方法。该框架的核心思想是预训练有助于学习数据的低维表示,这随后有助于用线性分类器解决感兴趣的下游任务,需要较少的标记数据。一个常见的主题是形式化用于构建自监督学习任务的无标记数据分布的理想属性。在适当的形式化下,可以表明,近似最小化正确的预训练目标可以提取在无标记数据分布中隐式编码的下游信号。最后表明,该信号可以用线性分类器从学习到的表示中解码,从而为跨任务的"技能和知识"迁移提供了一种形式化。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢