- 简介推理时计算技术最近变得流行起来,这类技术类似于人类的“系统2思维”,有助于提升模型的表现。然而,目前大多数方法都存在若干局限性:它们要么局限于特定模态(例如仅适用于文本),要么局限于特定问题(例如像数学和编程这样的可验证领域),或者在无监督预训练的基础上还需要额外的监督或训练(例如验证器或可验证奖励)。本文提出一个问题:“我们是否可以将这些‘系统2思维’的方法进行推广,开发出仅通过无监督学习就能学会思考的模型?”有趣的是,我们发现答案是肯定的,方法是通过显式地学习输入与候选预测之间的兼容性验证机制,并将预测问题重新定义为基于该验证机制的优化问题。具体而言,我们训练了一种新型的能量模型——能量驱动型Transformer(EBT),它能够为每一个输入与候选预测组合分配一个能量值,从而通过基于梯度下降的能量最小化过程进行预测,直到收敛。在离散模态(文本)和连续模态(视觉)任务中,我们都发现EBT在训练阶段比主流的Transformer++方法具有更快的扩展速度,在数据量、批量大小、参数数量、FLOPs 和深度等方面的扩展率最高可提高35%。在推理阶段,EBT在语言任务上的“系统2思维”表现比Transformer++高出29%,而在图像去噪任务中,EBT在使用更少前向传播次数的情况下,表现也优于扩散Transformer(Diffusion Transformers)。此外,我们还发现,在预训练效果相同甚至更差的情况下,EBT在大多数下游任务中的表现仍优于现有模型,这表明EBT具有更强的泛化能力。因此,EBT为扩展模型的学习与思考能力提供了一个颇具前景的新范式。
- 图表
- 解决问题论文试图解决如何在不依赖模态特定、问题特定或额外监督训练的前提下,通过无监督学习实现类人System 2 Thinking(即推理和逻辑思考)的模型构建。这是一个较新的研究方向,旨在提升模型的泛化能力和推理能力。
- 关键思路提出Energy-Based Transformers (EBTs),一种基于能量函数的新型Transformer结构,通过无监督学习直接建模输入与候选预测之间的兼容性,并将预测过程重新定义为基于能量最小化的优化过程。相比传统方法,EBTs无需额外监督信号即可进行系统性推理。
- 其它亮点{"EBTs在离散(文本)和连续(视觉)模态上均表现优异,推理阶段性能比现有Transformer++高出29%,图像去噪任务中优于Diffusion Transformers且更高效",训练扩展性更强,在数据量、批量大小、参数数量、FLOPs和深度等方面,EBTs的扩展率最高可达Transformer++的1.35倍,实验覆盖多个下游任务,显示EBTs即使在预训练表现一般的情况下也能取得更好性能,表明其更强的泛化能力,论文未提及是否开源代码}
- {"Deep Learning for System 2 Processing in Cognitive Architectures","Transformers with Dynamic Computation for Efficient Reasoning","Self-Consistency as a Principle for Improving Reasoning in Language Models","Energy-Based Models for Continuous and Discrete Sequence Modeling","Diffusion Models as Transformers: Bridging Generative and Discriminative Approaches"}
沙发等你来抢
去评论
评论
沙发等你来抢