- 简介大语言模型(LLM)的预训练、微调与评估依赖于输入空间的重构能力与生成能力。然而,在视觉领域人们已发现,基于嵌入空间的训练目标(例如采用联合嵌入预测架构,即JEPAs)远优于其在输入空间中的对应方法。这种语言与视觉领域在训练方式上的差异引发了一个自然的问题:语言模型的训练方法能否从视觉领域的经验中借鉴一些技巧?目前尚无JEPA风格的大语言模型,这正说明了为语言任务设计此类目标所面临的挑战。本文提出了朝这一方向迈出的第一步:我们开发了LLM-JEPA,一种基于JEPA的解决方案,可同时应用于大语言模型的微调与预训练。迄今为止,LLM-JEPA在多种模型上均显著超越了标准的LLM训练目标,且在整个过程中表现出对过拟合的强鲁棒性。这些结果在多个数据集(NL-RX、GSM8K、Spider、RottenTomatoes)以及Llama3、OpenELM、Gemma2和Olmo系列的不同模型上均得到了验证。代码地址:https://github.com/rbalestr-lab/llm-jepa。
- 图表
- 解决问题论文试图解决当前大语言模型(LLM)主要依赖输入空间重建和生成目标进行预训练与微调的问题,而相比之下,计算机视觉领域基于嵌入空间的训练目标(如联合嵌入预测架构JEPA)已被证明更有效。因此,论文探索能否将视觉领域的嵌入空间方法引入语言模型训练,这是一个相对较新的问题,尤其在如何设计适用于语言任务的JEPA架构方面仍属空白。
- 关键思路提出LLM-JEPA,是首个将联合嵌入预测架构(JEPA)成功应用于大语言模型的框架,支持预训练和微调。其核心思想是在嵌入空间中进行预测与对齐,而非传统的输入空间自回归重建,从而提升训练效率与泛化能力,并减少过拟合风险。相比现有主流基于token预测的语言模型训练方式,该方法代表了一种范式转变,首次系统性地将视觉中成功的嵌入空间学习机制迁移到语言领域。
- 其它亮点LLM-JEPA在多个模型家族(Llama3、OpenELM、Gemma2、Olmo)和多样化任务上显著优于标准训练目标,包括自然语言推理(NL-RX)、数学推理(GSM8K)、语义解析(Spider)和情感分类(RottenTomatoes)。实验设计覆盖不同规模模型与任务类型,验证了方法的通用性与鲁棒性。代码已开源(https://github.com/rbalestr-lab/llm-jepa),便于复现与后续研究。值得深入的方向包括JEPA在多模态学习中的扩展、更高效的嵌入空间预测机制设计,以及理论分析其抗过拟合机制。
- 1. A Joint-Embedding Predictive Architecture for Reasoning (LeCun et al., 2024) 2. Self-Supervised Learning with Kernel Loss for Speech and Language Representation (Wu et al., 2023) 3. Data2Vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (Baevski et al., 2022) 4. Masked Autoencoders Are Scalable Vision Learners (He et al., 2022) 5. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)
沙发等你来抢
去评论
评论
沙发等你来抢