每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?
Yaodong Yu,
Sam Buchanan,
Druv Pai,
...
2023年11月22日
本文认为,表示学习的自然目标是将数据的分布(例如令牌集)压缩和转换为低维高斯混合模型,该模型支持不相干的子空间。这种表示的好坏可以通过一种基于原则的度量方法来评估,称为稀疏率减少,该方法同时最大化学习表示的内在信息增益和外在稀疏性。从这个角度来看,包括transformers在内的流行深度网络架构可以被视为实现迭代方案以优化这种度量方法。特别地,我们从这个目标的不同部分中得出transformer块的结论:多头自注意力操作通过实现特征编码率的近似梯度下降步骤来压缩表示,随后的多层感知机稀疏特征。这导致了一系列名为CRATE的白盒transformer-like深度网络架构,它们在数学上是完全可解释的。我们通过去噪和压缩之间的新颖联系表明,上述压缩编码的反向过程可以通过同一类CRATE架构实现。因此,所得到的白盒架构对编码器和解码器都是通用的。实验表明,尽管这些网络非常简单,它们确实学会了压缩和稀疏大规模实际图像和文本数据集的表示,并且实现了非常接近高度工程化的transformer-based模型(ViT,MAE,DINO,BERT和GPT2)的性能。我们相信,所提出的计算框架展示了通过数据压缩的统一视角来弥合深度学习理论和实践之间巨大差距的巨大潜力。代码可在以下网址找到:https://ma-lab-berkeley.github.io/CRATE。
5313
热度
ML
NLP
CV
PDF
解读
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
Zixiang Chen,
Yihe Deng,
Huizhuo Yuan,
...
2024年01月02日
通过监督微调(SFT)利用人工注释数据的能力对于推进大型语言模型(LLMs)至关重要。在本文中,我们探讨了在不需要获取额外的人工注释数据的情况下,如何将弱语言模型发展成强语言模型的前景。我们提出了一种名为自我对弈微调(SPIN)的新微调方法,它从一个经过监督微调的模型开始。SPIN的核心在于自我对弈机制,即LLM通过与自身的实例对战来提升自己的能力。更具体地说,LLM从其先前的迭代中生成自己的训练数据,通过区分这些自动生成的响应和从人工注释数据中获取的响应来完善其策略。我们的方法逐步将LLM从一个新生模型提升到一个强大的模型,释放了人工注释演示数据在SFT中的全部潜力。从理论上讲,我们证明了当LLM策略与目标数据分布一致时,我们方法的训练目标函数的全局最优解才能得到实现。在实证方面,我们在几个基准数据集上评估了我们的方法,包括HuggingFace Open LLM Leaderboard、MT-Bench和来自Big-Bench的数据集。我们的结果表明,SPIN可以显著提高LLM在各种基准测试中的性能,甚至超过通过额外的GPT-4偏好数据补充的直接偏好优化(DPO)训练的模型。这为自我对弈的前景带来了光明,使得在不需要专家对手的情况下,可以实现LLMs的人类水平性能。
2609
热度
ML
AI
NLP
PDF
解读