这些趋势之所以令人兴奋,是因为它们可以大大减少为某一特定任务使用机器学习所需的努力,也因为它们使得在更具代表性的数据上训练模型变得更加容易(尽管绝非微不足道) ,这些模型更好地反映了不同的亚种群、区域、语言或其他重要的表示维度。
现有的模型通常使用自监督(self-supervised)学习方法进行训练,其中模型从没有经过策划或标记的“原始”数据的观察中学习,例如 GPT-3 和 GLaM 中使用的语言模型、自监督语音模型 BigSSL、可视对比学习模型 SimCLR,和多模态对比模型 VATT。
自监督学习允许一个大的语音识别模型(BigSSL 模型),只使用 3% 的标签训练数据,就能满足先前的 Voice Search 自动语音识别(automatic speech recognition,ASR) 基准测试准确度。
GLaM 模型:更有效的上下文学习
GLaM (Generalist Language Model)模型,旨在解决训练大型稠密模型(比如GPT-3)需要大量的计算资源的问题。
大型语言模型(例如,GPT-3)具有许多重要的能力,例如在一系列广泛的任务中执行少样本学习(few-shot learning),包括只有很少或根本没有训练样本的阅读理解和问答。但训练这些大型模型是极其计算密集的。
GLaM 模型是一簇通用语言模型,由于其稀疏性(sparsity),可以(在计算和能耗方面) 有效地进行训练和提供服务,并且在多个少样本学习任务上取得了更好的表现。
GLaM 模型使用稀疏激活的 MoE (sparsely activated mixture-of-experts)架构来扩展模型容量,同时与稠密的变体相比,训练成本大大减少。
...It consumes only 1/3 of the energy used to train GPT-3 and requires half of the computation flops for inference... ...它只消耗 GPT-3训练所需能耗的1/3,并且只需要一半的浮点运算进行推理...
BigSSL 模型:探索用于自动语音识别的大规模半监督学习的前沿
BigSSL (Large-Scale Semi-Supervised Learning )模型,发现预训练(pre-training)、自训练(self-training)和扩大模型尺寸(scaling up model size)的组合极大地提高了数据效能,即使对于具有数万小时标记数据的超大型任务也是如此。
SSL + Large Models = Labeled Data Efficiency
半监督学习 + 大型模型 = 标记数据的效能
BigSSL 模型使用 Conformer (convolution-augmented transformer)模型作为其编码器网络,Conformer模型将卷积神经网络和 Transformer 结合起来,以参数高效(parameter-efficient)的方式对音频序列的局部和全局依赖关系进行建模。
Transformer models are good at capturing content-based global interactions, while CNNs exploit local features effectively. Transformer 模型擅长捕获基于内容的全局交互,而 CNN 则有效地利用局部特征。
SimCLR 模型:提高自监督和半监督学习
SimCLR 模型,旨在解决当前图像数据的自监督(self-supervised)技术没有被广泛采用的问题:
- 当前的图像数据自监督技术过于复杂;
- 需要对架构或训练过程进行重大修改。
提高计算机视觉任务的性能的范式:在大型的未标记图像数据集进行预训练,然后在一个较小的标记数据集微调。这些方法属于自监督学习的范畴,通过从未标记的数据集创建替代标签,将非监督式学习问题转化为受监督的问题。
SimCLR 模型首先通过对比学习(contrastive learning),同时最大化同一图像的不同变换视图之间的一致性和最小化不同图像变换视图之间的一致性,在未标记的数据集上学习图像的通用表示法;然后它可以用少量的标记图像进行微调,以对给定的分类任务达到良好的性能。
VATT 模型:从原始视频、音频和文本的多模态自监督学习 Transformer
VATT (Video-Audio-Text Transformer)模型,用于使用无卷积 Transformer 架构从未标记的数据中学习多模态表示。
VATT 模型使用多模态对比损失(contrastive loss)进行训练,并通过视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务来评估其性能。
参考
[2112.06905] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts (arxiv.org)
[2002.05709] A Simple Framework for Contrastive Learning of Visual Representations (arxiv.org)
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢