
关于周刊
本期周刊,我们选择了12篇预训练相关的论文,涉及句子表示、模型集成、量子预训练、网络结构、大模型微调、文本表示、模型泛化、多模态微调、RNA蛋白预测、蛋白设计、蛋白序列表示和蛋白结构建模的探索。此外,在研究动态方面,我们选择了3篇预训练资讯,将介绍深度网络、超参数调优和大模型落地方面的一些最新内容。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
关于周刊订阅
告诉大家一个好消息,《预训练周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。订阅方法:
1,注册智源社区账号
2,点击周刊界面左上角的作者栏部分“预训练周刊”(如下图),进入“预训练周刊”主页。

3,点击“关注TA”(如下图)

4,您已经完成《预训练周刊》订阅啦,以后智源社区自动向您推送最新版的《预训练周刊》!
论文推荐
标题:香港城市大学、北大|A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive Learning Framework for Sentence Embeddings(一个句子值128伪符号:用于句子嵌入的语义感知对比学习框架)
作者:Haochen Tan, Wei Shao, Linqi Song等
简介:本文提出一种文本表示方法。作者提出了一种用于句子嵌入的语义感知对比学习框架,称为伪符号BERT (PTBERT),它能够利用伪符号空间表示-句子的表达,同时消除了句子长度和句法等表面特征的影响。具体来说,作者引入了一个独立于 BERT 编码器的附加伪符号嵌入层,以将每个句子映射为固定长度的伪符号序列。利用这些伪序列,作者能够基于注意力机制构建相同长度的正负对来执行对比学习。此外,作者利用梯度更新和动量更新编码器对实例进行编码,同时动态维护一个额外的队列来存储句子嵌入的表示,从而提高编码器对反例的学习性能。实验表明,作者的模型在六个标准语义文本相似性任务上优于最先进的基线。此外,关于对齐和一致性损失的实验,以及具有不同句子长度和句法的难例,一致地验证了作者方法的有效性。
代码下载:https://github.com/Namco0816/PT-BERT
论文下载:https://arxiv.org/pdf/2203.05877
阅读详情
标题:华盛顿大学、哥伦比亚大学、谷歌、Meta等|Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time(模型汤:多个微调模型的平均权重在不增加推理时间的情况下提高准确性)
作者:Mitchell Wortsman, Gabriel Ilharco, Ludwig Schmid等
简介:本文提出一种模型优化方法。最大化模型准确性对使用不同超参数配置进行微调的多个模型的权重进行平均通常可以提高准确性和鲁棒性。与传统的集成不同,作者可以对许多模型进行平均——作者将结果称为“模型汤”。当微调大型预训练模型(例如 CLIP、ALIGN 和在 JFT 上预训练的 ViT-G)时,作者的汤配方在ImageNet上的超参数扫描中提供了比最佳模型的显着改进。作为一个亮点,由此产生的 ViT-G 模型在 ImageNet 上达到了 90.94% 的 top-1 准确率,这是一种新的最佳水平。此外,作者展示了模型汤方法扩展到多个图像分类和自然语言处理任务,提高了分布外性能,并提高了新下游任务的零样本性能。最后,作者将权重平均和logit集成的性能相似性与损失的平坦度和预测的置信度分析性地联系起来,并通过经验验证这种关系。
论文下载:https://arxiv.org/pdf/2203.05482
阅读详情
标题:乔治亚理工、布鲁克海文国家实验室、台湾中央研究院等|WHEN BERT MEETS QUANTUM TEMPORAL CONVOLUTION LEARNING FOR TEXT CLASSIFICATION IN HETEROGENEOUS COMPUTING(当BERT在异构计算中遇到用于文本分类的量子时间卷积学习)
作者:Chao-Han Huck Yang, Jun Qi, Pin-Yu Chen等
简介:本文将量子计算应用于预训练模型。量子计算的快速发展展现了量子优势的许多独特特征,例如更丰富的特征表示和对模型参数的更安全保护。这项工作提出了一种基于变分量子电路的垂直联邦学习架构,以展示用于文本分类的量子增强预训练 BERT 模型的竞争性能。特别是,作者提出的混合经典量子模型由一种新颖的随机量子时间卷积(QTC)学习框架组成,该框架取代了基于 BERT 的解码器中的一些层。作者对意图分类的实验表明,作者提出的 BERT-QTC 模型在 Snips 和 ATIS 口语数据集中获得了具有竞争力的实验结果。特别是,BERT-QTC 将现有的基于量子电路的语言模型在两个文本分类数据集中的性能提高了 1.57% 和 1.52%。此外,BERT-QTC 可以部署在现有的商用量子计算硬件和基于 CPU 的接口上,以确保数据隔离。
论文下载:https://arxiv.org/pdf/2203.03550.pdf
阅读详情
标题:哈工大、科大讯飞|PERT: PRE-TRAINING BERT WITH PERMUTED LANGUAGE MODEL(PERT:使用重排语言模型预训练 BERT)
作者:Yiming Cui, Ziqing Yang, Ting Liu
简介:本文介绍了一种改进的BERT语言模型。作者提出了一种新的PLM,称为PERT用于自然语言理解 (NLU)。 PERT是一种自动编码模型(如BERT) 使用重排语言模型 (PerLM) 进行训练。作者置换输入文本的一部分,训练目标是预测原始符号的位置。此外,作者还应用了全词掩码和N-gram掩码来改进PERT的性能。作者对中文NLU基准进行了广泛的实验,结果表明,PERT可以带来对某些任务改进,而其他任务则没有改进。这些结果表明,开发更多样化的预训练任务是可能的,而不是掩码的语言模型变体。进行了几项定量研究以更好地理解PERT,这可能有助于设计PLM未来。
代码下载:https://github.com/ymcui/PERT
论文下载:https://arxiv.org/pdf/2203.06906.pdf
阅读详情
标题:西安交大、北大等 | Input-Tuning: Adapting Unfamiliar Inputs to Frozen Pretrained Models(使不熟悉的输入适配冻结的预训练模型)
作者:Shengnan An, Yifei Li, Zeqi Lin,等
简介:本文研究自然语言生成 (NLG) 领域中效果更优的Input-Tuning微调策略。最近,提示调优微调Prompt-Tuning(PT)范式引起了极大的关注。尽管PT在某些自然语言理解任务上表现出良好的性能,但其在NLG任务上的有效性仍然有待探索。在本文中,作者认为阻碍 NLG 任务PT发展的因素之一是不熟悉的输入(即输入在语言上与预训练语料库不同)。例如,作者的初步探索揭示了当 NLG 任务中频繁出现不熟悉的输入时,PT和微调之间存在很大的性能差距。这促使作者提出Input-Tuning策略:对连续提示和输入表示进行微调,从而以更有效的方式将不熟悉的输入适应于冻结的 PLM。作者提出的Input-Tuning在概念上很简单,并且在经验上很强大:七个 NLG 任务的实验结果表明,Input-Tuning明显且始终优于PT;此外,在其中三个任务上,Input-Tuning可以达到与微调相当甚至更好的效果。
论文下载:https://arxiv.org/pdf/2203.03131.pdf
阅读详情
标题:加利福尼亚大学、中山大学、微软|LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval(用于零样本文本检索的无监督预训练密集检索器)
作者:Canwen Xu, Daya Guo, Nan Duan,等
简介:本文研究基于预训练文本检索的无监督检索器。在本文中,作者提出了 LaPraDoR---一种预训练的双塔密集检索器,不需要任何监督数据进行训练。具体来说,作者首先提出了迭代对比学习 (ICoL),它使用缓存机制迭代地训练查询和文档编码器。ICoL 不仅扩大了负面实例的数量,而且还将缓存示例的表示保持在相同的隐藏空间中。然后,作者提出了词汇增强密集检索(LEDR)作为一种简单而有效的方法来通过词汇匹配来增强密集检索。作者在最近提出的 BEIR 基准上评估 LaPraDoR,包括 9 个零样本文本检索任务的 18 个数据集。实验结果表明,与监督密集检索模型相比,LaPraDoR 实现了最先进的性能,进一步的分析揭示了作者培训策略和目标的有效性。与重新排序相比,作者的词典增强方法可以在几毫秒内运行(快 22.5 倍),同时实现卓越的性能。
论文下载:https://arxiv.org/pdf/2203.06169
阅读详情
标题:上海理工、微软、南洋理工 | Domain Generalization using Pretrained Models without Fine-tuning(使用预训练模型进行域泛化,无需微调)
作者:Ziyue Li, Kan Ren, Xinyang Jiang,等
简介:本文研究预训练模型跨域泛化的新策略。预训练模型具有一定程度的泛化能力,但预训练模型的泛化性能可能在不同的测试域甚至样本上存在显着差异。同时,随着预训练模型的规模不断增长,作为域泛化 (DG) 任务中常见做法的“微调”:通常在计算上很昂贵、并且可能会导致对源域的过度拟合并损害泛化能力。为更好地利用各种预训练模型,作者提出了一种新的域泛化范式:领域泛化的专业集成学习(SEDGE)。它首先在固定的预训练模型上训练线性标签空间适配器,将预训练模型的输出转换为目标域的标签空间。然后,提出了一个感知模型特性的集成网络,以动态调度适当的预训练模型来预测每个测试样本。实验研究表明:与多个基线(包括 DG 任务中的最先进方法)相比,SEDGE 实现了显着的性能改进,并将可训练参数减少了约 99%,训练时间减少了约 99.5%。
论文下载:https://arxiv.org/pdf/2203.04600
阅读详情
标题:伊利诺伊大学香槟分校 | Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning(用于小样本视觉语言迁移学习的“模型无关”多任务微调)
作者:Zhenhailong Wang, Hang Yu, Manling Li,等
简介:本文研究小样本视频预训练模型的微调策略。尽管实现了最先进的零样本性能,但现有的视觉语言模型,仍然无法满足特定领域的分类任务。在小样本迁移学习的背景下,传统的微调无法阻止高度表达模型利用训练数据中的虚假相关性。另一方面,尽管与模型无关的元学习是迁移学习的自然替代方案,但由于隐式二阶优化导致的昂贵计算限制了其在大规模模型和数据集中的使用。在这项工作中,作者提出通过基于统一任务采样的简单而有效的微调策略,进一步改进现有视觉语言模型对看不见的任务的泛化,作者将该方法称为与模型无关的多任务微调 (MAMF)。由于统一的任务采样过程,MAMF 在五个基准数据集上的小样本迁移学习始终优于经典微调方法。
论文下载:https://arxiv.org/pdf/2203.04904
阅读详情
标题:早稻田大学 | Prediction of RNA-protein interactions using a nucleotide language model(利用核苷酸语言模型预测RNA-蛋白质的相互作用)
作者:Keisuke Yamada, Michiaki Hamada
简介:本文研究RNA预训练模型。测序数据的积累使研究人员能够使用新的机器学习技术预测RNA序列和RNA结合蛋白(RBPs)之间的相互作用。本文提出了BERT-RBP作为预测RNA-RBP相互作用的模型,它通过调整BERT架构在人类基因组上进行预训练,显示了在大型生物语料库上进行预训练的意义。本文的模型在使用154个RBPs的eCLIP-seq数据时表现优于最先进的预测模型。对微调模型的注意力分析进一步显示,BERT-RBP可以仅使用RNA序列理解生物语境,如转录本区域类型、转录本区域边界和RNA二级结构。总的来说,这项研究强调了BERT在预测RNA-RBP相互作用方面的强大能力,并提供了该架构对其他生物信息学问题潜在适用性的证据,尤其为BERT在生物背景下的微调机制提供了见解。
论文下载:https://doi.org/10.1101/2021.04.27.441365
阅读详情
标题:德国拜罗伊特大学 | A deep unsupervised language model for protein design(用于蛋白设计的深度无监督语言模型)
作者:Noelia Ferruz, Steffen Schmidt, Birte Höcker
简介:本文介绍了GPT范式的蛋白生成模型。鉴于人类语言和蛋白质序列之间的许多相似之处,NLP模型诸如BERT已经在生物语言中得到了应用。在GPT系列模型的启发下,本文开发了ProtGPT2,一个在蛋白质空间上训练的语言模型,它生成的新的蛋白质序列遵循自然规则,其生成的蛋白质显示出与天然蛋白质相似的氨基酸倾向性。本文的分析表明ProtGPT2可以生成与天然序列相似度较低的序列,其结构类似于已知的PDB结构,具有alphafold预测的非理想化的复杂结构,并可以揭示目前结构数据库中没有捕捉到的新拓扑结构。同时ProtGPT2也抓住了一些功能决定因素,保留了配体结合的相互作用。总的来说,该方法可以在很短时间内进行蛋白高通量生成辅助设计,尤其是对蛋白质空间的未知区域进行采样。
论文下载:https://doi.org/10.1101/2022.03.09.483666
阅读详情
标题:加州理工 | Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences(训练、评估和理解蛋白质序列的进化模型)
作者:Roshan Rao
简介:本文为众多蛋白预训练论文的作者Roshan Rao的技术报告。长期以来,生物信息学的经典问题是分析以多序列比对(MSA)为代表的进化信号。随着自监督预训练的出现,研究者开始从蛋白质序列中自动产生信息特征。本文介绍了一个用于评估不同蛋白质语言模型的表现的基准数据集TAPE,一个公开的在天然序列预训练的蛋白质语言模型的库,一种从预训练语言模型预测蛋白质接触的方法,一种学习MSA表征的新型架构MSA transformer以及如何从单序列或MSA中进行突变体功能预测。本文探讨了增加模型规模、数据集预处理和超参数对Transformer学习蛋白质表征能力的影响,并讨论了所有这些方法在蛋白质设计中的效用。从结果来说,单序列语言模型的表现与经典方法持平但速度快了几个数量级,而基于MSA的语言模型的表现则超过了之前的方法。
论文下载:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-1.pdf
阅读详情
标题:Mila等 | Protein Representation Learning by Geometric Structure Pretraining(通过几何结构预训练进行蛋白质表征学习)
作者:Zuobai Zhang, Minghao Xu, Jian Tang等
简介:本文为Mila唐建老师在蛋白结构预训练上的新作。现有的蛋白质表征学习方法通常在大量未标记的氨基酸序列上预训练蛋白质语言模型,但众所周知蛋白质结构是已知的蛋白质功能的决定因素。本文提出了一个简单有效的基于结构的蛋白质表征学习编码器,它在蛋白质残基图上进行信息传递,引入了一种新的边信息传递机制,明确地对边之间的相互作用进行建模,并通过利用多视角对比学习和4种自预测任务在Alphafold2预测的蛋白结构数据库中来预训练蛋白质图编码器。在功能预测和折叠分类任务上的实验结果表明,本文提出的预训练方法在使用更少的数据的情况下与最先进的基于序列的方法持平。该效果得益于有效利用结构信息所获得的更好的表征,这一优点使得蛋白质研究的分析更加深入,并可能用于蛋白质功能预测和序列设计。
论文下载:https://arxiv.org/abs/2203.06125v2
阅读详情
研究动态
标题:rct AI训练出1,000层的英文BERT和GPT模型
简介:rct AI提出了一种BERT适用的改进层规范化方法,用于训练具有1000层、5200万参数的BERT模型,它是当前已知最深的BERT模型。rct AI提出了一种GPT适用改进层规范化方法,用于训练具有1000层、8.15亿参数的GPT模型,它是当前已知最深的GPT模型。模型在英文200G数据集,利用Nvidia-V100显卡集群训练一周而成。未来rct AI将利用更大算力,训练更大参数量的千层BERT与千层GPT模型。
阅读详情
标题:单张GPU搞定GPT-3超参数!先训练小模型,再“一键迁移”
简介:想法很简单,利用的是他们在之前的工作中发现的一个叫做µP的特殊参数化思路:窄神经网络和宽神经网络共享同一组最优超参数,即使宽度无限大(width->∞)时也一样。可共享的超参数包括学习率learning rate、learning rate schedule、initialization、parameter multipliers、甚至可以单独针对每个参数张量。作者在宽度高达4096的Transformer以及ResNet上验证了这一结论。因此,资源匮乏的炼丹师就可以在单张GPU上对一个小版本的GPT-3模型进行超参数调整:如果在这个小模型上得到的参数接近最优,那么在大模型上也可以得到一样的结果。
代码下载:https://github.com/microsoft/mup
论文下载:https://arxiv.org/pdf/2203.03466
阅读详情
标题:基于稀疏的超大规模预训练语言模型落地实践
简介:近日达摩院谭传奇博士针对阿里达摩院机器智能实验室AliceMind家族发布了最新训练的270亿参数规模的中文语言理解和生成统一模型--PLUG进行了分享。随着预训练模型规模越来越大,如何将大规模的预训练模型在下游任务上微调后直接部署成为了一个亟待解决的难题。达摩院和计算平台PAI团队合作探索了基于稀疏的大规模语言模型落地方案,PST算法结合结构化稀疏、非结构化稀疏、低秩分解等优势,在基本保证下游任务结果的基础上,实现90%甚至99%的模型稀疏,使大规模语言模型训练和测试落地成为可能。PLUG 在各个任务上取得了超过同等规模小模型的结果,并在 BERT、Roberta、GPT上也验证了其有效性。
阅读详情
欢迎加入预训练社群
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
-
学习前沿知识、求解疑难困惑
-
分享经验心得、展示风貌才华
-
参与专属活动、结识研究伙伴
请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢