
关于周刊
本期周刊,我们选择了11篇预训练相关的论文,涉及视觉提示、图像分割、小样本学习、生成模型、多轮对话、提示零样本学习、语言表征、蛋白质序列、抗体学习、蛋白结构和蛋白序列预测的探索。此外,在研究动态方面,我们选择了3篇预训练资讯,将介绍地图预训练、大模型推理和蛋白质结构预测方面的一些最新内容。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
关于周刊订阅
告诉大家一个好消息,《预训练周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。订阅方法:
方式一:
扫描下面二维码,进入《预训练周刊》主页,选择“关注TA”。
方式二:
1,注册智源社区账号
2,点击周刊界面左上角的作者栏部分“预训练周刊”(如下图),进入“预训练周刊”主页。

3,点击“关注TA”(如下图)

4,您已经完成《预训练周刊》订阅啦,以后智源社区自动向您推送最新版的《预训练周刊》!
论文推荐
标题:MIT|Visual Prompting:Modifying Pixel Space to Adapt Pre-trained Models(视觉提示:修改像素空间以适应预训练模型)
作者:Hyojin Bahng, Ali Jahanian, Swami Sankaranarayanan等
简介:本文将提示学习应用到图像预训练领域。提示最近已成为使语言模型适应下游的流行范式任务。这种方法不是微调模型参数或添加特定任务的头,而是引导只需在模型的输入中添加文本提示即可执行新任务的模型。在本文中,作者探讨了这个问题:作者可以用像素创建提示吗?换句话说,可以预训练视觉模型仅通过在输入中添加像素来适应新任务?作者介绍视觉提示,它学习特定于任务的图像扰动,使得冻结的预训练受到这种扰动提示的模型执行一项新任务。作者发现只改变一个几个像素就足以使模型适应新的任务和数据集,并且性能与线性探索相当,目前事实上的轻量级适配方法。出人意料的效果,视觉提示的研究为如何在视觉中调整预训练模型提供了一个新视角,并开辟了仅通过输入来调整模型的可能性,这与模型参数或输出不同,通常在最终用户的控制之下。
代码下载:https://hjbahng.github.io/visual_prompting/
论文下载:https://arxiv.org/pdf/2203.17274
阅读详情
标题:华中、腾讯、复旦等|TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation(TopFormer:用于移动语义分割的符号金字塔变换器)
作者:Wenqiang Zhang, Zilong Huang, Chunhua Shen等
简介:本文介绍了一种移动适配的图像分割算法。尽管视觉变换器 (ViTs) 取得了计算机视觉巨大的成就,沉重的计算成本阻碍了它们在密集预测任务中的应用,例如作为移动设备上的语义分割。 在这个论文,作者提出了一个名为TopFormer的移动友好符号金字塔视觉变换器架构。提出的TopFormer将不同尺度的符号作为输入,产生尺度感知的语义特征,然后在注入相应的符号以增加表示。实验结果表明,作者的方法显着优于基于CNN和ViT的网络,适用于多个语义分割数据集并且在准确性和延迟之间取得了很好的平衡。在ADE20K数据集上,基于ARM的移动设备,与MobileNetV3相比TopFormer提高了5%,mIoU的准确性更高,延迟更低。 此外,TopFormer微小的版本在ARM移动设备上实现了实时推理,具有竞争力的结果。
代码下载:https://github.com/hustvl/TopFormer
论文下载:https://arxiv.org/pdf/2204.05525.pdf
阅读详情
标题:Meta、麦吉尔大学|Few-shot Learning with Noisy Labels(带有噪声标签的小样本学习)
作者:Kevin J Liang, Samrudhdhi B. Rangrej, Tal Hassner等
简介:本文介绍了噪声下的小样本学习。在对新类进行训练时,少样本学习 (FSL) 方法通常假定具有准确标记样本的干净支持集。这种假设通常是不现实的:支持集,无论多么小,仍然可以包含错误标记的样本。因此,标记噪声的鲁棒性对于 FSL 方法的实用性至关重要,但令人惊讶的是,这个问题在很大程度上仍未得到探索。为了解决 FSL 设置中错误标记的样本,作者做出了一些技术贡献。 (1) 作者提供简单但有效的特征聚合方法,改进了流行的 FSL 技术ProtoNet 使用的原型。 (2) 作者描述了一种用于嘈杂少样本学习 (TraNFS) 的新型 Transformer 模型。 TraNFS 利用 Transformer 的注意力机制来权衡错误标记和正确的样本。 (3) 最后,作者在 Mini-ImageNet 和 Tiered-ImageNet 的嘈杂版本上广泛测试了这些方法。作者的结果表明,TraNFS 在干净的支持集上与领先的 FSL 方法相当,但在存在标签噪声的情况下远远优于它们。
论文下载:https://arxiv.org/pdf/2204.05494.pdf
阅读详情
标题:清华大学、粤港澳大湾区数字经济研究院 | BioBART: Pretraining and Evaluation of A Biomedical Generative Language Model(生物医学生成语言模型的预训练和评估)
作者:Hongyi Yuan, Zheng Yuan, Ruyi Gan,等
简介:本文将BART模型引入在生物医学领域(domain adaption)的研究。预训练的语言模型已成为自然语言处理的重要支柱。最近,专业域内预训练已被证明有益于各种特定领域的下游任务。在生物医学领域,自然语言生成 (NLG) 任务至关重要,但尚未得到充分研究。将自然语言理解任务作为 NLG 通过受约束的语言生成或语言提示在一般领域实现令人满意的性能。作者强调生物医学领域缺乏域内生成语言模型和不系统地生成下游基准,阻碍了研究界的发展。在这项工作中,作者提出:通过以 BART 适应生物医学领域的生成语言模型 BioBART。作者整理了各种生物医学语言生成任务,包括对话、摘要、实体链接和命名实体识别。与 BART 相比,在 PubMed 摘要上进行预训练的 BioBART 具有更高的性能,并在多个任务上设置了强大的基线。
论文下载:https://arxiv.org/pdf/2204.03905.pdf
源码下载:https://github.com/GanjinZero/BioBART
阅读详情
标题:Cinnamon AI、越南HungYen大学 | Enhance Incomplete Utterance Restoration by Joint Learning Token Extraction and Text Generation(基于联合学习标记提取和文本生成的不完全话语恢复算法)
作者:Shumpei Inoue, Tsungwei Liu, Nguyen Hong Son ,等
简介:本文研究多轮对话中不完全话语恢复(IUR)模型。与以往只研究提取信息或提取数据集的研究不同,作者基于T5模型设计了一个简单但有效的新模型,用于多回合对话中的话语恢复。该模型联合优化了两个任务:挑选拾取重要标记(选择器)和生成重新编写的话语(生成器)。据作者所知,该模型是第一个将T5用于IUR任务的研究成果。针对在提取和抽象场景中四个基准数据集,实验结果表明:该模型在丰富和有限的训练数据场景中都优于预训练的 T5 和非生成语言模型方法。
论文下载:https://arxiv.org/pdf/2204.03958.pdf
阅读详情
标题:美国布朗大学 | Learning to Compose Soft Prompts for Compositional Zero-Shot Learning(复合零样本学习场景的组合软提示学习)
作者:Nihal V. Nayak, Peilin Yu, Stephen H. Bach
简介:本文提出组合软提示Compose Soft Prompts (CSP)的参数高效学习技术。大规模预训练视觉语言模型 (VLM) 可以在其灵活的文本编码器中将任意类表示为自然语言提示,但它们在组合零样本基准任务上的表现并不如意。为改进 VLM,作者提出了一种新颖的软提示形式CSP技术,CSP将可以提高VLM的零样本学习组合性,而无需花费代价去微调整个模型。作者将组成以定义类的属性和对象视为词汇的可学习标记,并在多个提示组合上调优调整。在推理过程中,作者将学习到的属性对象词汇表重新组合成新的组合,并表明 CSP 在基准数据集上的性能平均优于原始 VLM 14.7 个百分点的准确度。CSP 还在三分之二的基准数据集上实现了SOTA精度,同时仅微调了少量参数。此外,作者表明 CSP 改进了对高阶属性-属性-对象组合、以及预训练属性和微调对象组合的泛化。
论文下载:https://arxiv.org/pdf/2204.03574.pdf
阅读详情
标题:北大、字节跳动等联合 | Contextual Representation Learning beyond Masked Language Modeling(掩码语言建模之上的语境表征学习)
作者:Zhiyi Fu, Wangchunshu Zhou, Jingjing Xu,等
简介:本文研究以建模全局语义的方法通过BERT等预训练模型的限制。像BERT 这样的掩码语言模型(MLM)是如何学习上下文表示的?在这项工作中,通过聚焦地分析MLM上下文表示学习的动态信息,作者发现:MLM采用采样嵌入作为锚来估计并向表示注入上下文语义,这限制了MLM的效率和有效性。为了解决这些问题,作者提出了一种简单而有效的表示学习方法TACO(Token-Alignment Contrastive Objective),来直接建模全局语义。TACO提取并对齐隐藏在上下文化表示中的上下文语义,以鼓励模型在生成上下文化表示时关注全局语义。在GLUE基准上的实验表明,与现有MLM相比,TACO实现了高达5倍的加速,平均提高了1.2个点。
论文下载:https://arxiv.org/pdf/2204.04163
代码下载:https://github.com/FUZHIYI/TACO
阅读详情
标题:UIUC、北大、华深智药 | Proximal Exploration for Model-guided Protein Sequence Design(模型指导下的蛋白质序列设计的近端探索)
作者:Jianzhu Ma, Jian Peng等
简介:本文研究了预训练模型的生物序列反向设计。设计具有特定生物功能的蛋白质序列是蛋白质工程的一个长期挑战。本文研究了模型指导下的序列设计的探索机制。本文利用了蛋白质fitness landscape的一个自然属性,即在野生型序列上的一组简单突变通常足以增强所需的功能。利用这一特性,本文提出了近端探索PEX算法,该算法在蛋白预训练语言模型TAPE的基础上采用近端优化框架,优先寻找突变次数少的功能突变体。此外,本文构建了一个专门的模型架构MuFacNet来预测低阶突变效应,这进一步提高了模型引导的进化搜索的样本效率。本文在一套蛋白质序列设计任务中对本文的方法进行了广泛的评估,并证明了比基线算法的实质性改进。
论文下载:https://doi.org/10.1101/2022.04.12.487986
阅读详情
标题:斯坦福 | Efficient evolution of human antibodies from general protein language models and sequence information alone(仅从蛋白质语言模型和序列信息中高效地进化人类抗体)
作者:Brian L. Hie, Peter S. Kim等
简介:本文研究了基于蛋白预训练模型的抗体亲和力成熟。作者展示了蛋白质语言模型在没有向模型提供关于目标抗原、结合特异性或蛋白质结构的信息,也不需要额外的特定任务微调或监督式的情况下,可以有效地进化人类抗体。本文对七种不同的抗体进行了预训练语言模型指导下的亲和力成熟,在两轮进化中对每种抗体筛选出20种或更少的变体。进化将四种临床相关的抗体的结合亲和力提高了7倍,将三种未成熟的抗体在不同的病毒抗原上提高了160倍,许多设计还显示了更好的热稳定性和病毒中和活性。此外,预训练模型也能指导不同蛋白家族和选择压力下的有效进化。与普遍认为进化是困难和资源密集型的观念相反,当限制在一个狭窄的进化合理性范围内时,进化可以变得更加容易,本文称之为 "有效的流形假说"。
论文下载:https://doi.org/10.1101/2022.04.10.487811
阅读详情
标题:百度、麦吉尔大学 | Structure-aware Protein Self-supervised Learning(基于结构的蛋白自监督学习)
作者:Can Chen, Dejing Dou等
简介:本文研究了蛋白结构和序列预训练。针对现有的蛋白质语言模型通常是在蛋白质序列上进行预训练,而没有考虑重要的蛋白质结构信息的问题,本文提出了一种新的基于结构的蛋白质自监督学习方法STEPS,以有效地捕捉蛋白质的结构信息。具体而言,本文预训练了一个图神经网络模型,以保留蛋白质的结构信息,自监督的任务分别从残基对距离的角度和二面角的角度进行学习。此外本文利用现有的预训练蛋白质语言模型对序列进行预训练,以加强自监督学习。作者通过一个新颖的伪双重优化方案,确定了蛋白质语言模型中的序列信息和GNN模型中的结构信息之间的关系,并在几个监督式的下游任务上验证了提出的方法的有效性。
论文下载:https://arxiv.org/pdf/2204.04213v1.pdf
阅读详情
标题:Meta、UC伯克利、纽约大学 | Learning inverse folding from millions of predicted structures(从数百万个预测蛋白质结构中学习逆折叠,预测序列信息)
作者:Brian Hie, Alexander Rives等
简介:本文为Meta蛋白预训练ESM在结构上的新作。蛋白质设计一直依赖于结构功能与蛋白序列的对应关系。科学家一直希望解决从骨架原子坐标逆向预测蛋白质序列的问题。本文通过使用 AlphaFold2 预测 12M 蛋白质序列的结构,将训练数据增加了近三个数量级。使用这些额外数据进行训练,研究人员观察到困惑度和序列恢复的显着提高,并证明了对更长蛋白质复合物、多种构象的蛋白质以及对结合亲和力和 AAV 包装的突变影响的零样本预测的泛化。这些结果突出表明,除了几何归纳偏差是迄今为止反折叠工作的主要重点之外,寻找利用更多训练数据源的方法是提高建模能力的同样重要的途径。本文还朝着更一般的结构条件蛋白质设计任务迈出了第一步。
论文下载:https://doi.org/10.1101/2022.04.10.487779
阅读详情
研究动态
标题:百度 | ERNIE-GeoL:“地理位置-语言”预训练模型
作者:Jizhou Huang, Haifeng Wang, Yibo Sun, 等
简介:近年来,预训练模型在自然语言处理、视觉等多个领域都取得了显著效果。基于预训练模型,利用特定任务的标注样本进行模型微调,通常可以在下游任务取得非常好的效果。然而,通用的预训练语言模型在应用于地图业务(如POI检索、POI推荐、POI信息处理等)时的边际效应愈发明显,即随着预训练语言模型的优化,其在地图业务中所带来的提升效果越来越小。其中一个主要原因是地理领域的信息处理过程往往需要与现实世界的真实地理信息建立关联。本文提出:地理预训练模型ERNIE-GeoLNLP预训练模型,主要聚焦于语言类任务建模,跨模态预训练模型(如ERNIE-ViL)主要侧重于『视觉-语言』类任务建模。
论文链接:https://arxiv.org/pdf/2203.09127
阅读详情
标题:用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%
简介:近日,谷歌研究者提出一种名为「self-consistency」(自洽性)的简单策略,不需要额外的人工注释、训练、辅助模型或微调,可直接用于大规模预训练模型。 简单来说,复杂的推理任务通常有多个能得到正确答案的推理路径,自洽方法通过思维提示链从语言模型中采样一组不同的推理路径,然后返回其中最自洽的答案。 该方法在一系列算术和常识推理基准上评估自洽性,可以稳健地提高各种语言模型的准确性,而无需额外的训练或辅助模型。当与最近的大型语言模型 PaLM-540B 结合使用时,自洽方法将多个基准推理任务的性能提高到 SOTA 水平。
该方法是完全无监督的,预训练语言模型直接可用,不需要额外的人工注释,也不需要任何额外的训练、辅助模型或微调。
论文链接:https://arxiv.org/pdf/2203.11171.pdf
阅读详情
标题:Nature | Alphafold的下一步与AI蛋白折叠革命
简介:近日,Nature发表文章讨论Alphafold,这个能够预测蛋白质三维形状的工具已经改变了生物学。去年7月,DeepMind发布了Alphafold,它可以从蛋白质的序列中预测其三维形状,而且大部分情况下是精确的。它在CASP获得了优胜并且在今年DeepMind计划发布总数超过1亿的结构预测。生物学家们已经对AlphaFold解决结构的能力留下了深刻印象。在辅助实验方面,Alphafold提供了一个初步的近似值,可以通过实验来验证或完善,而它本身也有助于理解实验数据。另一方面制药公司和生物技术公司的研究人员对AlphaFold在帮助药物发现方面的潜力感到兴奋,目前已有基于Alphafold进行虚拟筛选、候选药物的化合物设计和蛋白质幻想设计。本文最后也讨论了Alphafold的一些局限性。
资讯链接:https://www.nature.com/articles/d41586-022-00997-5
阅读详情
欢迎加入预训练社群
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
-
学习前沿知识、求解疑难困惑
-
分享经验心得、展示风貌才华
-
参与专属活动、结识研究伙伴
请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢