
关于周刊
本期周刊,我们选择了12篇预训练相关的论文,涉及多模态学习、命名实体、大模型优化、时间实体识别、提示学习、大语言模型、小样本学习、同义词模型、分子模拟迁移、分子模拟微调、蛋白质表征、贝叶斯优化的探索。此外,在研究动态方面,我们选择了7篇预训练资讯,将介绍语言幻觉、开源大语言模型、大模型突破、小样本多模态、视觉鲁棒性、统一NLP范式和通用AI方面的一些最新内容。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
关于周刊订阅
告诉大家一个好消息,《预训练周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。订阅方法:
方式一:
扫描下面二维码,进入《预训练周刊》主页,选择“关注TA”。
方式二:
1,注册智源社区账号
2,点击周刊界面左上角的作者栏部分“预训练周刊”(如下图),进入“预训练周刊”主页。

3,点击“关注TA”(如下图)

4,您已经完成《预训练周刊》订阅啦,以后智源社区自动向您推送最新版的《预训练周刊》!
论文推荐
标题:谷歌|CoCa: Contrastive Captioners are Image-Text Foundation Models(CoCa:对比字幕生成器是图像-文本基础模型)
作者:Jiahui Yu, Zirui Wang, Yonghui Wu等
简介:本文介绍了一个图像领域当前最佳的基础模型。本文介绍了对比字幕 (CoCa),这是一种极简设计,用于预训练图像-文本编解码基础模型以及对比损失和字幕损失,从而将模型能力从对比方法(如 CLIP)和生成方法(如 SimVLM)中纳入。作者在单峰图像和文本嵌入之间应用了对比损失,此外还对多模解码器输出的字幕损失进行了自回归预测文本标记。通过共享相同的计算图,可以以最小的开销有效地计算两个训练目标。CoCa 通过将所有标签简单地视为文本,在网络规模的替代文本数据和带注释的图像上端到端和从头开始进行预训练,无缝统一了带监督自然语言的表示学习。根据经验,CoCa 在广泛的下游任务、包括视觉识别、跨模态检索、多模式理解和图像字幕生成的任务特定适应方面实现了最佳性能。值得注意的是,在 ImageNet 分类中,CoCa 获得了 86.3% 的零样本top-1 准确率,使用冻结编码器和学习分类头获得了90.6%,以及在ImageNet上使用微调编码器获得了最先进的 91.0% top-1 准确率。
论文下载:https://arxiv.org/pdf/2205.01917v1.pdf
阅读详情
标题:MIT|Annotating the Tweebank Corpus on Named Entity Recognition and Building NLP Models for Social Media Analysis(标注Tweebank 语料库上的命名实体识别和为社交媒体分析构建 NLP 模型)
作者:Hang Jiang, Yining Hua, Doug Beeferman, Deb Roy
简介:本文介绍了一种新的命名实体识别数据集与模型。作者的目标是创建Tweebank-NER,一个英语NER。基于 Tweebank V2 (TB2) 的语料库,在 TB2 上训练最先进的 (SOTA) Tweet NLP 模型,并发布 NLP 流水线称为Twitter-Stanza。作者使用Amazon Mechanical Turk 在 TB2 中对命名实体进行注释,并衡量作者的标注质量。作者在 TB2 上训练 Stanza 流水线,并与其他 NLP 框架(例如 FLAIR、spaCy)和基于变换器的模型。Stanza符号器和词形还原器在TB2上实现了SOTA性能,而Stanza NER标记器、词性 (POS) 标记器和依赖关系解析器可实现与非转换器模型相比具有竞争力的性能。基于变换器的模型在Tweebank-NER中建立了强大的基线,并在POS中实现了新的SOTA性能TB2 上的标记和依赖关系解析。
代码下载:https://github.com/social-machines/TweebankNLP
论文下载:https://arxiv.org/pdf/2201.07281v2.pdf
阅读详情
标题:NVIDIA|Reducing Activation Recomputation in Large Transformer Models(减少大型变换器模型中的激活重新计算)
作者:Vijay Korthikanti, Jared Casper, Bryan Catanzaro等
简介:训练大型变换器模型是现代人工智能研究的重要工作。在本文中,作者展示了如何通过减少激活重新计算来建模,显著加速大型变压器的训练。激活重新计算通常用于解决内存容量限制。它们不是存储用于反向传播的激活,而是传统上是重新计算的,这样可以节省内存,但会增加冗余计算。在这项工作中,作者显示大部分冗余计算是不必要的,因为作者可以从其他环节减少内存消耗。作者提出了两种新颖但非常简单的技术:序列并行性和选择性激活重新计算。结合张量并行性,这些技术几乎消除了重新计算激活的需要。作者评估在高达一万亿个参数的规模语言模型上的方法,并表明作者的方法通过以下方式减少了5倍激活内存,同时将激活重新计算的执行时间开销降低 90% 以上。例如,在 2240 个 NVIDIA A100 GPU 上训练 530B 参数 GPT-3 样式模型时,作者使用重新计算实现了 54.2% 的FLOPS利用率,比作者实现的 42.1% 快 29%。
论文下载:https://arxiv.org/pdf/2205.05198v1.pdf
阅读详情
标题:德克萨斯大学奥斯汀分校 | Entity Cloze By Date: What LMs Know About Unseen Entities(按日期的实体完形填空:对未知实体语言模型能了解多少)
作者:Yasumasa Onoe, Michael J.Q. Zhang, Eunsol Choi, 等
简介:本文研究预训练语言模型的实体感知议题。语言模型 (LM) 通常在大规模语料库上训练一次,并且可以使用多年而无需更新。然而,在一个动态的世界中,新的实体不断出现。作者提出了一个框架来分析 LM 可以推断出在 LM 预训练时不存在的新实体。作者导出了一个实体数据集,该数据集按其起源日期进行索引,并与英文维基百科文章配对,从中作者可以找到关于每个实体的句子。作者评估 LMs 在这些句子中的掩码跨度上的困惑。作者表明,模型对实体更了解。作者的实验结果表明,对于 LM 来说,对新实体进行推断仍然很困难。鉴于其对实体知识和时间索引的广泛覆盖,作者的数据集可用于评估旨在修改或扩展其知识的 LM 和技术。作者的自动数据收集管道可轻松用于不断更新作者的基准。
论文下载:https://arxiv.org/pdf/2205.02832.pdf
阅读详情
标题:人大、蒙特勒大学等联合 | Learning to Transfer Prompts for Text Generation(基于提示学习迁移文本生成)
作者:Junyi Li, Tianyi Tang, Jian-Yun Nie,等
简介:在可迁移的环境中生成文本领域、本文研究Prompt tuning的创新应用。预训练语言模型 (PLM) 通过微调在文本生成任务中取得了显着进展。同时,在数据稀缺的情况下微调 PLM 具有挑战性。在本文中,作者改进并提出了一种新的基于提示的方法 (PTG),用于在可转移的环境中生成文本。首先,PTG 为各种源生成任务学习一组源提示,然后将这些提示作为目标提示传输以执行目标生成任务。为了同时考虑任务级和实例级信息,作者设计了一种自适应注意机制来导出目标提示。对于每个数据实例,PTG 通过关注高度相关的源提示来学习特定的目标提示。在广泛的实验中,与微调方法相比,PTG 产生了具有竞争力或更好的结果。作者将源提示作为开放资源发布,用户可以在其中添加或重用它们以改进新的文本生成任务以供未来研究。
论文下载:https://arxiv.org/pdf/2205.01543
源码下载:https://github.com/RUCAIBox/Transfer-Prompts-for-Text-Generation
阅读详情
标题:韩国NAVER、纽约大学 | On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model(大规模语言模型预训练语料库对上下文学习的影响)
作者:Seongjin Shin , Sang-Woo Lee , Hwijeen Ahn ,等
简介:本文研究语料库对预训练模型的上下文学习的影响。在本文,作者研究了预训练语料库的来源和大小对 HyperCLOVA(以韩语为主的 GPT-3 模型)中的上下文学习的影响。作者发现:(1)上下文学习的表现在很大程度上取决于语料库领域的来源,而训练前语料库的大小并不一定决定语境内学习的出现;(2)当一个语言模型在多个语料库的组合上进行训练时,即使每个语料库不单独导致语境内学习,上下文学习能力也会出现,(3)使用与下游任务相关的语料库进行预训练并不总能保证下游任务在上下文学习中的竞争性表现,尤其是在小样本环境下;(4)语言建模(以困惑度衡量)与上下文学习之间的关系并不总是相关。
论文下载:https://arxiv.org/pdf/2204.13509
阅读详情
标题:丰田(芝加哥)技术研究所、Meta | Improving In-Context Few-Shot Learning via Self-Supervised Training(通过自我监督训练改善情境中的小样本学习)
作者:Mingda Chen, Jingfei Du, Ramakanth Pasunuru, 等
简介:本文研究预训练后新增自我监督以提升小样本学习性能。自监督预训练使许多 NLP 任务的小样本学习成为可能。但是预训练目标通常并不专门针对上下文小样本学习进行调整。在本文中,作者建议在预训练和下游小样本使用之间的中间训练阶段使用自我监督,目的是教模型在上下文中进行小样本学习。作者在两个基准上提出并评估了四个自我监督目标。作者发现中间自我监督阶段产生的模型优于强基线。消融研究表明,有多个因素会影响下游性能,例如训练数据量和自我监督目标的多样性。 人类注释的跨任务监督和自我监督是互补的。定性分析表明,自监督训练模型更能满足任务要求。
论文下载:https://arxiv.org/pdf/2205.01703
阅读详情
标题:南卡罗来纳大学、国家医学图书馆等联合 | UBERT: A Novel Language Model for Synonymy Prediction at Scale in the UMLS Metathesaurus(UMLS Metathesaurus 中大规模同义词预测的语言模型)
作者:Thilini Wijesiriwardene , Vinh Nguyen , Goonmeet Bajaj ,等
简介:本文研究生物医学大规模同义词预测的语言模型。UMLS Metathesaurus 整合了 200 多个生物医学源词汇。在 Metathesaurus 构建过程中,同义词由人工编辑器聚类成概念,并辅以词汇相似度算法。此过程容易出错且耗时。最近,针对 UMLS 词汇对齐 (UVA) 任务开发了一种深度学习模型 (LexLM)。这项工作介绍了 UBERT,这是一种基于 BERT 的语言模型,通过监督同义词预测 (SP) 任务替换原始的下一句预测 (NSP) 任务对 UMLS 术语进行预训练。使用 UMLS 词汇对齐 (UVA) 任务评估 UBERT 对 UMLS Metathesaurus 构建过程的有效性。作者展示了 UBERT 优于 LexLM 以及基于生物医学 BERT 的模型。
论文下载:https://arxiv.org/pdf/2204.12716
阅读详情
标题:曼尼托巴大学等 | Transferring Chemical and Energetic Knowledge Between Molecular Systems with Machine Learning(用机器学习在分子体系之间迁移化学和能量知识)
作者:Sajjad Heydari, Stefano Raniolo, Lorenzo Livi, Vittorio Limongelli
简介:本文研究迁移学习在分子模拟上的应用。预测分子体系的结构和能量特性是分子模拟的基本任务之一。本文提出了一种新的方法,将从简单的分子体系中获得的知识转移到一个更复杂的体系中,该体系拥有大量的原子和自由度。本文专注于高和低自由能状态的分类。本文的方法依赖于利用分子的新型超图表征,编码所有相关信息以描述构象的势能,以及新型消息传递和集合层,以处理和预测这种超图结构的数据。尽管问题很复杂,本文的结果显示,从tri alanine到deco alanine体系的迁移学习的AUC为0.92。此外本文还表明,同样的迁移学习方法可以在无监督的情况下用于将deco alanine的各种二级结构归入具有类似自由能值的聚类。本文的研究可被视为一个概念证明POC,可以为分子体系设计可靠的迁移学习模型,为预测生物相关体系的结构和能量特性铺平道路。
论文下载:https://arxiv.org/pdf/2205.03339v1.pdf
阅读详情
标题:CMU | FINETUNA: Fine-tuning Accelerated Molecular Simulations(FINETUNA: 微调加速分子模拟)
作者:Joseph Musielewicz, Xiaoxiao Wang, Tian Tian, Zachary Ulissi
简介:本文研究预训练与微调在分子模拟上的应用。机器学习方法有可能以一种计算效率高的方式来近似密度泛函理论(DFT),这可以极大地提高计算模拟对现实世界问题的影响。然而,它们受到其准确性和生成标记数据的成本的限制。本文提出了一个在线主动学习框架,通过纳入由开放催化剂项目的大规模预训练图神经网络模型所学到的先验物理信息,有效而准确地加速原子系统的模拟。这样的加速模拟可以更便宜地产生有用的数据,允许更好的模型被训练和更多的原子系统被筛选。本文还提出了一种在速度和准确性的基础上比较局部优化技术的方法。在30个基准吸附剂-催化剂系统上的实验表明,迁移学习方法将来自预训练模型的先验信息纳入其中,通过减少91%的DFT计算次数来加速模拟,同时在93%的时间内达到0.02eV的精度阈值。
论文下载:https://arxiv.org/pdf/2205.01223v1.pdf
阅读详情
标题:Nature Machine Intelligence | Learning functional properties of proteins with language models(蛋白质功能特性学习方法的基准研究)
作者:Serbulent Unsal, Tunca Doğan等
简介:本文研究蛋白表征基准。本文全面地整理了2015年以来提出的蛋白质表征方法,并通过详细的基准分析来衡量这些方法在捕获蛋白质功能特性方面的潜力。为了准确评估这些方法在捕获蛋白质各种功能信息方面的能力,作者在四种任务上对这些方法进行了比较:蛋白质语义相似性推断、基于GO的蛋白质功能预测、药物靶点蛋白家族分类、蛋白质-蛋白质结合亲和力的估计,以及突变对于亲和力的影响。根据比较结果,作者提出了几点结论:在蛋白质功能预测方面,基于学习的表示方法,总体上比基于统计的经典方法表现更好;模型框架的设计和训练数据的类型/来源,都是蛋白质表示方法需要考虑的关键因素;对于基于学习的表征方法,需要小心训练集与测试集的数据“泄露”与重合。
论文下载:https://www.nature.com/articles/s42256-022-00457-9
阅读详情
标题:谷歌 | Pre-training helps Bayesian optimization too(预训练也有助于贝叶斯优化)
作者:Zi Wang, Zoubin Ghahramani等
简介:本文研究在贝叶斯优化中使用预训练方法。贝叶斯优化(BO)已经成为许多现实世界函数的全局优化的流行策略,与人们普遍认为BO适合优化黑箱函数相反,它实际上需要关于这些函数特征的领域知识才能成功部署。这种领域知识通常表现为高斯过程先验,它规定了对函数的初始置信。然而即使有专家知识,选择一个先验也不是一件容易的事。这对于复杂的机器学习模型的超参数调参问题来说尤其如此。本文展示了一种替代性的做法来设置这些函数先验,在有类似数据的情况下,可以预训练一个更严格的分布。理论上,本文显示了预训练预设的BO的边界regret。为了在现实的模型训练设置中验证,作者收集了一个大型的多任务超参数优化数据集,在流行的图像和文本数据集以及蛋白质序列数据集上评价,结果表明,本文的方法能够比最好的竞争方法更有效地找到好的超参数。
论文下载:https://arxiv.org/pdf/2109.08215v3.pdf
阅读详情
研究动态
标题:大模型中的幻觉性问题
简介:幻觉性问题是自然语言处理领域中的基础问题之一,指文本生成模型的生成结果中含有与输入事实上冲突的内容。幻觉性问题影响的词语更少,难以被现有指标检测,但在实际应用中的破坏性却更强。大模型的兴起使得幻觉性问题受到了更多的关注,本文梳理了幻觉性问题相关研究的发展历程,展现了幻觉性问题在各个文本生成子领域中的影响与应对手段。幻觉主要分为两种,第一种内在幻觉,其特征是不合理;第二种外在幻觉,其特征是不忠于原文。内在幻觉出现了与输入信息的矛盾,是必然需要着重避免的,但外在幻觉只是信息不存在于输入中,其正误并不确定,在一些情况下,外在幻觉甚至是可以利用的对象。幻觉性问题是文本生成领域的根本问题之一,在进行文本生成任务时,除了保证生成文本的通顺之外还需要减少其中的幻觉,以避免虚假信息对实际应用的负面影响。
阅读详情
标题:Meta免费开放1750亿参数的大模型OPT-175B
简介:大型语言模型,通常要经过数十万个计算日的训练,已经在零样本和少样本学习方面表现出非凡的能力。考虑到计算成本,如果没有大量资金,很难复制这些模型。虽然有少数几个大模型可以通过 API 使用,但无法访问完整的模型权重,仍然很难研究。作者提出了OPT(Open Pre-trained Transformers),这是一套只有解码器的预训练Transformer模型,参数从1.25亿到1750亿。作者的目标是与感兴趣的研究人员充分和负责任地共享。 作者表明 OPT-175B 与 GPT-3 能力相当,但开发只需要 1/7 的碳足迹。 作者还将发布日志记录,详细说明作者面临的基础设施挑战,以及用于试验所有已发布模型的代码。
阅读详情
标题:斯坦福教授曼宁AAAS特刊发文:大模型已成突破,展望通用人工智能
简介:当前人工智能领域热度最高的方向就是预训练大模型了,很多人相信,这项研究已在通用人工智能领域初显成效。自然语言处理领域著名学者,斯坦福大学教授克里斯托弗 · 曼宁(Christopher Manning)近期在美国人文与科学学院(AAAS)期刊的 AI & Society 特刊上发表了题为《Human Language Understanding & Reasoning》的文章,探讨了语义、语言理解的本质,展望了大模型的未来。曼宁认为,随着 NLP 领域的技术突破,作者或许已在通用人工智能(Artificial general intelligence, AGI)方向上迈出了坚定的一步。
阅读详情
标题:Flamingo:DeepMind的800亿参数少样本视觉语言模型
简介:DeepMind 最新公布的论文推出了 Flamingo(火烈鸟)模型,这是一个单一的视觉语言模型(visual language model,VLM),它在广泛的开放式多模态任务中建立了少样本学习新 SOTA。这意味着 Flamingo 只需少量的特定例子(少样本)就能解决许多难题,而无需额外训练。Flamingo 的简单界面使这成为可能,它将图像、视频和文本作为提示(prompt),然后输出相关语言。
阅读详情
标题:NVIDIA新作FAN:利用ViT的准确性和CNN的鲁棒性
简介:基于Vision Transformer中新出现的Visual Grouping的特性,本文研究了Self-Attention在学习鲁棒表征中的作用,表明Self-Attention可能是通过改进的中层表征来促进鲁棒性。本文进一步提出了一系列的Fully Attentional Networks(FANs),通过结合一种注意力通道来加强鲁棒表征的学习。本文的模型在具有76.8M参数的ImageNet-1k和ImageNet-C参数上达到了最先进的87.1%的精确度和35.8%的mCE,在2个下游任务语义分割和目标检测中同样实现的最先进的准确性和鲁棒性。
阅读详情
标题:击败GPT3,刷新50个SOTA!谷歌全面统一NLP范式
简介:重新思考现在的预训练精调,作者有各种各样的预训练范式:解码器、编解码、短语完型,语言模型等等,不同的范式建模了不同的上下文关系,也正是因为如此,不同的预训练范式适配不同类型的下游任务。例如,基于双向上下文的预训练(span corruption,如T5)更加适用于事实填充,基于单向上文(PrefixLM/LM,如GPT等)更加适用于开放生成。也就是说,具体的下游任务类型需要选用特定的预训练策略。近日Google 的 Yi Tay (and Mostafa) 团队提出了一个新的混合去噪器, 统一了各大预训练范式。该模型刷新了50个NLP 的SOTA,包括自然语言生成、自然语言理解、分类、问答等任务。
论文下载:https://arxiv.org/pdf/2205.05131.pdf
阅读详情
标题:炸场!通用人工智能最新突破:一个模型、一套权重通吃600+视觉文本和决策任务,DeepMind两年研究一朝公开
简介:通用人工智能,还得看DeepMind。这回,只一个模型,使用相同的权重,不仅把看家本领雅达利游戏玩得飞起。和人类聊聊天、看图写话也不在话下。甚至还能在现实环境里控制机械臂,让其听从指令完成任务!DeepMind让它在604个不同的任务上接受了训练,这些任务模式完全不同,需要观察的元素和行为规则也不同。而Gato不仅在450个任务中都超过了专家水平的50%,在23个雅达利游戏上表现还超过人类平均分。
论文下载:https://arxiv.org/pdf/2205.06175.pdf
阅读详情
欢迎加入预训练社群
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
-
学习前沿知识、求解疑难困惑
-
分享经验心得、展示风貌才华
-
参与专属活动、结识研究伙伴
请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢