
关于周刊
本期周刊,我们选择了14篇预训练相关的论文,涉及神经网络结构、多语言模型、文本表示、大模型应用、大语言模型、训练框架、表格表示、语言模型微调、知识融合、蛋白质测序、分子表征、蛋白质模型微调和细胞基因表示的探索。此外,在研究动态方面,我们选择了1篇预训练资讯,将介绍阅读理解方面的一些最新内容。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
关于周刊订阅
告诉大家一个好消息,《预训练周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。订阅方法:
1,注册智源社区账号
2,点击周刊界面左上角的作者栏部分“预训练周刊”(如下图),进入“预训练周刊”主页。

3,点击“关注TA”(如下图)

4,您已经完成《预训练周刊》订阅啦,以后智源社区自动向您推送最新版的《预训练周刊》!
论文推荐
标题:Meta、巴黎高等师范学院、索邦大学|Deep Symbolic Regression for Recurrent Sequences(循环序列的深度符号回归)
作者:Stéphane d’Ascoli, Pierre-Alexandre Kamienny等
简介:本文介绍了基于语言模型的符号回归预测。即通过观察函数值来预测函数,众所周知是一项具有挑战性的任务。在本文中,作者训练 Transformer 推断整数或浮点数序列的函数或递归关系,这是人类智商测试中的一项典型任务,在机器学习文献中几乎没有解决。作者在OEIS序列的一个子集上评估作者的整数模型,并表明它在复发预测方面优于内置的Mathematica函数。作者还证明了作者的浮点模型能够产生词表外函数和常数的信息近似值,例如bessel0(x) ≈ sin(x)+cos(x)/sqrt(πx) 和 1.644934 ≈ π^2/6。
代码下载:https://github.com/facebookresearch/recur
论文下载:https://arxiv.org/pdf/2201.04600v1.pdf
阅读详情
标题:Meta|Few-shot Learning with Multilingual Language Models(多语言模型的小样本学习)
作者:Xi Victoria Lin, Xian Li等
简介:本文介绍了多语言模型的零样本泛化性能。像GPT-3这样的大规模自回归语言模型,小样本学习器可以无需微调即可执行广泛的语言任务。虽然这些模型是已知能够联合表示许多不同的语言,他们的训练数据以英语为主,这可能会限制他们跨语言泛化。在这项工作中,作者在涵盖多种语言的平衡语料库上训练多语言自回归语言建立模型,并研究它们的少数和广泛的零样本学习能力的任务。作者最大的模型拥有75亿个参数,在少数情况下创造了新的技术水平学习超过20种代表性语言,表现优于可比的GPT-3多语言常识推理中的大小(零样本绝对精度提高 +7.4%,四样本+9.4%)和自然语言推理(+5.4%在零样本和四样本设置中)。在FLORES-101机器翻译基准,作者的模型在GPT-3在32个训练示例的182个翻译方向中171上有优势,同时在 45个方向上超过了官方监督基线。作者提出对模型成功和失败的地方进行详细分析,特别表明它实现跨语言的上下文学习一些任务,而在表面形状的鲁棒性和没有自然规律的任务完形填空形式等适应性上存在不足。最后,作者评估模型社会价值任务,例如 5 种语言的仇恨言论检测,并发现它类似于同等大小型号GPT-3有局限性。
代码下载:https://github.com/pytorch/fairseq/tree/main/examples/xglm
论文下载:https://arxiv.org/pdf/2112.10668.pdf
阅读详情
标题:OpenAI|Text and Code Embeddings by Contrastive Pre-Training(通过对比预训练进行文本和代码嵌入)
作者:Arvind Neelakantan, Tao Xu, Lilian Weng等
简介:本文介绍了将GPT-3用于文本表示方法。文本嵌入用于功能语义搜索和计算文本相似度等应用。以前的工作通常训练针对不同用例定制的模型,不同的数据集选择、训练目标和模型架构。在这项工作中,作者表明在无监督数据上进行对比预训练规模导致高质量的向量表示的文本和代码。相同的无监督文本嵌入实现了新的最先进的结果,在线性探针分类中也显示出令人印象深刻的语义搜索能力,有时甚至可以与微调模型竞争。在平均超过 7 个任务的线性探针分类精度上,作者最好的无监督模型实现了 4% 和 1.8% 的相对改善,超过以前最好的无监督和有监督文本嵌入模型。相同大规模评估时的文本嵌入语义搜索获得了相对的改进23.4%、14.7% 和 10.6%,比之前的最高水平MSMARCO、Natural上的无监督方法分别是问题和TriviaQA基准。与文本嵌入类似,作者训练(文本,代码)对上的代码嵌入模型,相对于之前的代码搜索的最佳工作改进了20.8%。
论文下载:https://cdn.openai.com/papers/Text_and_Code_Embeddings_by_Contrastive_Pre_Training.pdf
阅读详情
标题:布朗大学、Snorkel AI、Hugging Face|PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts(PromptSource:集成开发环境和自然语言提示存储库)
作者:Stephen H. Bach, Victor Sanh, Alexander M. Rush等
简介:本文介绍了一种大模型应用方法。PromptSource是一个创建、共享和使用自然语言提示系统。提示是映射示例的函数从数据集到自然语言输入和目标输出。使用提示进行训练查询语言模型是一个新兴的NLP中需要新工具的领域,让用户合作开发和完善这些提示。提示源地址在这个新环境中的新挑战使用 (1) 用于定义的模板语言数据链接提示,(2) 一个界面让用户通过观察提示的输出来快速迭代提示开发在许多示例中,以及 (3) 一套社区驱动的贡献指南公共池的新提示。超过大约170个数据集的2,000个提示是已经在PromptSource中可用。
代码下载:https://github.com/bigscience-workshop/promptsource
论文下载:https://arxiv.org/pdf/2202.01279.pdf
阅读详情
标题:微软、英伟达|Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model(使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 5300亿,一种大规模生成语言模型)
作者:Shaden Smith, Mostofa Patwary等
简介:本文介绍了一种文本生成大模型。预训练的通用语言模型可以通过零样本、少样本和微调技术适应下游任务,从而在各种自然语言处理领域实现最先进的精度。由于它们的成功,这些模型的规模迅速增加,需要高性能的硬件、软件和算法技术来训练如此大的模型。作为 Microsoft 和 NVIDIA 共同努力的结果,作者展示了最大的基于巨型变换器的语言模型 Megatron-Turing NLG 530B (MT-NLG) 的训练细节,该模型具有 5300 亿个参数。在本文中,作者首先关注基础设施以及用于使用 DeepSpeed 和 Megatron 训练该模型的 3D 并行方法。接下来,作者详细介绍了训练过程、训练语料库的设计和数据管理技术,作者认为这是模型成功的关键因素。最后,作者讨论了各种评估结果,以及其他有趣的观察结果和 MT-NLG 展示的新特性。作者证明了 MT-NLG 在几个 NLP 基准上实现了卓越的零、一和少样本学习精度,并建立了新的最先进的结果。作者相信作者的贡献将有助于进一步发展大规模训练基础设施、大规模语言模型和自然语言生成。
论文下载:https://arxiv.org/pdf/2201.11990.pdf
Hub地址:https://hub.baai.ac.cn/view/14613
阅读详情
标题:EleutherAI|GPT-NeoX-20B: An Open-Source Autoregressive Language Model(GPT-NeoX-20B:开源自回归语言模型)
作者:Sid Black, Stella Biderman, Eric Hallahan等
简介:本文介绍了一个自回归语言模型训练框架。GPT-NeoX-20B是一个200亿参数的自回归语言模型,其权重通过许可免费和公开地提供给公众。这是,据作者所知,具有公开可用权重的最大密集自回归模型。在本文中,作者描述模型架构和训练,评估其性能,并讨论它的发布更广泛的影响。
代码下载:https://github.com/EleutherAI/gpt-neox
论文下载:http://transformers.science/rct/articles/Black%20et%20al.%20-%202022%20-%20GPT-NeoX-20B%20An%20Open-Source%20Autoregressive%20Language%20Model.pdf
Hub地址:https://hub.baai.ac.cn/view/14690
阅读详情
标题:微软、上海交大等 | Table Pretraining: A Survey on Model Architectures, Pretraining Objectives, and Downstream Tasks(表格预训练:关于模型架构、预训练目标和下游任务的综述)
作者:Haoyu Dong, Zhoujun Cheng, Xinyi He, 等
简介:本文是表格预训练的综述。由于人们可以方便地从网页、电子表格、PDF和各种其他文档类型中收集大量表格,继文本和图像在预训练领域的成功之后,业界提出了一系列表格预训练框架,并已经在表格问答、表格类型识别、列关系分类、表搜索、公式预测等任务中获取了SOTA效果。为了充分利用未标记表中的监督信号,诸如“去噪单元值”、“预测数值关系”和“隐式执行SQL”等各种预训练目标:已经被设计并评估。为了更好地利用结构化及半结构化表格的特点,业界探索了各种表格语言模型,尤其是经特别设计的attention机制。由于表格经常与自由文本出现并交互,因此表格预训练:通常采用“表格-文本”联合预训练的形式,而这已引起了多个领域的重大研究兴趣。本次综述,旨在全面回顾不同的表格模型设计、预训练目标、以及表格预训练的下游任务。本文还分享了作者对表格预训练现有挑战和未来机遇的想法和愿景。
论文下载:https://arxiv.org/pdf/2201.09745
阅读详情
标题:人大 | Context-Tuning: Learning Contextualized Prompts for Natural Language Generation(学习自然语言生成的语境化提示)
作者:Tianyi Tang, Junyi Li, Wayne Xin Zhao
简介:本文是Prompt微调领域的又一创新。最近,预训练语言模型(PLM)在语言生成方面取得了非凡的成功。为了利用PLMs编码的丰富知识,一个简单而强大的机制是以离散标记或连续嵌入的形式使用提示Prompts。在现有研究中,手动提示耗时且需要领域专家,而连续提示通常独立于输入。为此,作者提出了一种新的连续提示方法:Context-Tuning,用于微调PLM生成自然语言。首先,根据输入的文本导出提示,以便从PLM中获取有用的知识进行生成。作者将此类提示称为语境化提示。其次,为了进一步增强生成的文本与输入的相关性,作者利用连续反向提示,通过建模从输出到输入的反向生成过程来细化自然语言生成过程。此外,作者又提出了一种轻量级的Context-Tuning,只微调0.4%的参数、同时可以保持良好的性能。
论文下载:https://arxiv.org/pdf/2201.08670.pdf
阅读详情
标题:欧洲爱沙尼亚塔尔图大学、伊朗谢里夫理工大学、美国南卡罗来纳州大学 | Pre-Trained Language Transformers are Universal Image Classifiers(预训练的语言变换器是通用的图像分类器)
作者:Rahul Goel, Modar Sulaiman, Kimia Noorbakhsh,等
简介:本文是预训练语言模型与视觉任务结合领域的最新学术成果。面部图像揭示了许多隐藏的个人特征,如年龄、性别、种族、健康、情绪和心理。了解这些特征将有助于将人们划分为不同的属性。在本文中,作者提出了一种利用预训练Transformers模型(FPT)对图像进行分类的新方法。在人脸图像微调过程中,基于GPT-2的FPT模型,被用作一种通用的图像分类器。作者假设FPT因其规模大而获得元学习能力,并通过理论和实验进行了大规模训练。作者还在加密图像上使用FPT进行分类。犯罪图像对跨境共享非常敏感,但加密后的图像在很大程度上避免了道德问题。作者的FPT在原始面部图像和加密图像上都显示出高精度,为进一步研究隐私保护机器学习提供了希望。
论文下载:https://arxiv.org/pdf/2201.10182.pdf
阅读详情
标题:苏黎世联邦理工学院、南方科技大学|Understanding Knowledge Integration in Language Models with Graph Convolutions(用图卷积理解语言模型中的知识集成)
作者:Yifan Hou, Guoji Fu, Mrinmaya Sachan
简介:本文属于预训练模型中的知识集成研究领域。预训练语言模型(LMs)不能很好地捕捉事实知识。这导致了许多知识整合(KI)方法的发展,这些方法旨在将外部知识整合到预先训练的LMs中。尽管KI方法比普通LMs有一些性能提升,但这些方法的内部工作原理还不清楚。本文用信息论的观点重新审视了这些模型中的KI过程,并表明可以用图卷积运算来解释KI。作者提出了一个Graph Convolution Simulator探测模型 ,用于解释知识增强LMs,并揭示哪些知识集成到这些模型中。作者进行实验,以验证作者的模型确实可以用于正确解释KI过程,并使用它分析了两个众所周知的知识增强LMs:ERNIE和K-Adapter,发现它们(1)只整合了少量事实知识。(2)在不同程度上整合了不同类型的知识。作者的分析还表明,仅仅增加KI语料库的大小可能不会带来更好的KI。
论文下载:https://arxiv.org/pdf/2202.00964.pdf
阅读详情
标题:华盛顿大学|De novo mass spectrometry peptide sequencing with a transformer model(用Transformer模型进行新的质谱多肽测序)
作者:Melih Yilmaz、William Stafford Noble 等
简介:串联质谱法是分析复杂生物样品中蛋白质含量的唯一高通量方法,这个领域的一个关键挑战为不利用多肽序列数据库的先验知识,识别负责产生每个观察到的光谱的多肽序列。现有对串联质谱进行建模时的方法往往为结合多个神经网络和后处理步骤的复杂模型,这中间可能涉及到深度学习、点云、动态规划、数据库搜索、预训练等等。本文提出了一种简单而强大的新多肽测序方法Casanovo,它使用一个Transformer框架,直接从观察到的质谱峰的序列映射到氨基酸的序列。实验表明本方法在使用标准的跨物种评估框架的基准数据集上实现了最先进的性能,并且也通过了分布外的样本的测试,而且与其他方法相比只需要更小的模型复杂度和推理时间。
论文下载:https://doi.org/10.1101/2022.02.07.479481
阅读详情
标题:Nature machine intelligence|Geometry-enhanced molecular representation learning for property prediction(用于属性预测的几何增强型分子表征学习)
作者:Hua Wu、Haifeng Wang 等
简介:有效的分子表征学习对于促进分子特性预测具有重要意义。最近分子表征学习的进展在应用图神经网络来建立分子模型方面显示出巨大的前景。此外,最近的一些研究为分子表征设计了自监督的学习方法,以解决标记分子不足的问题,然而这些自监督的框架将分子视为拓扑图,而没有充分地利用分子几何信息。分子几何,也被称为分子的三维空间结构,对于确定分子特性至关重要。为此,作者提出了一种新的几何学增强的分子表征学习方法(GEM)。所提出的GEM有一个专门设计的基于几何的图形神经网络结构,以及几个专门的几何层面的基于预训练的自监督学习策略来学习分子的几何知识。本文在不同的基准上将GEM与各种最先进的包括预训练方法的基线进行了比较,结果表明GEM可以大大超过它们,证明了该方法的优越性。
论文下载:https://www.nature.com/articles/s42256-021-00438-4
阅读详情
标题:浙大、阿里、德睿|Prompt-Guided Injection of Conformation to Pre-trained Protein Model(在prompt引导下注入构象的预训练蛋白质模型)
作者:Qiang Zhang、Huajun Chen 等
简介:预训练蛋白质模型(PTPMs)代表了具有一个固定嵌入的蛋白质,可能不能胜任各种任务。为了使PTPMs能够产生任务导向的表征,本文提出学习可解释的、可插拔的和可扩展的蛋白质prompt,作为向PTPMs注入任务相关知识的一种方式。序列prompt使用遮蔽语言建模任务使PTPM能够捕捉到氨基酸之间的顺序依赖。为了将构象知识纳入PTPM,作者提出了相互作用-构象prompt,它通过在蛋白质-蛋白质相互作用任务上反向传播学习。本文提出了一个构象感知的预训练蛋白质模型,该模型在多任务环境下学习序列和相互作用形态prompt,并在九个蛋白质数据集上进行了综合实验。结果证实了作者的预期,使用序列prompt不会损害PTPMs在序列相关任务上的表现,而纳入相互作用形态prompt则显著提高PTPMs在构象知识方面的表现。
论文下载:https://arxiv.org/pdf/2202.02944v1.pdf
阅读详情
标题:天津医科大学|Generative pretraining from large-scale transcriptomes: Implications for single-cell deciphering and clinical translation(大规模转录组的生成式预训练:对单细胞分析和临床的影响)
作者:Hongru Shen、Xiangchun Li 等
简介:近年来单细胞转录组的数据量实现了指数式积累,对此本文提出了一种名为tGPT的方法,通过将基因表达排名作为生成式预训练任务以整合2230万个单细胞转录组。tGPT对一个基因在其前面相邻序列背景下的排名进行自回归建模,本文也展示了其在一系列基本的单细胞分析任务中的高性能,以及在块状组织上的新应用。从tGPT得出的单细胞集群和细胞系轨迹与已知的细胞标签和状态高度一致,通过tGPT学习的肿瘤组织的特征模式与基因组改变、预后和免疫疗法的治疗结果有关。tGPT代表了一种整合和破译大量转录组数据的新分析模式,它将促进单细胞转录组的解释和临床表型关联应用。
论文下载:https://doi.org/10.1101/2022.01.31.478596
阅读详情
研究动态
标题:弗罗里达大学|More Than Reading Comprehension: A Survey on Datasets and Metrics of Textual Question Answering(不仅仅是阅读理解:文本问答的数据集和指标综述)
作者:Yang Bai, Zhe Wang
简介:文本问答 (QA) 旨在使用非结构化数据以自然语言为用户的问题提供准确的答案。 实现这一目标最流行的方法之一是机器阅读理解(MRC)。近年来,针对更广泛的文本 QA 任务提出了许多基于经典 MRC 任务的新数据集和评估指标。作者调查了 47 个最近的文本 QA 基准数据集,并从应用的角度提出了一种新的分类法。 此外,作者总结了文本 QA 任务的 8 个评估指标,并为未来的工作提出了建议。
论文下载:https://arxiv.org/pdf/2109.12264v2.pdf
阅读详情
欢迎加入预训练社群
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
-
学习前沿知识、求解疑难困惑
-
分享经验心得、展示风貌才华
-
参与专属活动、结识研究伙伴
请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢