《预训练周刊》第55期：中文预训练进展、大模型泛化、模型下游性能预测

关于周刊

本期周刊，我们选择了7篇预训练相关的论文，涉及中文预训练、分子图模型、蛋白结构预测、模型泛化可靠性、知识增强多模态对话、大模型虚假相关性和微调性能预测的探索。此外，在研究动态方面，我们选择了3篇预训练资讯，将介绍大模型训练技术、图像生成和文本上下文学习方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

关于周刊订阅

告诉大家一个好消息，《预训练周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式一：

扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式二：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“预训练周刊”（如下图），进入“预训练周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《预训练周刊》订阅啦，以后智源社区自动向您推送最新版的《预训练周刊》！

论文推荐

标题：新疆财经大学 | Advances in Chinese Pre-training Models（中文预训练模型研究进展）

作者：HOU Yu-tao, ABULIZI Abudukelimu, ABUDUKELIMU Halidanmu

简介：本文总结了中文预训练。近年来，预训练模型在自然语言处理领域蓬勃发展，旨在对自然语言隐含的知识进行建模和表示，但主流预训练模型大多针对英文领域。中文领域起步相对较晚，鉴于其在自然语言处理过程中的重要性，学术界和工业界都开展了广泛的研究，提出了众多的中文预训练模型。文中对中文预训练模型的相关研究成果进行了较为全面的回顾，首先介绍预训练模型的基本概况及其发展历史，对中文预训练模型主要使用的两种经典模型Transformer和BERT进行了梳理，然后根据不同模型所属类别提出了中文预训练模型的分类方法，并总结了中文领域的不同评测基准，最后对中文预训练模型未来的发展趋势进行了展望。旨在帮助科研工作者更全面地了解中文预训练模型的发展历程，继而为新模型的提出提供思路。

论文下载：https://www.jsjkx.com/CN/10.11896/jsjkx.211200018

阅读详情

标题：清华、AIR、腾讯 | 3D Equivariant Molecular Graph Pretraining（3D等变分子图预训练）

作者：Rui Jiao, Yang Liu等

简介：本文介绍了分子三维预训练。传统的分子表征主要是处理二维分子图，并且只关注二维任务，这使得他们的预训练模型无法描述三维几何特征，因此在下游的三维任务中存在缺陷。本文从一个完整和新颖的意义上解决了三维分子预训练的问题。作者首先提出采用一个基于等变能量的模型作为预训练的骨干，它具有满足三维空间对称性的优点。然后，本文开发了一个用于力场预测的节点级预训练损失，本文进一步利用黎曼-高斯分布来确保损失是E(3)不变量的，从而使其具有更强的鲁棒性。此外，本文还利用图层面的噪声预测任务来进一步促进最终的性能。本文在两个具有挑战性的三维基准上评估了从大规模三维数据集GEOM-QM9预训练出来的模型。实验结果显示本文的方法比目前最先进的预训练方法有更好的功效，并验证了作者对3D预训练中各个模块设计的有效性。

论文下载：https://arxiv.org/pdf/2207.08824v2.pdf

阅读详情

标题：Meta AI | Language models of protein sequences at the scale of evolution enable accurate structure prediction（进化尺度上的蛋白质序列语言模型使准确的结构预测成为可能）

作者：Zeming Lin, Alexander Rives等

简介：本文介绍了蛋白预训练在结构预测上的应用。最近，大型语言模型被证明可以随着规模提升产生涌现能力。虽然蛋白质序列上训练的语言模型已经在较小的规模上进行了研究，但随着它们规模的扩大，人们缺乏对模型学到的生物学知识的挖掘。本文训练了多达150亿个参数的预训练模型ESM2，这是迄今为止最大的蛋白质语言模型。作者发现，随着模型规模的扩大，模型会学习更多信息，从而能够预测单个原子分辨率下蛋白质的三维结构。本文提出了ESMFold，直接从蛋白质的单序列中进行高精度端到端原子水平结构预测。ESMFold与AlphaFold2和RoseTTAFold在语言模型能很好理解的低困惑度序列上具有相似的准确性。ESMFold的推理速度比AlphaFold2快一个数量级，可以用于探索元基因组蛋白的结构空间，有助于揭示对天然蛋白质的广度和多样性的新认识，并能发现新的蛋白质结构和功能。

论文下载：https://doi.org/10.1101/2022.07.20.500902

阅读详情

标题：谷歌、牛津大学 | Plex: Towards Reliability using Pretrained Large Model Extensions（Plex：使用预训练大型模型的扩展实现可靠性）

作者：Dustin Tran, Jeremiah Liu, Michael W. Dusenberry等

简介：基于预训练大型模型的扩展、本文研究视觉和语言领域模型可靠性的实现。人工智能最近的一个趋势是使用预训练模型来处理语言和视觉任务，虽已取得了非凡的性能，但也有令人费解的失败。因此，以多种方式探索这些模型的能力对该领域至关重要。在本文中，作者探讨了模型的可靠性，作者将可靠模型定义为不仅可以实现强大的预测性能，而且在许多涉及不确定性的决策任务（例如：选择性预测、开放集识别）中表现良好的模型，稳健的泛化和适应。作者在 40 个数据集上设计了 10 种类型的任务，以评估视觉和语言领域可靠性的不同方面。为了提高可靠性，作者开发了 ViT-Plex 和 T5-Plex，分别针对视觉和语言模式进行了预训练的大型模型扩展。实验表明：Plex 极大地提高了可靠性任务的最新技术水平、并简化了传统协议。

论文下载：https://arxiv.org/pdf/2207.07411.pdf

阅读详情

标题：山东大学、北邮、哈工大| Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model（具有双重知识增强生成预训练语言模型的多模态对话系统）

作者：Xiaolin Chen, Xuemeng Song, Liqiang Jing等

简介：本文研究双知识增强生成预训练语言模型如何应用在多模态面向任务的对话系统。多模式面向任务的对话系统的文本响应生成，旨在在给定多模式上下文的情况下生成正确的文本响应，是一项必不可少但具有挑战性的任务。尽管现有的努力已经取得了令人瞩目的成功，但它们仍然存在两个关键限制：1) 忽略了生成式预训练的好处， 2) 忽略了与文本上下文相关的知识。为了解决这些限制，作者提出了一种新的“用于多模态面向任务的对话系统（DKMD）”的双知识增强生成预训练语言模型，由三个关键组件组成：双知识选择、双知识增强上下文学习、以及知识增强的响应生成。在公共数据集上进行的大量实验验证：作者提议的 DKMD 优于最先进的竞争对手。

论文下载：https://arxiv.org/pdf/2207.07934.pdf

阅读详情

标题：斯坦福大学独立研究员|Selection Bias Induced Spurious Correlations in Large Language Models（选择偏差导致大型语言模型中的虚假相关性）

作者：Emily McMilin

简介：本文研究数据集选择偏差而导致大型语言模型的虚假相关性，本文发表于ICML 2022年关于虚假相关性、不变性和稳定性的研讨会。在这项工作中，作者展示了大型语言模型如何学习由于数据集选择偏差而导致的其他无条件独立变量之间的统计依赖关系。为了证明这种效果，作者开发了一个遮罩性别任务（应用于预训练的 BERT与RoBERTa大型模型上），以揭示预测的性别代词与各种看似性别中立的变量（如日期和位置）之间的虚假相关性。实验结果表明：以前被视为大型语言模型中测试性别偏见的性别中立基线的句子也容易受到虚假相关性的影响。作者解释了数据集选择偏差在诱导数据集之间虚假关联中的作用，并建议在此处研究的特定关系之外具有广泛的适用性；并且关于未来的假设或数据可以帮助缓解选择偏差的影响，希望未来能将其应用于大型语言模型研究之中。

论文下载：https://arxiv.org/pdf/2207.08982

阅读详情

标题：Netflix、麻省理工学院 | Uncertainty in Contrastive Learning: On the Predictability of Downstream Performance（对比学习中的不确定性：关于下游性能的可预测性）

作者：Shervin Ardeshir, Navid Azizan

简介：通过“从预训练的嵌入中探索给定数据点的下游性能是否可预测”、本文研究对比学习中的不确定性。当今一些最先进的深度学习模型的卓越性能在一定程度上归功于对大规模数据集的广泛（自我）监督对比预训练。在对比学习中，网络呈现成对的正（相似）和负（不相似）数据点，并被训练为每个数据点找到嵌入向量，即表示：可以针对各种下游任务进一步微调。为了在关键决策系统中安全地部署这些模型，为其配备不确定性或可靠性的衡量标准至关重要。然而，由于训练对比模型的成对性质，以及输出上缺乏绝对标签（抽象嵌入向量），将传统的不确定性估计技术应用于此类模型并非易事。在这项工作中，作者研究是否可以以有意义的方式对单个数据点量化这种表示的不确定性（即：直接从预训练的嵌入中探索给定数据点的下游性能是否可预测）。大量实验表明：嵌入向量的这种不确定性概念通常与其下游精度密切相关。

论文下载：https://arxiv.org/pdf/2207.09336.pdf

阅读详情

研究动态

标题：Huggingface | BLOOM模型训练背后的技术

简介：近年来，训练越来越大的语言模型已经成为一种常态。虽然大家经常议论到这些模型没有被放出来以供进一步研究的问题，但鲜有人关注如何训练这些大模型的隐藏知识技巧。本文旨在改变这种状况，以176B参数的语言模型BLOOM为例，从硬件和软件两个方面阐明训练这种模型背后的技术和工程。具体包括在BLOOM训练过程中，工作人员如何利用Megatron-DeepSpeed训练，如何进行数据并行，张量并行，管道并行，基于ZeRO（零冗余优化器）的组合并行，BF16训练、位置编码等等过程和细节。作者生动地展示了压力与意义并存的训练经历，表示训练大型语言模型仍然是一项具有挑战性的任务，但希望通过建立和分享这项技术的开放，其他人可以在本文的经验基础上更进一步。

阅读详情

标题：百度 | 全球首个航天大模型问世，文心秒补《富春山居图》

简介：世界上首个航天领域大模型——航天-百度·文心大模型，刚刚在百度世界大会上由百度CTO王海峰与中国探月工程副总指挥、国家航天局探月与航天工程中心主任刘继忠共同发布。目前航天-百度·文心大模型可以将航天领域的数据和知识融合学习，对航天数据进行智能的采集、分析和理解，助力深空智能感知、规划和控制等技术突破。除此以外百度展示了众多落地案例，包括农田地块分割和农田障碍物识别、电厂设备故障智能预判、母羊分娩预测等。其中最亮眼的是AI秒补《富春山居图》，具体方法是先用大量的中国山水画训练，让AI对山水画的理解达到“大师级”水平。再用《富春山居图》残存的部分微调，让AI做迁移学习，使补全出来的画作与现存真迹风格一致。无论是航天科技、AIGC、还是更多其他行业，文心大模型要做的就是在性能领先的同时支撑大量产业应用。

阅读详情

标题：美国奥本大学、Adobe | A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search（PiC：用于短语理解和语义搜索的短语上下文数据集）

作者：Thang M. Pham, Seunghyun Yoon, Trung Bui, Anh Nguyen

简介：自 BERT以来，学习上下文词嵌入已成为 NLP 中的事实标准。然而，由于缺乏人工注释的上下文短语基准，学习上下文化短语嵌入的进展受到阻碍。为了填补这一空白，作者提出了 PiC——一个包含约 28K 名词短语的数据集、其上下文的 Wikipedia 页面、以及一套用于评估短语嵌入质量的三个难度不断增加的任务。作者发现：在PiC数据集上进行训练可以提高排名模型的准确性，并显着将问答 (QA) 模型推向接近人类的准确度，即在给定查询短语和段落的语义搜索中达到 95% 的精确匹配 (EM)。有趣的是，作者发现有证据表明：这种令人印象深刻的性能是因为 QA 模型学会了更好地捕捉短语的共同含义、而不论其实际上下文如何。

论文下载：https://arxiv.org/pdf/2207.09068.pdf

阅读详情

欢迎加入预训练社群

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群（备注：“姓名+单位+预训练”才会验证进群哦）

内容中包含的图片若涉及版权问题，请及时与我们联系删除

《预训练周刊》第55期：中文预训练进展、大模型泛化、模型下游性能预测

评论列表

评论