《预训练周刊》第56期：开源双语模型、即时问答、掩码自监督

关于周刊

本期周刊，我们选择了10篇预训练相关的论文，涉及开源双语模型、提示调优、文本相似、长文本表征、语言模型攻击、实时问答、尺度性能影响、知识融合模型、蛋白表征和蛋白结构预测的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍语言翻译和掩码自监督方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

关于周刊订阅

告诉大家一个好消息，《预训练周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式一：

扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式二：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“预训练周刊”（如下图），进入“预训练周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《预训练周刊》订阅啦，以后智源社区自动向您推送最新版的《预训练周刊》！

论文推荐

标题：清华|GLM-130B: An Open Bilingual Pre-Trained Model（GLM-130B：一个开放的双语预训练模型）

简介：本文介绍了一个开源双语语言模型。GLM-130B 是一个开放的双语（英文和中文）双向密集模型，具有 1300 亿个参数，使用通用语言模型（GLM）算法进行预训练。它旨在支持单个 A100 (40G * 8) 或 V100 (32G * 8) 服务器上的 130B 参数的推理任务。截至 2022 年 7 月 3 日，GLM-130B 已经接受了超过 4000 亿个文本标记（中英文各 200B）的训练，它具有以下独特功能：(1)双语：支持英文和中文。(2)性能 (EN)：在 LAMBADA 上优于 GPT-3 175B (+4.0%)、OPT-175B (+5.5%) 和 BLOOM-176B (+13.0%)，略优于 GPT-3 175B (+0.9%)在 MMLU 上。(3)性能 (CN)：在 7 个零样本 CLUE 数据集 (+24.26%) 和 5 个零样本 FewCLUE 数据集 (+12.75%) 上明显优于 ERNIE TITAN 3.0 260B。(4)快速推理：使用单个 A100 服务器支持对 SAT 和 FasterTransformer 的快速推理（速度提高 2.5 倍）。(5)可重现性：所有结果（30 多个任务）都可以通过开源代码和模型检查点轻松重现。(6)跨平台：支持在 NVIDIA、Hygon DCU、Ascend 910 和 Sunway（即将发布）上进行训练和推理。

代码下载：https://github.com/THUDM/GLM-130B

阅读详情

标题：阿里|Prompt Tuning for Generative Multimodal Pretrained Models（生成式多模态预训练模型的提示调优）

作者：Hao Yang, Junyang Lin, Hongxia Yang等

简介：本文介绍一种提示调优方法。提示调优已成为模型调优的新范式，并在自然语言预训练甚至视觉预训练方面取得了成功。在这项工作中，作者探索了将快速调整转移到多模态预训练，重点是生成多模态预训练模型，而不是对比模型。具体来说，作者在统一的序列到序列预训练模型上实现了快速调整，以适应理解和生成任务。实验结果表明，轻量级快速调优可以达到与微调相当的性能，并超越其他轻量级调优方法。此外，与微调模型相比，即时调整模型表现出更高的对抗性攻击鲁棒性。作者进一步发现，包括提示长度、提示深度和重新参数化在内的实验因素对模型性能有很大影响，因此作者凭经验为提示调整的设置提供了建议。

代码下载：https://github.com/OFA-Sys/OFA

论文下载：https://arxiv.org/pdf/2208.02532.pdf

阅读详情

标题：印度国际信息技术研究所|A Cognitive Study on Semantic Similarity Analysis of Large Corpora: A Transformer-based Approach (大型语料库语义相似性分析的认知研究：一种基于 Transformer 的方法)

作者：Praneeth Nemani， Satyanarayana Vollala

简介：本文在大型语料库上对传统的和基于Transformer的语义相似性建模方法进行研究实验。在当今自然语言处理的许多开创性应用中，语义相似性分析和建模是一项广受好评的任务。归因于顺序模式识别的知觉能力，许多神经网络如 RNN 和 LSTM 在语义相似度建模方面取得了令人满意的结果。然而，这些解决方案被认为是低效的，因为无法以非顺序方式处理信息、从而导致上下文提取不当。Transformer 因其非顺序数据处理和自注意力等优势而成为最先进的架构。在本文中，作者使用传统和基于Transformer 的技术对美国专利短语到短语匹配数据集进行语义相似性分析和建模。作者对解码增强型 BERT——DeBERTa 的四种不同变体进行了试验，并通过执行 K-Fold 交叉验证来增强其性能。实验结果表明：与传统技术相比，作者的方法具有更高的性能，平均 Pearson 相关分数为 0.79。

论文下载：https://arxiv.org/ftp/arxiv/papers/2207/2207.11716.pdf

阅读详情

标题：特拉维夫大学 | Efficient Long-Text Understanding with Short-Text Models（使用短文本模型进行高效的长文本理解）

作者：Maor Ivgi, Uri Shaham, Jonathan Berant

简介：本文研究预训练语言模型 (LM) 长序列处理的新方法。基于 Transformer 的LM在自然语言理解中无处不在，但由于其二次复杂性，不能应用于长序列，例如故事、科学文章和长文档。虽然已经提出了无数高效的Transformer 变体，但它们通常基于需要从头开始进行昂贵的预训练的自定义实现。在这项工作中，作者提出了 SLED：SLiding-Encoder and Decoder，这是一种处理长序列的简单方法，可重用和利用经过实战考验的短文本预训练 LM。具体来说，作者将输入划分为重叠的块，使用短文本 LM 编码器对每个块进行编码，并使用预训练的解码器跨块融合信息（解码器融合）。作者通过对照实验说明 SLED 为长文本理解提供了一种可行的策略，并评估了作者在 SCROLLS 上的方法：包含七个数据集的基准、涵盖了广泛的语言理解任务。作者发现 SLED 与最大 50 倍且需要专门且昂贵的预训练步骤的专用模型具有竞争力。

论文下载：https://arxiv.org/pdf/2208.00748.pdf

阅读详情

标题：美国弗吉尼亚大学、微软 | Active Data Pattern Extraction Attacks on Generative Language Models（对生成语言模型的主动数据模式提取攻击）

作者：Bargav Jayaraman, Esha Ghosh, Huseyin Inan,等

简介：本文研究语言模型泄漏敏感信息的安全议题。在这项工作中，作者着手调查大型预训练语言模型典型智能回复管道中的潜在信息泄漏漏洞，并表明具有黑盒或灰盒访问智能回复模型的攻击方在训练数据中有可能提取敏感的用户信息。实验结果表明：作者的黑盒和灰盒攻击能够从基于transformer的语言模型中恢复大量电子邮件ID、密码和登录凭据。早期停止模型训练过程的防御策略已被证明可以防止记忆（发生在训练过程的后期），也被认为是机器学习中的“最佳实践”，但无法抵御作者的攻击。然而，正如作者的实验所证明的那样，差异隐私被证明是一种很有前途的防御此类攻击的方法。作者希望作者的工作能够激励机器学习从业者和研究人员进一步了解攻击方如何与ML管道交互，并探索针对特定ML应用的各种对抗能力。

论文下载：https://arxiv.org/pdf/2207.10802.pdf

阅读详情

标题：华盛顿大学、Allen AI 等联合 | RealTime QA: What's the Answer Right Now?(实时 QA：现在的答案是什么？)

作者：Jungo Kasai, Keisuke Sakaguchi, Yoichi Takahashi,等

简介：本文提出基于大型预训练语言模型的RealTime QA（实时QA），通过准确的最新的信息检索，以满足快速的信息需求。实时QA将查询当前世界需要回答有关新事件或信息的问题。因此，实时QA挑战了开放域 QA 数据集中的静态传统假设、并追求即时应用。作者在大型预训练语言模型（包括 GPT-3 和 T5）上构建了强大的基线模型。作者的基准测试是一项持续的努力。作者的实验结果表明：GPT-3 通常可以根据新检索的文档正确更新其生成结果，突出了最新信息检索的重要性。但是作者发现：当检索到的文档没有提供足够的信息来找到答案时，GPT-3 往往会返回过时的答案。这为未来的研究提供了一条重要途径：开放域 QA 系统能否识别出此类无法回答的案例并与用户甚至检索模块进行通信以修改检索结果？作者希望 RealTime QA 将推动即时问答应用的进步。

论文下载：https://arxiv.org/pdf/2207.13332.pdf

阅读详情

标题：Google、Deepmind | Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling? (尺度规律与模型架构：归纳偏置是如何影响尺度的？)

作者：Yi Tay, Donald Metzler等

简介：本文分析了模型架构大小与模型性能的关系。Transformer 模型的尺度规律引起了很多人的兴趣。本文进行对十个模型结构的尺度行为进行了系统研究，首次为不同的归纳偏置和模型结构推导出尺度规律。本文发现，这个比例系数在不同的模型之间有很大的差异并可以作为模型开发中的一个重要考虑。另外本文观察到，在一个计算区域运行良好的模型，在另一个计算区域不一定是最好的。本文也发现，当涉及到尺度不同的模型架构时，上游预训练的困惑度可能与下游的迁移学习没有很好的关联。因此，底层架构和归纳偏向对于下游迁移也是至关重要的。本文强调了某些架构在尺度分析上的困难，并表明一些模型没有尺度或以呈现相反的趋势。本文还发现，线性时间注意力模型（如Performer）在扩大尺度方面存在困难。

论文下载：https://arxiv.org/pdf/2207.10551.pdf

阅读详情

标题：浙大、阿里 | DictBERT: Dictionary Description Knowledge Enhanced Language Model Pre-training via Contrastive Learning (DictBert：采用对比学习的字典描述知识增强的预训练语言模型)

作者：Qianglong Chen, Yin Zhang等

简介：本文提出了一种知识融合预训练模型方法。研究学者发现将外部知识（知识图谱）融入预训练语言模型中后获取了更加优异的效果，但具体场景下的知识图谱信息往往是不容易获取的，因此，本文提出一种新方法DictBert，将字典描述信息作为外部知识增强预训练语言模型，相较于知识图谱的信息增强，字典描述更容易获取。在预训练阶段，提出来两种新的预训练任务来训练DictBert模型，通过掩码语言模型任务和对比学习任务将字典知识注入到DictBert模型中，其中，掩码语言模型任务为字典中词条预测任务；对比学习任务为字典中词条描述判断任务。在微调阶段，将DictBert模型作为可插拔的外部知识库，对输入序列中所包含字典中的词条信息作为外部隐含知识内容，注入到输入中，并通过注意机制来增强输入的表示，最终提升模型表征效果。

论文下载：https://arxiv.org/pdf/2208.00635.pdf

阅读详情

标题：纽约大学等 | TM-Vec: template modeling vectors for fast homology detection and alignment (TM-Vec：用于快速同源检测和比对的模版建模向量)

作者：Kyunghyun Cho, Richard Bonneau等

简介：本文使用预训练模型进行蛋白序列比对以及结构对齐。最常用的基于序列比对的方法，如BLAST，经常在与之前注释的蛋白质序列相似性较低的蛋白质上失败。本文开发了一种深度学习方法TM-Vec，该方法使用序列比对来学习结构特征，可用于搜索大型序列数据库中的结构-结构相似性。具体来说，作者训练预训练模型直接从序列比对中准确预测TM分数，这是结构对结构相似性的指标，而无需中间计算或解出结构。对于结构高度相似的远程同源序列，本文预测的TM分数与其真实值相差0.026以内，TM-Vec的表现优于传统的序列比对方法，并且性能类似于基于结构的比对方法。TM-Vec在CATH和SwissModel结构数据库的训练，计算效率很高。它在专门为测试长程同源检测方法而设计的数据库上进行了测试并取得了较好的结果。

论文下载：https://doi.org/10.1101/2022.07.25.501437

阅读详情

标题：百度、百图生科 | HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein Language Model as an Alternative (HelixFold-Single: 使用蛋白质语言模型作为替代进行无MSA蛋白质结构预测)

作者：Xiaomin Fang, Fan Wang, Le Song等

简介：本文使用预训练模型进行进行蛋白结构预测。本文试图通过只使用蛋白质的一级序列来探索快速蛋白质结构预测的极限。HelixFold-Single的提出是为了将大规模的蛋白质语言模型与AlphaFold2的几何学习能力结合起来。HelixFold-Single首先利用自监督的学习范式，用数以百万计的序列预训练一个大规模的蛋白质语言模型（PLM），它将作为MSA和模板的替代品来学习共进化信息。然后通过结合预训练的PLM和AlphaFold2的基本组件，得到了一个端到端的仅从主序列预测原子的三维坐标的可微模型。HelixFold-Single在CASP14和CAMEO数据集中得到了验证，在具有大型同源家族的目标上实现了与基于MSA的方法具有竞争能力的准确度。此外，HelixFold-Single比蛋白质结构预测的主流方法消耗的时间要少得多，这表明它在需要大量预测的任务中具有潜在应用。

论文下载：https://arxiv.org/pdf/2207.13921v1.pdf

阅读详情

研究动态

标题：MetaAI科学家解读最新模型：200+语言互译，扩充千倍翻译数据，全球元宇宙用户自由交流

简介：近日，MetaAI发布了NLLB-200模型，宣布在200多种语言（其中有70%是低资源语言）上实现了任意互译。其中的亮点在于：研究者让大多数低资源语言训练数据量提升了多个数量级，相当于规模提升百倍甚至千倍；实现了200+语言翻译的平均新SOTA。此外，利用NLLB-200实现元宇宙用户自由交流，也成为未来Meta关注的发展方向。怎样解决困扰通用机器翻译研究的问题？千倍翻译数据增长背后使用哪些新技术？近日，智源社区邀请NLLB-200的作者之一，MetaAI研究科学家Maha Elbayad博士进行了详解。

阅读详情

标题：自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

简介：带有掩码预测的生成前置任务(例如BERT)已经成为NLP中事实上的标准自监督学习（SSL）实践。相比之下，视觉生成方法的早期尝试已经被它们的判别性同行所掩盖(如对比学习); 然而，掩码图像模型的成功复兴了掩码自编码器(过去常被称为去噪自编码器)。作为弥合与BERT在NLP中的差距的里程碑，掩码自编码器在视觉上引起对了SSL前所未有的关注。这项工作对掩码自编码器进行了全面的综述，以洞察SSL的一个有前途的方向。本文通过讨论其历史发展、最近的进展以及对各种应用的影响，重点讨论了它在视觉上的应用。具体主要包括三个部分：掩码语言模型的历史发展及其与掩码语言模型的关系; 视觉中的掩码模型原理，以及从不同角度对其成功的理解；其在自然图像之外的各种应用的预训练的影响。

阅读详情

欢迎加入预训练社群

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群（备注：“姓名+单位+预训练”才会验证进群哦）

内容中包含的图片若涉及版权问题，请及时与我们联系删除

《预训练周刊》第56期：开源双语模型、即时问答、掩码自监督

评论