《预训练周刊》第57期：源码生成、变换器木马、自动模型并行

关于周刊

本期周刊，我们选择了8篇预训练相关的论文，涉及源代码预训练、多任务学习、文本摘要、变换器漏洞、多药物表征、多肽表示、蛋白质接触预测和蛋白质序列建模的探索。此外，在研究动态方面，我们选择了3篇预训练资讯，将介绍大模型并行训练、多模态视频理解和蛋白质结构预测方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

关于周刊订阅

告诉大家一个好消息，《预训练周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式一：

扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式二：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“预训练周刊”（如下图），进入“预训练周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《预训练周刊》订阅啦，以后智源社区自动向您推送最新版的《预训练周刊》！

论文推荐

标题：美国德克萨斯大学 | CoditT5: Pretraining for Source Code and Natural Language Editing（CoditT5：源代码和自然语言编辑的预训练）

作者：Jiyang Zhang, Sheena Panthaplackel, Pengyu Nie,等

简介：本文研究代码生成领域基于编辑的模型创新。预训练的语言模型已被证明在许多与软件相关的生成任务中是有效的；但是，它们并不适合编辑任务，因为它们并非旨在推理编辑。为了解决这个问题，作者提出了一个新的预训练目标，它明确地对编辑进行建模并使用它来构建 CoditT5，这是一种用于软件相关编辑任务的大型语言模型，它在大量源代码和自然语言注释上进行了预训练。作者在各种下游编辑任务上对其进行微调，包括评论更新、错误修复和自动代码审查。通过优于纯基于生成的模型，作者证明了其方法的普遍性及其对编辑任务的适用性。作者还展示了纯生成模型和作者基于编辑的模型如何通过简单的重新排序策略相互补充，

论文下载：https://arxiv.org/pdf/2208.05446.pdf

阅读详情

标题：伊利诺伊理工大学 | Multi-task Active Learning for Pre-trained Transformer-based Models（基于 Transformer 预训练模型的多任务主动学习）

作者：Guy Rotman, Roi Reichart

简介：本文研究多任务主动学习在基于 Transformer 的预训练NLP模型的应用。多任务学习，其中多个任务由单个模型共同学习，允许 NLP 模型共享来自多个注释的信息，并且可以在任务相互关联时促进更好的预测。然而，这种技术需要使用多个注释方案来注释相同的文本，这可能既昂贵又费力。主动学习 (AL) 已被证明可以通过迭代选择其注释对 NLP 模型最有价值的未标记示例来优化注释过程。然而，多任务主动学习 (MT-AL) 尚未应用于最先进的基于 Transformer 的预训练 NLP 模型。本文旨在缩小这一差距。作者在三个现实的多任务场景中探索了各种多任务选择标准，反映了参与任务之间的不同关系，并证明与单任务选择相比，多任务的有效性。实验的结果表明：可以有效地使用 MT-AL，以最大限度地减少多任务 NLP 模型的注释工作。

论文下载：https://arxiv.org/pdf/2208.05379.pdf

阅读详情

标题：纽约大学、谷歌 | Investigating Efficiently Extending Transformers for Long Input Summarization（研究有效扩展 Transformer 以进行长输入摘要）

作者：Jason Phang, Yao Zhao, Peter J. Liu

简介：本文研究长文本输入摘要的扩展。虽然大型预训练 Transformer 模型已被证明在处理自然语言任务方面非常有能力，但处理长序列输入仍然是一个重大挑战。其中一项任务是长输入摘要，其中输入长于大多数预训练模型的最大输入上下文。通过一系列广泛的实验，作者研究了哪些模型架构变化和预训练范式可以最有效地使预训练的 Transformer 适应长输入摘要。作者发现，具有全局编码器令牌的交错块局部 Transformer 在性能和效率之间取得了良好的平衡，并且对长序列的额外预训练阶段有意义地提高了下游摘要性能。根据实验的发现，作者提出了 PEGASUS-X（PEGASUS 模型的扩展），具有额外的长输入预训练以处理多达 16K 令牌的输入。PEGASUS-X 在长输入摘要任务上实现了强大的性能，可与更大的模型相媲美，同时添加很少的额外参数并且不需要模型并行性训练。

论文下载：https://arxiv.org/pdf/2208.04347.pdf

阅读详情

标题：美国石溪大学、IBM | Attention Hijacking in Trojan Transformers（特洛伊木马Transformers 中的注意力劫持）

作者：Weimin Lyu, Songzhu Zheng, Tengfei Ma,等

简介：本文研究木马攻击对人工智能系统的严重威胁。最近关于 Transformer 模型的作品受到了爆炸式的欢迎，自我关注注意力现在是无可争辩的。这就提出了一个核心问题：我们能否通过 BERT 和 ViT 中的注意力机制揭示特洛伊木马？在本文中，作者研究了特洛伊 AI 中的注意力劫持模式，即当存在特定触发器时，触发器令牌“绑架”注意力权重。作者从自然语言处理 (NLP) 和计算机视觉 (CV) 领域观察到 Trojan Transformers 中一致的注意力劫持模式。这个有趣的特性有助于理解 BERT 和 ViT 中的木马机制。作者还提出了一种注意力劫持特洛伊木马检测器 (AHTD) 来区分木马 AI 和干净的 AI。

论文下载：https://arxiv.org/pdf/2208.04946.pdf

阅读详情

标题：西安电子科技大学 | Multidrug Representation Learning Based on Pretraining Model and Molecular Graph for Drug Interaction and Combination Prediction（基于预训练模型和分子图的多药表征学习用于药物相互作用和组合预测）

作者：Shujie Ren, Liang Yu, Lin Gao等

简介：本文介绍了基于预训练模型和分子图的多药表示学习。疾病的诊断和治疗往往采用多药治疗，因为它可以增加疗效或减少药物的毒副作用，同时使用不同的药物可能会引发意想不到的药理作用。因此，有效识别药物相互作用对于治疗复杂疾病至关重要。目前提出的计算方法往往受到冗余药物特征的收集、标记数据量少、模型泛化能力低的限制。受图模型和预训练模型的启发，本文整合了大量未标记的药物分子图信息和靶点信息，然后设计了一个预训练框架 MGP-DR，专门用于药物对的表示学习。该模型使用自监督学习策略来挖掘药物分子内部和之间的上下文信息，以预测药物-药物相互作用和药物组合。与其他最先进的方法相比，该结果在多个指标上取得了良好的表现。

论文下载：https://arxiv.org/pdf/2208.04946.pdf

阅读详情

标题：山大、俄亥俄州立等 | Explainable deep graph learning accurately modeling the peptide secondary structure prediction（可解释的深度图学习准确地对多肽二级结构预测进行建模）

作者：Yi Jiang, Leyi Wei等

简介：本文介绍了预训练与图网络在多肽上的协作。由于短肽中缺乏鉴别信息，准确预测肽二级结构仍然是一项具有挑战性的任务。在这项研究中，作者提出了PHAT，一个用于预测肽二级结构的深度图学习框架。该框架包括一个新颖的可解释的深度超图多头注意网络，它使用基于残基的推理进行结构预测。本文的算法可以结合来自大规模生物语料库的预训练的序列语义信息和来自多尺度结构分割的结构语义信息，即使对于极短的肽，也能带来更好的准确性和可解释性，进而能够突出结构特征表征的推理和二级子结构的分类。本文进一步证明了二级结构在肽三级结构重建和下游功能分析中的重要性，突出了模型的多功能性。作者希望能够通过本文帮助设计功能性的肽，并为结构生物学研究的发展做出贡献。

论文下载：https://doi.org/10.1101/2022.06.09.495580

阅读详情

标题：华中科大 | Improved inter-protein contact prediction using dimensional hybrid residual networks and protein language models（使用维度混合残差网络和蛋白质语言模型改进蛋白质间接触预测）

作者：Yunda Si, Chengfei Yan等

简介：本文介绍了多种预训练模型在蛋白接触预测的应用。想从数十万个蛋白间残基对中准确识别出几十个接触的残基对是非常具有挑战性的，最先进的蛋白间接触预测方法的性能仍然相当有限。本文开发了一种深度学习方法DRN-1D2D_Inter，用于蛋白质间的接触预测。具体来说，作者采用了预训练的蛋白质语言模型来产生富含结构信息的输入特征，并通过维度混合残差块形成的残差网络来进行蛋白质间接触预测。本文在多个包括同源PPI和异源PPI数据集上对DRN-1D2D_Inter进行了广泛的基准测试，结果显示DRN-1D2D_Inter的表现一直明显优于两种最先进的蛋白质间接触预测方法：GLINTER和DeepHomo。后两种方法在预测中都利用了相互作用的蛋白质的原始结构，而DRN-1D2D_Inter纯粹从序列上进行预测。

论文下载：https://doi.org/10.1101/2022.08.04.502748

阅读详情

标题：罗彻斯特大学 | Now What Sequence? Pre-trained Ensembles for Bayesian Optimization of Protein Sequences（现在是什么序列？蛋白质序列的贝叶斯优化的预训练集成）

作者：Ziyue Yang, Katarina A Milas, Andrew D White

简介：本文介绍了蛋白预训练模型的贝叶斯优化。预训练模型在自然语言、计算机视觉和现在的蛋白质序列中都有变革性的作用，因为它可以用很少的训练数据来实现较好准确性。本文展示了如何在贝叶斯优化中使用预训练序列模型，以最少数量的标签设计新的蛋白质序列。预训练模型在小样本数据下能给出良好的预测精度，贝叶斯优化指导选择哪些序列进行测试，它同时也避免了常见的对有限采样池的需求，任何序列都可能被考虑。本文表明，许多序列设计任务所需的标记序列明显减少，包括用AlphaFold设计多肽抑制剂。简而言之，本文说明了可以用小样本方法进行预测迭代设计。

论文下载：https://doi.org/10.1101/2022.08.05.502972

阅读详情

研究动态

标题：伯克利、AWS、谷歌等|Alpa：自动模型并行深度学习，适合所有人的大型模型

简介：Alpa 是一个用于训练和服务巨大机器学习模型的系统。Alpa 使训练和服务像 GPT-3 这样的大型模型变得简单、负担得起、每个人都可以使用。将神经网络扩展到数千亿参数已经实现了 GPT-3 等重大突破，但训练这些大规模神经网络需要复杂的分布式训练技术。 Alpa 旨在通过几行代码实现大规模分布式训练的自动化。

代码下载：https://github.com/alpa-projects/alpa

论文下载：https://arxiv.org/pdf/2201.12023.pdf

演示地址：https://opt.alpa.ai/

阅读详情

标题：微软、中科软等联合 | Expanding Language-Image Pretrained Models for General Video Recognition（扩展通用视频识别的语言-图像预训练模型）

作者：Bolin Ni, Houwen Peng, Minghao Chen,等

简介：本文研究语言-图像预训练模型在视频识别中跨帧注意机制与提示调优的创新。对比语言-图像预训练在从网络规模数据中学习视觉-文本联合表示方面取得了巨大成功，展示了对各种图像任务的显著“零样本”泛化能力。然而，如何将这种新的语言-图像预训练方法有效地扩展到视频领域仍然是一个悬而未决的问题。在这项工作中，作者提出了一种简单而有效的方法，将预训练的语言图像模型直接应用于视频识别，而不是从头开始预训练一个新模型。更具体地说，为了捕捉帧在时间维度上的长期依赖关系，作者提出了一种跨帧注意机制，可以显式地跨帧交换信息。这样的模块是轻量级的，可以无缝地插入到预训练的语言图像模型中。而且，作者提出了一种特定于视频的提示方案，该方案利用视频内容信息来生成有区别的文本提示。实验表明：作者的方法达到SOTA效果。

论文下载：https://arxiv.org/pdf/2208.02816.pdf

阅读详情

标题：比Meta ESMFold参数小，比AlphaFold2效果好！分子之心完成AI蛋白结构预测三级进化

简介：许锦波教授领衔的分子之心团队，基于自研的AI蛋白发现与设计平台 MoleculeOS 创造了一种独特的模型组合方式，提出了不明显使用同源序列和共进化信息的 AI 蛋白质预测算法 RaptorX-Single。该算法由氨基酸编码模块（整合多个蛋白质语言模型）、修改后的 Evoformer 模块和结构生成模块组成。蛋白质语言模型均为目前已公开的预训练模型，且可以支持同时用多个模型输入，可以直接从一级序列预测蛋白质结构，而无需明确使用同源序列，预测准确性高且使用方便。RaptorX-Single 算法在三方面实现了领先：一是实现了孤儿蛋白等没有同源序列的蛋白质结构预测从 0 到 1 的突破，且测试结果远好于 AlphaFold2。二是实现了比 AlphaFold2 更快的运行速度，极大提升了蛋白质结构预测效率。三是在预测结果相当的情况下，RaptorX-Single 所用的蛋白语言模型参数仅 43 亿，远低于 Meta 蛋白质预测模型 ESMFold 高达 150 亿的参数量，极大降低了大算力芯片的高昂成本。

阅读详情

欢迎加入预训练社群

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群（备注：“姓名+单位+预训练”才会验证进群哦）

内容中包含的图片若涉及版权问题，请及时与我们联系删除