本期周刊,我们选择了10篇来自国内外知名研究机构的预训练相关的论文:多模态话题包括扩散音频生成、语音信号分离、多模态ChatGPT;自然语言话题包括事实语言提取、渐进式迁移学习、大模型的隐式主题模型属性;基础研究话题包括投机采样加速解码;生命科学话题包括多模态扩散预训练和抗体预训练。综述方面包括多模态表征综述;此外,在资讯动态方面,我们选择了2篇观点,大模型能不能学到世界模型和语言模型的改变。

观点分享

标题:大型语言模型是学习世界模型还是只学习表面统计数据?

作者:Kenneth Li

简介:本文讨论了大模型是只是记住训练数据,还是在学习语法? 他们是否在构建类似于内部世界模型的东西:一个可理解的序列生成过程模型?对此本文利用Othello-GPT进行了测试,作者正在通过仅在 Othello 游戏脚本上训练 GPT 模型(称为 Othello-GPT)来研究辩论。 游戏由两名玩家下棋,他们交替将棋子放在 8x8 的棋盘上。 每一步都必须通过包抄/夹在一条直线上来翻转多个对手的棋子。 当无法移动时游戏结束,棋盘上有更多棋子的玩家获胜,结果显示经过训练的 Othello-GPT 通常会走合法的棋步,错误率为0.01%,结合其他分析作者表明语言模型可以使用探测技术构建可解释的“世界模型”,模型至少从各种属性中获得了一些信息。

HUB地址:https://hub.baai.ac.cn/view/23931

 

标题:语言模型正在改变人工智能,凸显了:整体评估的必要性

作者:Rishi Bommasani、Percy Liang和Tony Lee

简介:语言模型的力量来自大量的语言数据。它们体现了向基础模型的更广泛的范式转变,机器学习模型可以适应令人印象深刻的广泛任务。与此同时,人们广泛讨论了它们的风险:它们可能是有毒的、不诚实的、用于传播虚假信息的,围绕其数据和部署的做法需要认真的法律和道德反思。围绕着语言模型的所有兴奋和恐惧,必须被衡量。我们需要知道这项技术可以做什么和不能做什么,它带来了什么风险,这样我们才能有更深入的科学理解,并更全面地了解其社会影响。作者提供了一种新的基准方法,语言模型整体评估(HELM),旨在提供急需的透明度。该整体评估涉及三个要素:广泛覆盖和承认不完整性,多指标测量,标准化。作者认为:整体评估通过整体评估语言模型来建立透明度,应努力更全面地描述语言模型,以提高科学理解和指导社会影响。

HUB地址:https://hub.baai.ac.cn/view/23749

 

多模态研究

标题:浙大、北大、字节 | Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models(Make-An-Audio:使用即时增强扩散模型生成文本到音频)

作者:Rongjie Huang, Jiawei Huang, Dongchao Yang,等

推荐理由:本文研究在“文本到音频”领域应用当前流行的扩散模型,而且本文是业界首次尝试在用户定义的模态输入下生成高质量高保真音频。

简介:大规模多模态生成建模在文本到图像和文本到视频生成方面创造了里程碑,但在音频方面的应用仍然落后。主要原因有两个:缺乏具有高质量文本-音频对的大规模数据集,以及对长时间连续音频数据建模的复杂性。在这项工作中,作者提出了具有提示增强扩散模型的 Make-An-Audio,该模型通过以下方式解决了这些差距:1) 通过蒸馏、然后重新编程方法引入伪提示增强,其通过使用无语言音频;2)利用频谱图自动编码器来预测自监督音频表示而不是波形。连同强大的对比语言-音频预训练 (CLAP) 表示,Make-An-Audio 在客观和主观基准评估中均取得了最先进的结果。

论文下载:https://arxiv.org/pdf/2301.12661.pdf

HUB地址:https://hub.baai.ac.cn/view/23741

 

标题:以色列特拉维夫大学 | Separate And Diffuse: Using a Pretrained Diffusion Model for Improving Source Separation(分离和扩散:使用预训练扩散模型改进源分离)

作者:Shahar Lutati, Eliya Nachmani, Lior Wolf

推荐理由:本文利用当前流行的扩散模型,应用在语音信号分离的任务,并突破了当前的上限。

简介:语音分离问题,也称为鸡尾酒会问题,是指从混合语音信号中分离出单个语音信号的任务。先前关于源分离的工作得出了人类语音领域中源分离任务的上限。作者展示了如何将上限推广到随机生成模型的情况。应用经过预训练的扩散模型 Vocoder 在确定性分离模型的输出上对单说话人的声音进行建模,将可以获取导致最先进的分离结果。实验结果表明:这需要将分离模型的输出与扩散模型的输出结合起来。在作者的方法中:在频域中执行线性组合,使用由学习模型推断的权重。作者在多个基准测试中展示了 2、3、5、10 和 20 个扬声器的最新结果。特别是,对于两个说话者的场景,作者的方法能够超越以前认为的性能上限。

论文下载:https://arxiv.org/pdf/2301.10752.pdf

HUB地址:https://hub.baai.ac.cn/view/23700

 

标题:Saleforce | Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models(用冻结的图像编码器和大型语言模型进行语言-图像预训练的引导)

作者:JunnanLi、DongxuLi等

推荐理由:多模态版本chatGPT。

简介:本文提出了BLIP-2,一种可以任意对接语言模型的通用预训练框架。考虑到大规模模型的端到端训练成本越来越高,BLIP-2使用的是一种通用且高效的预训练策略:从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。为了弥补模态之间的差距,本文提出了一个轻量级的查询Transformer。该Transformer分两个阶段进行预训练:第一阶段从冻结图像编码器引导视觉语言表示学习,第二阶段将视觉从冻结的语言模型引导到语言生成学习。为了测试BLIP-2的性能,研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估。最终结果显示,BLIP-2在多项视觉语言任务上都实现了SOTA。

论文下载:https://arxiv.org/pdf/2301.12597.pdf

HUB地址:https://hub.baai.ac.cn/view/23905

 

NLP研究

标题:谷歌 | Understanding Finetuning for Factual Knowledge Extraction from Language Models(理解从语言模型中提取事实知识的微调)

作者:Mehran Kazemi, Sid Mittal, Deepak Ramachandran

推荐理由:本文聚焦研究:提取事实知识的语言模型微调过程,发现微调可能对知识提取产生负面影响,并提出了两套当前最优方案,以助于弥补负面影响并提高性能。

简介:据观察,在来自网络的大量文本上进行预训练的语言模型 (LM) 包含大量关于世界的各种类型的知识。这一观察导致了知识图谱构建中一种令人兴奋的新范式,在这种范式中,人们从 LM 的参数中提取知识,而不是手动管理或文本挖掘。在本文中,作者分析了用于事实知识提取的微调 LM。作者表明:除了之前已知的积极影响外,微调还会导致一种(可能有害的)现象,作者称之为频率冲击:在测试时,模型高估了出现在训练集中的罕见实体,但是却对训练集中没有出现足够次数的常见实体:预测不足。与普通微调相比,作者的“模型混合”与“预训练任务中的混合微调”两种解决方案相结合,带来了显着改进。

论文下载:https://arxiv.org/pdf/2301.11293.pdf

HUB地址:https://hub.baai.ac.cn/view/23699

 

标题:德国人工智能研究中心DFKI Efficient Language Model Training through Cross-Lingual and Progressive Transfer Learning(通过跨语言和渐进式迁移学习进行高效的语言模型训练)

作者:Malte Ostendorff, Georg Rehm

推荐理由:在跨语言预训练领域,本文提出一种新的渐进式迁移学习方法,以大幅高效地训练大型语言模型。

简介:大多数 Transformer 语言模型主要针对英文文本进行预训练,限制了它们对其他语言的使用。随着模型规模的增长,英语与其他计算和数据资源较少的语言之间的性能差距进一步扩大。因此,需要更节省资源的训练方法来弥补可用资源较少的语言的差距。为了解决这个问题,作者提出了一种称为 CLP-Transfer 的跨语言和渐进式迁移学习方法:该方法将模型从源语言迁移到新的目标语言,其中预训练模型是公开可用的。该方法(1)优于单一的跨语言迁移,可节省高达 80% 的训练步骤;(2)只需要原始令牌计数的50%(GPT-2)甚至20%(BLOOM),这相当于训练工作量减少了50%或80%。这极大地降低了在低资源环境中训练大型语言模型的障碍。

论文下载:https://arxiv.org/pdf/2301.09626.pdf

HUB地址:https://hub.baai.ac.cn/view/23705

 

标题:加州大学圣巴巴拉分校 | Large Language Models Are Implicitly Topic Models: Explaining and Finding Good Demonstrations for In-Context Learning(大型语言模型是隐含的主题模型:解释和寻找上下文学习的良好示范)

作者:Xinyi Wang, Wanrong Zhu, William Yang Wang

推荐理由:本文以创新的贝叶斯视角理解大型语言模型,并将其假设为从提示中推断潜在概念变量的隐式主题模型。

简介:近年来,在实现称为“上下文学习”推理时的小样本学习能力方面,预训练的大型语言模型表现出显着的效率。然而,现有文献强调了这种能力对小样本选择的敏感性。这种能力从常规语言模型预训练目标中产生的潜在机制仍然知之甚少。在这项研究中,作者旨在通过贝叶斯透镜检查上下文学习现象,将大型语言模型视为从演示中隐式推断任务相关信息的主题模型。在此前提下,作者提出了一种从一组带注释的数据中选择最佳演示的算法,并证明相对于随机选择基线有 12.5% 的显着改进,在不同的真实世界文本分类数据集上平均超过八个 GPT2 和 GPT3 模型。实证研究结果:支持了作者的假设,即大型语言模型隐含地推断出一个潜在的概念变量。

论文下载:https://arxiv.org/pdf/2301.11916.pdf

HUB地址:https://hub.baai.ac.cn/view/23706

 

基础研究

标题:Deepmind | Accelerating Large Language Model Decoding with Speculative Sampling(用投机采样加速大型语言模型解码)

作者:Charlie Chen、John Jumper等

推荐理由:来自John Jumper,高效地在不影响样本质量的情况下加快解码2倍

简介:本文提出了投机取样,一种通过对Transformer调用产生多个token来加速解码的算法。本算法依赖于这样的观察:由更快但功能较弱的草案模型产生的短连续的并行评分的延迟与从较大的目标模型中取样单个标记的延迟相当。这与新提出的拒绝采样方法相结合,保留了目标模型在硬件数字中的分布。本文用一个700亿参数的语言模型Chinchilla作为投机取样的基准,在分布式配置中实现了2-2.5倍的解码速度,而不影响采样质量或对模型本身进行修改。

论文下载:https://arxiv.org/pdf/2302.01318.pdf

HUB地址:https://hub.baai.ac.cn/view/23844

 

生命科学研究

标题:Mila | Physics-Inspired Protein Encoder Pre-Training via Siamese Sequence-Structure Diffusion Trajectory Prediction(蛋白质的序列-结构多模态预训练扩散模型)

作者:zuobai zhang、jian tang等

推荐理由:ICLR2023投稿论文,创新提出通过序列结构多模态扩散建模进行预训练。

简介:利用蛋白质序列或结构进行蛋白质的预训练的方法最近引起了人们的兴趣,但对序列和结构的联合能量景观进行建模的研究却很少。受扩散模型的成功启发,本文提出了DiffPreT方法,通过序列结构多模态扩散模型对蛋白质编码器进行预训练。DiffPreT引导编码器沿着扩散轨迹从受干扰的蛋白质序列和结构中恢复天然蛋白质序列和结构,从而获得序列和结构的联合分布。考虑到蛋白质构象变化,本文通过一种称为孪生扩散轨迹预测的物理方法来增强DiffPreT,以捕捉蛋白质不同构象之间的相关性。SiamDiff 通过在结构相关构象异构体的扩散轨迹之间最大化相互信息来实现这一目标。SiamDiff 在多个原子和残基水平的蛋白质理解任务上取得了新的SOTA。

论文下载:https://arxiv.org/abs/2301.12068v1

HUB地址:https://hub.baai.ac.cn/view/23883

标题:UCSB、字节、AIR | On Pre-trained Language Models for Antibody(抗体预训练语言模型)

作者:Danqing Wang, Fei Ye, Hao Zhou

推荐理由:ICLR2023接收论文,创新地将进化和生物信息引入预训练中。

简介:抗体是重要的蛋白质,为人体提供强大的保护,防止病原体侵入。一般蛋白质和特定抗体的预训练语言模型的发展都有助于抗体预测任务,然而很少有研究全面地探讨不同的预训练语言模型在不同的抗体问题上的表现能力。在此,为了研究这个问题,本文旨在回答以下关键问题:预训练的语言模型在不同特异性的抗体任务中表现如何如果本文在预训练过程中引入特定的生物机制,模型将获得多少好处,学会的抗体预训练表征在现实世界的抗体问题中是否有意义,如药物发现和免疫过程理解。以前没有可用的基准,为了方便调查,本文提供了一个抗体理解评估(ATUE)基准。本文通过实证研究全面评估蛋白质预训练语言模型的性能,并得出结论和新的见解。

论文下载:https://arxiv.org/pdf/2301.12112.pdf

HUB地址:https://hub.baai.ac.cn/view/23884

 

综述研究

标题:阿联酋穆罕默德·本·扎耶德人工智能大学、中山大学 | Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications(多模态表示学习:进化、预训练及其应用综述)

作者:Muhammad Arslan Manzoor, Sarah Albarri, Ziting Xian,等

简介:多模态表示学习作为一种学习嵌入,来自不同模态及其相关性的信息的技术,在视觉问答、视觉推理自然语言和视觉语言等各种应用中,获得了显着的成功检索(VLR)。本综述介绍了关于深度学习多模态架构的演变和增强的综合文献,以处理各种跨模态和现代多模态任务的文本、视觉和音频特征。本研究总结了:(i) 最近特定于任务的深度学习方法,(ii) 预训练类型和多模态预训练目标,(iii) 从最先进的预训练多模态方法到统一架构,以及 (iv) 多模态任务可以设计出更好的多模式学习的类别和未来可能的改进。此外,作者为新研究人员准备了一个数据集章节、涵盖了预训练和微调的大部分基准。最后,探讨了主要挑战、差距和潜在的研究课题。

论文下载:https://arxiv.org/pdf/2302.00389.pdf

HUB地址:https://hub.baai.ac.cn/view/23775

内容中包含的图片若涉及版权问题,请及时与我们联系删除