大模型又可以称为Foundation Model模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代,其所带来的结果提升十分显著,超越了很多领域中针对研究问题设计特定算法实现的提升。

本文精选了10篇大模型领域的优秀论文,分别来自MIT、UC伯克利、华盛顿大学 等机构。

1.AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

作者:Haohe Liu,Zehua Chen,Yi Yuan,Xinhao Mei,Xubo Liu,Danilo Mandic,Wenwu Wang,Mark D. Plumbley

论文链接:https://arxiv.org/pdf/2301.12503.pdf

文本到声音系统近年来受到了关注,然而,以前的音频系统研究有过有限的生成质量和计算成本。本文中,我们提出了一种基于潜在空间的音频编码器,以学习从对比语言语音预训练(CLAP)假设中学习不断演奏的声音的连续声音表示。预训练的CLAP模型使我们能够与使用视频编码进行培训时提供文本编码作为条件的情况下训练LDMs。通过学习声波信号和其组成物的潜在表示,而无需模拟跨层次关系,该系统的生成质量和计算效率都优于耳机音频编码器。

2.Guiding Pretraining in Reinforcement Learning with Large Language Models

作者:Yuqing Du,Olivia Watkins,Zihan Wang,Cédric Colas,Trevor Darrell,Pieter Abbeel,Abhishek Gupta,Jacob Andreas

论文链接:https://arxiv.org/pdf/2302.06692.pdf

基于文本语料库的探索我们描述了一种从文本语料库中提取背景知识来塑造探索的方法。这种方法称之为ELSM(使用LLM进行探索),它奖励代理达到由语言模型启发的目标,并伴随其描述的agent当前状态。利用大规模语言模型预训练,ELSM引导代理走向人类意义丰富的和合理有用的行为。在Crafter游戏环境和Housekeep机器人模拟器中,我们评估了ELSM,结果表明它比原始任务表现得更好,通常优于以下几类任务。

3.Guiding Large Language Models via Directional Stimulus Prompting

作者:Zekun Li,Baolin Peng,Pengcheng He,Michel Galley,Jianfeng Gao,Xifeng Yan

论文链接:https://arxiv.org/pdf/2302.11520.pdf

我们引入了一种新的框架,即方向激励求助,该框架使用调谐语言模型(LM)为下流任务提供指导。与以前的工作不同,我们训练了一个政策LM来生成每个输入的隐式标记作为目标输入的指示或提示。然后将其与原始输入相结合并将其注释到LM,以引导其生成。这种方法可以从(1)监督学习;(2)从播客和在线奖励中进行训练,以探索更好地与人类偏好一致的方向激励。本文对《华尔街日报》和《每日邮报》等美国有线电视新闻网数据集的实证结果进行了评估。实验结果表明,在少量的培训数据收集的情况下,该框架可以显著提高机器翻译系统性能。

4.Augmented Language Models: a Survey

作者:Grégoire Mialon,Roberto Dessì,Maria Lomeli,Christoforos Nalmpantis...

论文链接:https://arxiv.org/pdf/2302.07842.pdf

我们对一种语言模型的扩展应用程序进行了调查研究。该应用程序将知识技能和工具能力相结合,使其成为更简单的子任务,而前者则由呼叫外部模块组成,例如编码解释器。这种方法通过启发式算法学习来实现也可以单独或联合使用启发式算法来实现。在本文中,我们提出了一种新的增强语言模型的研究方向,该研究方向可以解决传统语言建模范畴中的一般局限性,如解释力、一致性和可扩展性问题。

5.Why Is Public Pretraining Necessary for Private Model Training?

作者:Arun Ganesh,Mahdi Haghifam,Milad Nasr,Sewoong Oh,Thomas Steinke,Om Thakkar,Abhradeep Thakurta,Lun Wang

 论文链接:https://arxiv.org/pdf/2302.09483.pdf

我们假设了一个模型训练的非曲面损失景观需要一个优化算法来通过两个阶段进行调整。首先,算法需要在损失空间中选择一个好的"谷仓",然后算法解决了在这个谷仓里的一种简单的优化。这两种方法之间的高度相似之处表明,存在更深层的原因导致了这些改进。为了解释这种现象,我们假设了一个模型训练的非曲面损失景观需要一个优化算法来通过两个阶段进行调整。首先,算法需要在损失空间中选择一个好的"谷仓",然后算法解决了在一个谷仓里的一种简单的优化。

6.Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

作者:Xiao Wang,Guangyao Chen,Guangwu Qian,Pengcheng Gao,Xiao-Yong Wei,Yaowei Wang,Yonghong Tian,Wen Gao

论文链接:https://arxiv.org/pdf/2302.10035.pdf

在本文中,我们首先概述了传统的深层训练、自然语言处理、计算机视觉和语音等领域的基本背景。然后,我们介绍了大型模型的任务定义、关键挑战和优点,并讨论了这类模型在数据、目标、网络架构和知识增强早期培训方面的实验结果。最后,我们指出此次的研究方向会有助于未来的工作。

7.Structure and Content-Guided Video Synthesis with Diffusion Models

作者:Patrick Esser,Johnathan Chiu,Parmida Atighehchian,Jonathan Granskog,Anastasis Germanidis

论文链接:https://arxiv.org/pdf/2302.03011.pdf

我们提出了一种基于结构和内容的视频传播模型。该模型使用不同层次特征对原始剪辑进行编码,并在图像和视频上进行训练,用户提供的内容编辑和结构表示:之间的冲突是由于两个方面缺乏衔接。作为解决方案,我们证明了通过各种细节级别的权重来实现结构和内容精确性可以获得关于时间一致性的明确控制。实验结果表明,该模型在图像和视频上都是联合训练的。

8.Multimodal Chain-of-Thought Reasoning in Language Models

作者:Zhuosheng Zhang,Aston Zhang,Mu Li,Hai Zhao,George Karypis,Alex Smola

论文链接:https://arxiv.org/pdf/2302.00923.pdf

我们提出了一种新的多向模块化CoT方法。该方法融合了视图特征和语言特征来生成有效的解释规则。通过将这些特征集成到并行训练框架中,我们的模型优于之前最先进的研究范式。

9.MarioGPT: Open-Ended Text2Level Generation through Large Language Models

作者:Shyam Sudhakaran,Miguel González-Duque,Claire Glanois,Matthias Freiberger,Elias Najarro,Sebastian Risi

论文链接:https://arxiv.org/pdf/2302.05981.pdf

我们描述了用于生成各种环境的马里奥格式特技。我们展示了如何将这种技术与新的大型语言模型相结合,以实现可控级别生成。此外,我们还引入了一种新的搜索算法,该算法可以灵活地组合多种模式来生成不同的水平。

10.Adding Conditional Control to Text-to-Image Diffusion Models

作者:Lvmin Zhang,Maneesh Agrawala

论文链接:https://arxiv.org/pdf/2302.05543.pdf

我们提出了一个神经网络结构:监督网,用于控制预制好的大型传播模型来支持额外输入条件。监督网在末端到终端路线中学习任务特定的条件,并且学习能力即使训练数据集很小(>50万)。此外,培训一组监督网可以像调谐模型一样快,就像调谐模型调优一样。如果有强大的计算聚类器可用,该模型可以扩展到数十亿个数据。我们报告说,像稳定传播这样的大规模传播模型可以用监督网增强,以便允许条件输入如边图、分割图、关键点等。

内容中包含的图片若涉及版权问题,请及时与我们联系删除