大模型又可以称为Foundation Model模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代,其所带来的结果提升十分显著,超越了很多领域中针对研究问题设计特定算法实现的提升。
本周精选了10篇大模型领域的优秀论文,分别来自Meta、微软、MIT、谷歌等机构。
1.Text-To-4D Dynamic Scene Generation
Meta发布第一个文本生成4D场景论文Make-A-Video3D
作者:Uriel Singer,Shelly Sheynin,Adam Polyak,Oron Ashual,Iurii Makarov......
本文提出了一种从文本描述中生成三维动态场景的方法,使用4D动态神经元场(NeRF)优化了场景的外观、密度和运动一致性,由此产生的动画视频输出可以从任何摄像头位置和角度看到,并可以用任何3D环境中合成。MAV3D不需要任何3D或4D数据,并且仅在Text Image对和未标记视频上进行训练。
2.ClimaX: A foundation model for weather and climate
ClimaX:第一个有效使用异质气候数据集进行扩展的数据驱动预训练模型
作者:Tung Nguyen,Johannes Brandstetter,Ashish Kapoor,Jayesh K. Gupta,Aditya Grover
基于机器学习的天气和气候建模方法的目的是直接解决预报或预测任务。然而,这些方法使用精确的局部时间数据集进行训练,这使得缺乏数字模型的通用性。我们开发并展示了Climax,一种灵活且通用的数据驱动大脑学习模型,它可以使用具有异构特征的多样化天气数据集进行训练。
3.Dissociating language and thought in large language models: a cognitive perspective
作者:Kyle Mahowald,Anna A. Ivanova,Idan A. Blank,Nancy Kanwisher,Joshua B. Tenenbaum,Evelina Fedorenko
在本文中,我们审视了大型语言模型(LLM)在两个不同方面的能力:“形式语言技能”和“功能语言技能”。基于认知神经学研究的证据,我们表明,人类对要求形式语言技能的任务表现出令人印象深刻(尽管很差),而功能能力则吸引了几种类型的外语能力的集合。我们认为,现代LLM应该被视为形式语言技能的模块,而现实生活使用者需要将不仅核心语言模块、而且多个非语言特定的认知能力相结合或开发。整体上,这种区别有助于揭示周围LLM的潜力,并提供一条建立关于理解和使用语言的方法的路径。
4.MusicLM: Generating Music From Text
谷歌MusicLM可生成各种复杂音乐,发布第一个为文本音乐生成任务收集的评估数据集MusicCaps
作者:Andrea Agostinelli,Timo I. Denk,Zalán Borsos,Jesse Engel,Mauro Verzetti,Antoine Caillon,Qingqing Huang......
我们介绍了MusicLM,一种从文本描述中生成高清晰音乐的模型。它将条件音乐生成作为连贯的层次序列来构建序列建模任务,在24K频率下产生音乐,持续几分钟。我们的实验表明,该系统在音质和遵守文本描述方面都优于以前的系统。此外,我们证明,MusicLM可以被conditioned为文本和鼓调的风格,因为它可以改变呼叫和尖叫的旋律。为了支持未来的研究,我们公开发布了音乐字符串,一个由55万个音乐文本对组成的5亿个单词组成的语料库。
5.ChatGPT is not all you need. A State of the Art Review of large Generative AI models
ChatGPT is not all you need,一文综述6大公司9类生成式AI模型
作者:Roberto Gozalo-Brizuela,Eduardo C. Garrido-Merchan
在过去两年中,已经发表了几种类型的大量生成性模型。这些模型能够执行任务,例如作为基本问题和答案系统或自动创建艺术图像。因此,这些生成性模型对行业及其社会的影响非常大。本文旨在简明地描述主要模块是受生成AI影响的部门。
6.Large language models can segment narrative events similarly to humans
作者:Sebastian Michelmann,Manoj Kumar,Kenneth A. Norman,Mariya Toneva
人类对事件的感知有一个非常重要的前提。研究人员通常通过从几个观察者中提取行为注释来获得此类信息。在这里,我们提出了一种替代计算方法,在大型语言模型GPT3中使用大规模语料库,而不是使用人类注释。我们证明了GPT3可以将连贯的叙事文本分割为事件,GPT3注释的事件与人类事件注释有很大的相关性。此外,这些GPT提取的注释达到了“共识”解决方案的近似程度。
7.DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature
斯坦福大学 | DetectGPT:利用概率曲率检测文本是否大模型生成
作者:Eric Mitchell,Yoonho Lee,Alexander Khazatsky,Christopher D. Manning,Chelsea Finn
AI华同学综述(大模型驱动):在本文中,我们首先证明了文本从大型语言模型的收集倾向于占据模型的概率函数负面曲线区域。然后,我们定义了一个新的偏差方法来衡量给定的句子是否是自动生成的。这种方法不需要训练单独的分类器、收集真实或发送的段落数据或明确标记输出的文本,只使用由受欢迎的语言模型(例如T5)计算的统计概率。我们发现DetectGPT比现有的零射检测方法更具有区分性。
8.SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient
SWARM Parallelism: 大型模型训练的去中心化并行算法
作者:Max Ryabinin,Tim Dettmers,Michael Diskin,Alexander Borzunov
在本文中,我们考虑了训练大型模型的替代设置:使用廉价的预处理实例或从多个地区挖掘现有资源。我们在这些条件下分析了现有模型平行算法的性能,并找到了这些条件下的训练大模型的局面。基于这些发现,我们提出了斯瓦尔姆平行性,这是一个设计用于不连接、异构和无可信的设备的模型平行学习算法。
9.Large Language Models Are Reasoning Teachers
作者:Namgyu Ho,Laura Schmid,Se-Young Yun
在本文中,我们重新审视了用于实现小型语言模型复杂推理的方法。我们提出了一种通过调整非常大的词性标记生成解释实验的适当方法。我们评估了我们的方法在各种任务和模型大小上对公开提供 LMs进行评估。
10.Language Models sounds the Death Knell of Knowledge Graphs
作者:Kunal Suri,Atul Singh,Prakhar Mishra,Swapna Sourav Rout,Rajesh Sabapathy
自然语言处理(NLP)已被广泛使用来处理这些数据。深层学习的深度学习特别适用于大规模语言模型,如伯特。然而,为了确保结果的可行性,NLP专家需要规范和标准化它们。本文表明,利用知识图表解决这一领域问题的最佳方法是使用语言模型。我们展示了在医疗保健领域使用大型语言模型的实验,以证明这种方法具有与知识图表相同的功能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢