本文部分内容选自AMiner科技。大模型又可以称为Foundation Model模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代,其所带来的结果提升十分显著,超越了很多领域中针对研究问题设计特定算法实现的提升。

 

1. GPT-4 Technical Report
https://hub.baai.ac.cn/view/24839 
我们报告了GPT-4的发展,这是一个大规模、多向模型,它可以处理图像和文本输入,并产生文本输出。虽然在许多现实场景中能力较弱,但GPT-4在各种职业和学术评级上都表现出人类水平的性能,包括通过参加专业考试获得10%以上的得分率。
2. Meet in the Middle: A New Pre-training Paradigm
大多数语言模型(LMs)在向右推导的模式下训练和应用。然而,这项假设忽略了使用完整序列信息在培训期间利用其潜力带来的好处,以及在推理过程中具有双方上下文的可能性。本文提出了一种新的前训练范式,该范式将学习数据效率和词汇化能力提高。第一种是训练目的,即将左到右LM的预测与左到右LM的预测相匹配。第二个是双向推理程序,允许两个词汇化。我们证明了我们的前训练范式的有效性,并通过广泛的实验表明它优于强基线。
https://hub.baai.ac.cn/view/24828 
3. Baldur: Whole-Proof Generation and Repair with Large Language Models
本文描述了一种自动验证软件属性的方法:我们使用大型语言模型,在自然语言文本和编码上训练,并对证据进行精确校准。我们将这些模型与一个精心校准的修复模型相结合,进一步提高证明能力。作为其主要贡献,这项研究首次证明了:(1)使用变换器生成整数线性假设是可能的,并且与基于搜索的技术一样有效,(2)赋予学习的模型额外上下文,例如先验未遂的错误尝试和最终的误报信息,产生了整数线性假设。此外,实验结果表明,巴尔杜和索尔可以为剩下的6.5%。
https://hub.baai.ac.cn/view/24775 
4. An Overview on Language Models: Recent Developments and Outlook
语言建模研究文本串序列的概率分布。它是自然语言处理(NLP)中最重要的基本任务之一。广泛用于文本生成、语音识别、机器翻译等应用程序。一般的语言模型(CLM)旨在以因果的方式预测语言序列的概率。相反,预先训练的语言模型(PLM)涵盖更宽泛的概念,并可用于both因果顺序建模和下流应用程序的修剪。
https://hub.baai.ac.cn/view/24816
5. One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
本文提出了一种统一的传播框架(称为UniDiffuser),用于在一个模型中集成所有相关于一组多模态数据的分布。我们的关键洞察是学习将局部、条件和联合分布的无监督预测作为受影响的数据噪声的自动估计。在这些数据中,波动级别(即时间步骤)的不同阶段可以以不同的方式不同。基于统一的视图,UniDiffuser同时学习所有分布,而无需对原始传播模型进行任何修改。
https://hub.baai.ac.cn/view/24804 
6. High-throughput Generative Inference of Large Language Models with a Single GPU
基于有限内存的大型语言模型推理传统上只能依赖多达几个高精度激励器。本文开始研究使用有限资源(如单一的GVP)进行高度可扩展的高性能LLM推理的研究。我们提出了 FlexGen,一个在有限内存下运行低频效应生成器的高速生成器。通过一种线性规划优化器,它搜索高效模式来存储和访问传感器。
https://hub.baai.ac.cn/view/24826 
7. Tag2Text: Guiding Vision-Language Model via Image Tagging
本文描述了Tag2Text,一种视图语言预训练(VLP)框架的扩展,该框架将图像标注纳入视觉语言模型,以指导视觉语言特征学习。与以前使用对象标签或手动标记的文本相比,我们的方法利用从其对应的文本中提取的标签来学习一个图像标记者,并且提供指南。基于此,Tag2Text可以应用大规模注释无关的图像标记,并提供比物体更高的相似标记类别。因此,Tag2Text实现了比原始文本中使用的单个标记更高的标记识别能力。此外,通过采用标记指导,Tag2Text有效地提高了基于生成和对齐任务的视图语言模型的性能。
https://hub.baai.ac.cn/view/24815 
8. PaLM-E: An Embodied Multimodal Language Model
大规模语言模型在广泛的复杂任务上都优于单一的大规模模型。然而,允许真正的全局推理(如机器人问题)在现实世界中提出了挑战。我们提出了实例语言模型来直接将真实的感知变体融入语言模型,并由此建立出词和感觉之间的联系。输入是多向图形连续传感器句子,它们相互映射视觉、持续状态估计和文本内容编码。我们训练这些编码,并与预先训练的大规模语言模型相结合,用于多个具体的实例任务,包括顺序机器操作规划、图像问答和标题注释。我们的评估表明,该模型能够解决各种表现性解释任务,从多种观察范式开始,以及具有积极的转换。
https://hub.baai.ac.cn/view/24717
9. Prismer: A Vision-Language Model with An Ensemble of Experts
该论文提出了一种名为Prismer的视觉-语言模型,其亮点在于:1. 数据和参数高效:Prismer使用一个领域专家的集合来进行训练,只需要训练少量组件,大多数网络权重从现成的预训练领域专家中继承并在训练期间保持冻结状态,这样可以节省大量的训练数据和参数。2. 多领域专家:Prismer利用来自各种领域的专家知识,有效地汇集这些专家知识,并将其适应各种视觉-语言推理任务中。3. 端到端训练:Prismer还可以进行端到端训练,只要提供足够的标注数据即可。4. 性能优异:在实验中,Prismer在需要少量数据和少量训练任务中的性能与当前最先进的模型竞争,同时具有高效和可扩展性的优点。
https://hub.baai.ac.cn/view/24769 
10. A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT
这项调查考察了生成模型历史、基本特征和未来挑战。从单向互动的角度来看,我们介绍了文本和图像的生成任务和相对模型。我们还讨论了现有的开放问题和未来挑战。
https://hub.baai.ac.cn/view/24761 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除