
大家好,这是我们的新专栏——大模型月报(100 篇必读论文)——的第三篇文章,内容主要为当前大模型领域热门研究方向(如文生图、文生视频、文生音乐等)的热门论文。

我们希望,这一专栏能够为大家提供较为全面的大模型最新研究进展。当然,「大模型月报」目前还无法涵盖所有热门论文以及研究方向,望请见谅。
或点击“阅读原文”,获取「2024 必读大模型论文」合集(包括日报、周报、月报,持续更新中~)。
以下,为 2024 年 4 月份,我们收录的一些热门大模型研究论文。文章篇幅较长,共计 4.5 万余字,建议收藏~
第 1 章 文生图
【清华、Meta 提出文生图定制新方法 MultiBooth】来自清华大学和 Meta 的研究团队提出了一种用于从文生图的多概念定制的新型高效技术—— MultiBooth。尽管定制生成方法取得了长足的进步,特别是随着扩散模型的快速发展,但由于概念保真度低和推理成本高,现有方法在处理多概念场景时依然困难。为了解决这些问题,MultiBooth 将多概念生成过程分为两个阶段:单一概念学习阶段和多概念整合阶段。在单概念学习阶段,他们采用多模态图像编码器和高效的概念编码技术,为每个概念学习一个简明且具有辨别力的表征;在多概念整合阶段,他们使用边界框来定义交叉注意图中每个概念的生成区域。这种方法可以在指定区域内创建单个概念,从而促进多概念图像的形成。这一策略不仅提高了概念的保真度,还降低了额外的推理成本。在定性和定量评估中,MultiBooth 都超越了各种基线,展示了其卓越的性能和计算效率。论文链接:https://arxiv.org/abs/2404.14239项目地址:https://multibooth.github.io/【 ID-Aligner:利用奖励反馈学习增强“文生图”身份保持】扩散模型的快速发展催生了各种应用。尤其是身份保持的文本到图像生成(ID-T2I),因其广泛的应用场景(如人工智能肖像和广告)而备受关注。虽然现有的 ID-T2I 方法已经取得了令人瞩目的成果,但仍存在几个关键挑战:1)很难准确保持参考肖像的身份特征;2)生成的图像缺乏美感,尤其是在要求身份保持时;3)无法同时兼容基于 LoRA 和基于 Adapter 的方法。为了提高 ID-T2I 的性能,来自中山大学和字节跳动的研究团队,提出了一种通用反馈学习框架——ID-Aligner。同时,为了解决身份特征丢失的问题,他们提出了身份一致性奖励微调,利用人脸检测和识别模型的反馈来改进生成的身份保存。此外,他们还提出了身份美学奖励微调,利用人类标注的偏好数据奖励和自动构建的字符结构生成反馈,从而提供美学调整信号。得益于其通用反馈微调框架,该方法可轻松应用于 LoRA 和 Adapter 模型,从而实现一致的性能提升。在 SD1.5 和 SDXL 扩散模型上进行的大量实验验证了该方法的有效性。论文链接:https://arxiv.org/abs/2404.15449项目地址:https://idaligner.github.io/【LazyDiffusion:用于交互式图像编辑的懒惰扩散 Transformer】来自 Adobe 研究院和特拉维夫大学的研究团队提出了一种新型扩散 transformer——LazyDiffusion,它能高效地生成局部图像更新。他们以交互式图像编辑应用为目标,在这些应用中,用户从空白画布或图像开始,使用二进制掩码和文本提示指定一系列局部图像修改。他们的生成器分两阶段运行。首先,上下文编码器处理当前画布和用户掩码,生成一个紧凑的全局上下文来适应要生成的区域。其次,以该上下文为条件,基于扩散的 transformer 解码器以“lazy”的方式合成掩膜像素,即只生成掩码区域。之前的工作要么重新生成整个画布,浪费时间和计算,要么将处理范围限制在掩膜周围的狭小矩形区域,完全忽略了全局图像上下文。他们的解码器的运行时间与掩码大小成比例,掩码大小通常很小,而他们的编码器带来的开销可以忽略不计。实验证明,在质量和保真度方面,他们的方法与最先进的内绘方法相比具有竞争力,同时在典型的用户交互中(编辑掩码占图像的 10%),速度提高了 10 倍。论文链接:https://arxiv.org/abs/2404.12382GitHub 地址:https://lazydiffusion.github.io/Snap 研究团队提出了一种新的架构——混合注意力(MoA),用于文本到图像扩散模型个性化。受大型语言模型(LLMs)中使用的专家混合机制(Mixture-of-Experts mechanism)的启发,MoA 在两个注意力路径之间分配生成工作量:个性化分支和非个性化先验分支。MoA 的设计目的是通过将注意力层固定在先验分支中来保留原始模型的先验性,同时通过个性化分支尽量减少对生成过程的干预,该分支学会将主题嵌入到先验分支生成的布局和上下文中。一种新颖的路由机制可以管理各层像素在这些分支中的分布,从而优化个性化和通用内容创建的融合。经过训练后,MoA 就能帮助创建高质量的个性化图像,这些图像包含多个主体,其构图和交互方式与原始模型生成的图像一样多样化。重要的是,MoA 增强了模型原有能力与新增强的个性化干预之间的区别,从而提供了一种以前无法实现的更加独立的主体—语境控制。论文链接:https://arxiv.org/abs/2404.11565项目地址:https://snap-research.github.io/mixture-of-attention/【Controlnet++:利用高效一致性反馈改进条件控制】目前,为了增强文本到图像扩散模型的可控性,ControlNet 纳入了基于图像的条件控制。然而,来自佛罗里达中央大学和字节跳动的研究团队提出,现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。他们提出了一种新方法 Controlnet++,通过显式优化生成图像和条件控制之间的像素级循环一致性,来改善可控生成。具体来说,对于一个输入条件控制,他们使用预训练的判别奖励模型来提取生成图像的相应条件,然后优化输入条件控制与提取条件之间的一致性损失。一个直接的实现方法是从随机噪声中生成图像,然后计算一致性损失,但这种方法需要存储多个采样时间步的梯度,消耗了相当大的时间和内存成本。为了解决这个问题,他们提出了一种有效的奖励策略,通过添加噪声故意干扰输入图像,然后使用单步去噪图像进行奖励微调。这避免了与图像采样相关的大量成本,允许更有效的奖励微调。大量实验表明,Controlnet++ 在各种条件控制下显著提高了可控性。例如,在分割掩码、线条艺术边缘和深度条件方面,它比 ControlNet 分别提高了 7.9% mIoU、13.4% SSIM 和 7.6% RMSE。论文链接:https://arxiv.org/abs/2404.07987强化学习(RL)通过直接优化获取图像质量、美学和指令跟随能力的奖励,改进了扩散模型的引导图像生成。然而,由此产生的生成策略继承了扩散模型的迭代采样过程,导致生成速度缓慢。为了克服这一局限性,一致性模型提出学习一类新的生成模型,直接将噪声映射到数据,从而产生一种只需一次采样迭代就能生成图像的模型。在这项工作中,为了优化文本到图像生成模型从而获得特定任务奖励,并实现快速训练和推理,来自康奈尔大学的研究团队提出了一种通过 RL 对一致性模型进行微调的框架——RLCM,其将一致性模型的迭代推理过程构建为一个 RL 过程。RLCM 在文本到图像生成能力方面改进了 RL 微调扩散模型,并在推理过程中以计算量换取样本质量。实验表明,RLCM 可以调整文本到图像的一致性模型,从而适应那些难以通过提示来表达的目标(如图像压缩性)和那些来自人类反馈的目标(如审美质量)。与 RL 微调扩散模型相比,RLCM 的训练速度明显更快,提高了在奖励目标下测量的生成质量,并加快了推理过程,只需两个推理步骤就能生成高质量图像。论文链接:https://arxiv.org/abs/2404.03673项目地址:https://rlcm.owenoertell.com/【InstantStyle:实现“风格保护”的文生图】基于 Tuning-free 扩散的模型已经在图像个性化和定制领域展现出了巨大潜力。然而,目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先,风格的概念本质上是不确定的,它包含多种元素,如颜色、材料、氛围、设计和结构等等。其次,基于反转的方法容易造成风格退化,往往会导致精细细节的丢失。最后,基于适配器的方法经常需要对每张参考图像进行细致的权重调整,从而实现风格强度和文本可控性之间的平衡。在这项工作中,InstantX 团队首先研究了几个引人注目但却经常被忽视的问题。然后,他们提出了一个用于解决这些问题的框架——InstantStyle,包括两个关键策略:(1)一种直接的机制,将风格和内容与特征空间内的参考图像解耦,其前提是同一空间内的特征可以相互添加或减去;(2)将参考图像特征完全注入特定风格块中,从而防止风格泄漏,并避免了繁琐的权重调整,这通常是参数较多的设计的特点。这一工作展示了优秀的视觉风格化成果,在风格的强度和文本元素的可控性之间取得了最佳平衡。论文链接:https://arxiv.org/abs/2404.02733项目地址:https://instantstyle.github.io/【SPRIGHT:提高“文生图”模型的空间一致性】当前文本到图像(T2I)模型的主要缺陷之一是无法始终如一地生成忠实于文本提示中指定的空间关系的图像。来自亚利桑那州立大学、Intel Labs 的研究团队及其合作者,对这一局限性进行了全面的研究,同时还开发了能达到 SOTA 的数据集和方法。研究团队发现当前的视觉语言数据集不能很好地表现空间关系;为了缓解这一瓶颈,他们从 4 个广泛使用的视觉数据集中抽取了 600 万张图片重新进行标注,进而创建了首个以空间为重点的大规模数据集——SPRIGHT。通过三重评估和分析,他们发现 SPRIGHT 在捕捉空间关系方面比现有数据集有很大改进。为了证明 SPRIGHT 的功效,他们只利用了约 0.25% 的 SPRIGHT,就在生成空间精确图像方面提高了 22%,同时还提高了 FID 和 CMMD 分数。此外,他们发现在包含大量物体的图像上进行训练可大幅提高空间一致性。值得注意的是,通过在小于 500 张图像上进行微调,他们在 T2I-CompBench 上达到了 SOTA,空间分数为 0.2133。论文链接:https://arxiv.org/abs/2404.01197项目地址:https://spright-t2i.github.io/【上海 AI Lab 新研究:将 LVLM 分辨率提升到 4K HD】由于分辨率限制,大型视觉语言模型(LVLM)在理解细粒度视觉内容方面面临挑战。来自上海 AI Lab 和香港中文大学的研究团队提出了 InternLM-XComposer2-4KHD —— 将 LVLM 分辨率提升到 4K HD(3840 x 1600)及更高分辨率。同时,考虑到并非所有场景都需要超高分辨率,它支持从 336 像素到 4K 标准的各种不同分辨率,大大拓宽了其适用范围。研究表明,将训练分辨率扩展到 4K HD 可带来持续的性能提升,而不会触及潜在改进的上限。InternLM-XComposer2-4KHD 在 10 项测试中表现出了与 GPT-4V 和 Gemini Pro 相媲美甚至超越的能力。论文链接:https://arxiv.org/abs/2404.06512Github 地址:https://github.com/InternLM/InternLM-XComposer
第 2 章 文/图生视频
【ID-Animator:零样本身份保持人类视频生成器】生成具有指定身份(ID)的高保真人类视频,已引起内容生成领域的极大关注。然而,现有技术很难在训练效率和身份保持(identity preservation)之间取得平衡,要么需要进行繁琐的逐个微调,要么通常会在视频生成过程中遗漏 ID 细节。来自中国科学技术大学、中国科学院和腾讯的研究团队,提出了一种零样本人类视频生成方法 ID-Animator,它可以在给定单个参考面部图像的情况下,无需进一步训练即可生成个性化视频。ID-Animator 继承了现有的基于扩散的视频生成骨干技术,并配备了人脸适配器,可从可学习的面部潜在查询中编码与 ID 相关的嵌入。为了便于在视频生成过程中提取 ID 信息,他们提出了一个面向 ID 的数据集构建管道,该管道从构建的面部图像池中整合了解耦人类属性和动作字幕技术。在此基础上,他们进一步设计了一种随机人脸参考训练方法,从而从参考图像中精确捕捉与 ID 相关的嵌入,从而提高该模型在特定 ID 视频生成中的保真度和泛化能力。大量实验证明,ID-Animator 在生成个性化人类视频方面达到了 SOTA。此外,他们的方法与流行的预训练 T2V 模型(如 animatediff 和各种社区骨干模型)高度兼容,在需要保持 ID 的视频生成实际应用中具有很高的可扩展性。论文链接:https://arxiv.org/abs/2404.15275GitHub 地址:https://github.com/ID-Animator/ID-Animator【PhysDreamer:通过视频生成,与 3D 物体进行基于物理交互】逼真的物体交互对于创造身临其境的虚拟体验至关重要,然而如何根据新颖的交互合成逼真的 3D 物体动力学仍是一项重大挑战。与无条件或文本条件动态生成不同,动作条件动态生成需要感知物体的物理材料属性,并根据这些属性(如物体刚度)进行 3D 运动预测。然而,由于缺乏真实材料数据,估计物理材料属性是一个未决问题,因为测量真实物体的这些属性非常困难。来自麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学的研究团队提出了一种基于物理学的方法 PhysDreamer ,它利用视频生成模型学习到的物体动力学先验,赋予静态 3D 物体以交互式动态效果。通过提炼这些先验,PhysDreamer 能够合成逼真的物体对外力或智能体操作等新型交互的反应。他们在各种弹性物体示例中演示了这种方法,并通过用户研究评估了合成交互的逼真度。PhysDreamer 通过使静态 3D 物体以物理上可信的方式对交互刺激做出动态响应,向更吸引人、更逼真的虚拟体验迈出了一步。论文链接:https://arxiv.org/abs/2404.13026项目地址:https://physdreamer.github.io/剪贴画是一种预先制作的图形艺术形式,为视觉内容提供了一种方便、高效的说明方式。将静态剪贴画图像转换成动态序列的传统工作流程既费力又费时,其中涉及许多复杂的步骤,如装配、关键动画和中间处理。文本到视频生成技术的最新进展为解决这一问题带来了巨大潜力。然而,直接应用文字视频生成模型往往难以保留剪贴画图像的视觉特征或生成卡通风格的动作,导致动画效果不尽如人意。来自香港城市大学和莫纳什大学提出了一个将静态剪贴画图像转化为由文本到视频先验指导的高质量运动序列系统 AniClipart。为了生成卡通风格的平滑运动,他们首先在剪贴画图像的关键点上定义 Bézier 曲线,作为一种运动正则化形式。然后,通过优化视频分数蒸馏采样(VSDS)损失,将关键点的运动轨迹与所提供的文字提示对齐,该损失在预训练的文字视频扩散模型中编码了足够的自然运动知识。该方法采用了可微分的形状变形算法(As-Rigid-As-Possible shape deformation algorithm),可以在保持变形刚度的同时进行端到端优化。实验结果表明,在文本-视频对齐、视觉特性保持和运动一致性方面,AniClipart 始终优于现有的图像-视频生成模型。展示了 AniClipart 的通用性,通过调整它来生成更广泛的动画格式,如分层动画,允许拓扑变化。论文链接:https://arxiv.org/abs/2404.12347项目地址:https://aniclipart.github.io/【 MagicTime:一种变形延时视频生成模型】目前,文生视频(T2V)技术的进展在从文本描述合成高质量的通用视频方面取得了 SOTA。然而,T2V 中一个很大程度上被忽视的问题是,现有模型没有充分编码真实世界的物理知识,因此生成的视频往往具有有限的运动和较差的变化。来自北京大学和罗切斯特大学的研究团队提出了一种名为 MagicTime 的变形延时视频生成模型,该模型从延时视频中学习真实世界的物理知识,并实现了变形生成。首先,他们设计了一个 MagicAdapter 方案来解耦时空训练,从变形视频中编码更多的物理知识,并转换预训练 T2V 模型来生成变形视频。其次,他们提出了一种适应变形延时视频的动态帧提取策略,它具有更大的变化范围,涵盖了戏剧性的物体变形过程,因此比一般视频体现了更多的物理知识。最后,他们提出了一个魔术文本编码器,以提高对变形视频提示的理解。此外,该研究团队还创建了一个名为 ChronoMagic 的延时视频文本数据集,专门用于解锁变形视频生成能力。实验证明,MagicTime 在生成高质量和动态变形视频方面达到了 SOTA,表明延时视频生成是构建物理世界变形模拟器的一个途径。论文链接:https://arxiv.org/abs/2404.05014项目网站:https://github.com/PKU-YuanGroup/MagicTime【 CameraCtrl:为文生视频模型增加“相机控制”】可控性在视频生成中起着至关重要的作用,因为它允许用户创建所需的内容。然而,现有模型在很大程度上忽视了对相机姿态的精确控制,而相机姿态能够表达更深层次叙事细微差别的电影语言。为了解决这个问题,来自香港中文大学、上海 AI Lab 和斯坦福大学的研究团队提出了 CameraCtrl,为文本到视频(T2V)模型提供精确的相机姿态控制。据介绍,在精确设定相机轨迹参数后,即插即用的相机模块就可以在 T2V 模型上进行训练,而无需其他模型。此外,对各种数据集的效果进行的综合研究表明,相机分布多样、外观相似的视频确实增强了可控性和通用性。实验结果表明,CameraCtrl 能有效实现精确的领域自适应相机控制,这标志着在通过文本和相机姿态输入实现动态和定制化视频叙事方面又向前迈进了一步。论文链接:https://arxiv.org/abs/2404.02101项目地址:https://hehao13.github.io/projects-CameraCtrl/第 3 章 文生音频
【英伟达推出 Audio Dialogues:用于音频和音乐理解的对话数据集】现有的音频理解数据集主要集中在单回合交互(即音频字幕、音频问答)上,用于以自然语言描述音频,从而限制了通过交互式对话理解音频。为了解决这一差距,英伟达研究团队提出了一个包含 163.8k 样本的多回合对话数据集——Audio Dialogues,用于一般音频和音乐。除了对话,Audio Dialogues 还具有问答对,可以一起理解和比较多个输入音频。Audio Dialogues 利用基于提示的方法和来自现有数据集的标题注释,使用大型语言模型(LLM )生成多回合对话。在所提出的数据集上评估了现有的音频增强的大型语言模型,从而证明音频对话的复杂性和适用性。论文链接:https://arxiv.org/abs/2404.07616Github 地址:https://audiodialogues.github.io/【港科大提出 FlashSpeech:高效零样本语音合成】目前,语言模型和扩散模型在大规模零样本语音合成方面取得了显著进展。然而,这两种方法的生成过程都很慢且计算量很大。使用较低的计算预算进行高效语音合成,达到与之前工作相当的质量,仍然是一个重大挑战。来自香港科技大学的研究团队及其合作者,提出了一个大规模的零样本语音合成系统——FlashSpeech,与以前的工作相比,它的推理时间大约减少了 5%。FlashSpeech 建立在潜在一致性模型的基础上,并应用了一种新的对抗一致性训练方法,无需预先训练的扩散模型作为“教师”,即可从头开始训练。此外,新的韵律生成器模块增强了韵律的多样性,使语音的节奏听起来更加自然。FlashSpeech 的生成过程可以通过一个或两个采样步骤高效地完成,同时保持高音频质量和与零样本语音生成音频提示的高相似性。实验结果证明 FlashSpeech 达到了 SOTA。值得注意的是,FlashSpeech 可以比其他零样本语音合成系统快 20 倍,同时在语音质量和相似性方面保持相当的性能。此外,FlashSpeech 通过有效地执行语音转换、语音编辑和多样化的语音采样等任务展示了其通用性。论文链接:https://arxiv.org/abs/2404.14700GitHub 地址:https://flashspeech.github.io/【Stability AI 推出长音乐生成模型,时常可达 4 分 45 秒】 基于音频的音乐生成模型近来取得了重要进展,但迄今为止还无法生成具有连贯音乐结构的完整音乐曲目。在这项工作中,Stability AI 表示,通过对长时空背景的生成模型进行训练,可以生成长达 4 分 45 秒的长篇音乐。据介绍,该模型由一个在高度降采样的连续潜在表征上运行的 diffusion-transformer 组成。根据音频质量和提示对齐度量标准,它在生成结果方面获得了 SOTA,主观测试表明,它能生成具有连贯结构的长篇音乐。论文链接:https://arxiv.org/abs/2404.10301项目地址:https://stability-ai.github.io/stable-audio-2-demo/【Tango 2:通过直接偏好优化对齐基于扩散的文生音频模型】生成式多模态内容在许多内容创作领域日益流行,因为它有可能让艺术家和媒体人员通过快速将他们的想法带到生活中来创建预制作模型。根据文字提示生成音频,是在音乐和电影行业中这类流程的一个重要方面。目前,许多基于文生视频的扩散模型专注于在大量提示音频对数据集上训练日益复杂的扩散模型。然而,这些模型并没有明确地关注概念或事件的存在,以及它们在输出音频中与输入提示相关的时间顺序。来自新加坡科技设计大学的研究团队及其合作者假设关注的是音频生成的这些方面如何在数据有限的情况下提高音频生成的性能。他们使用现有的文本到音频模型 Tango,综合创建了一个偏好数据集,其中每个提示都有一个赢家的音频输出和一些输家的音频输出,供扩散模型学习。从理论上讲,输家的输出可能缺少提示中的一些概念或顺序不正确。他们在偏好数据集上使用 diffusion-DPO 损失对公开可用的 Tango 文生视频模型进行了微调,并表明它在自动和手动评估指标方面优于 Tango 和 AudioLDM2 的音频输出。论文链接:https://arxiv.org/abs/2404.09956GitHub 地址:https://github.com/declare-lab/tango【Melodist:实现包含人声和伴奏的可控文生歌曲模型】歌曲是歌声和伴奏的结合,然而,现有的工作主要集中在歌唱声音合成和音乐生成上,很少有人关注歌曲合成。来自浙江大学的研究团队提出了一项名为“文本到歌曲合成”(text-to-song synthesis)的新任务,其中包含人声和伴奏的生成,他们开发的 Melodist 是一种两阶段文本到歌曲方法,包括歌唱语音合成 (SVS)和人声到伴奏合成 (V2A)。Melodist 利用三塔对比预训练来学习更有效的文本表示,用于可控的 V2A 合成。为了缓解数据的稀缺性问题,他们构建了一个从音乐网站中挖掘出的中文歌曲数据集。在他们的数据集上的评估结果表明,Melodist 可以合成具有相当质量和风格一致性的歌曲。论文链接:https://arxiv.org/abs/2404.09313项目地址:https://text2songmelodist.github.io/Sample/【微软、上交大推出 CoVoMix:实现多个对话者的多轮对话】近来,零样本文本到语音(TTS)建模技术的进步推动了高保真和多样化语音的生成,然而,对话生成以及实现类似人类的自然语音仍然是该领域的一项挑战。在这项工作中,来自微软和上海交通大学的研究团队,提出了一种用于零样本、类人、多扬声器、多轮对话语音生成的新型模型——CoVoMix。据介绍,CoVoMix 能够首先将对话文本转换成多个离散的 token 流,每个 token 流代表单个对话者的语义信息。然后,将这些 token 流输入一个基于流匹配的声学模型,生成混合旋律谱图。最后,使用 HiFi-GAN 模型生成语音波形。另外,他们还设计了一套衡量对话建模和生成效果的综合指标。实验结果表明,CoVoMix 不仅能生成自然、连贯、类似人类的对话,还能让多个对话者进行多轮对话。这些在单通道中生成的对话具有无缝语音转换(包括重叠语音)和其他语言行为(如笑声)的特点。论文链接:https://arxiv.org/abs/2404.06690项目地址:https://www.microsoft.com/en-us/research/project/covomix/【字节推出 VoiceShop:保留原音色,任意修改性别、口音和说话风格】字节跳动提出了一个新型语音转语音框架——VoiceShop,其可以在一次前向传递中修改语音的多个属性,如年龄、性别、口音和说话风格,同时保留输入说话者的音色。以往的工作局限于只能单独编辑这些属性的专用模型,并存在以下缺陷:转换效果不明显,没有针对分布外扬声器的零样本功能,或者合成输出会出现音色泄漏,从而改变说话者的感知身份。该工作在一个简单的模块化框架中提出了解决上述问题的方案,该框架基于一个条件扩散骨干模型,并带有可选的基于归一化流的模块和序列到序列的扬声器属性编辑模块,这些模块的组件可在推理过程中组合或移除,从而满足各种任务的需要,而无需额外的模型微调。论文链接:https://arxiv.org/abs/2404.06674项目地址:https://voiceshopai.github.io/【MuPT:生成式符号音乐预训练 Transformer】来自多伦多大学、中国科学院深圳先进技术研究院的研究团队及其合作者探索了大型语言模型(LLMs)在音乐预训练中的应用。虽然在音乐建模中普遍使用 MIDI 已是公认的事实,但研究结果表明,LLM 本身与 ABC Notation 更为兼容,后者更符合 LLM 的设计和优势,从而提高了模型在音乐创作中的性能。为了解决在生成过程中不同音轨的测量值不一致所带来的挑战,他们提出了一种同步的多音轨 ABC 记谱法(SMT-ABC Notation),旨在保持多个音乐音轨之间的一致性。他们建立了一系列能够处理多达 8192 token 的模型,涵盖了训练集中 90% 的符号音乐数据。此外,他们还探索了符号音乐缩放定律(SMS Law)对模型性能的影响,研究结果为音乐生成的未来研究指明了一个有希望的方向。论文链接:https://arxiv.org/abs/2404.06393项目地址:https://map-mupt.github.io/【 WavLLM:实现鲁棒性和自适应语音大语言模型】近年来,大型语言模型(LLMs)的发展给自然语言处理领域带来了巨大变化,其范围逐渐扩大到多模态感知和生成。然而,如何有效地将听觉功能集成到 LLM 中,尤其是在不同语境下的泛化和执行复杂的听觉任务方面,提出了巨大的挑战。来自香港中文大学、微软的研究团队提出了一种具有双编码器和提示感知 LoRA 权重适配器的鲁棒自适应语音大语言模型——WavLLM,其通过两阶段课程学习方法进行了优化。利用双编码器,研究团队将不同类型的语音信息解耦,利用 Whisper 编码器处理语音的语义内容,利用 WavLLM 编码器捕捉说话者身份的独特特征。在课程学习框架内,WavLLM 首先通过优化混合初级单一任务来建立其基础能力,然后在更复杂的任务(如初级任务的组合)上进行高级多任务训练。为了提高灵活性并适应不同的任务和指令,研究团队在第二个高级多任务训练阶段引入了提示感知的 LoRA 权重适配器。他们在通用语音基准(包括 ASR、ST、SV、ER 等任务)上验证了所提出的模型,并将其应用于专业数据集,如用于 SQA 的高考英语听力理解集和语音思维链(CoT)评估集。实验证明,在相同的模型规模下,所提出的模型在一系列语音任务中都达到了 SOTA,在使用 CoT 方法执行复杂任务时表现出了强大的泛化能力。论文链接:https://arxiv.org/abs/2404.00656第 4 章 文/图生3D
【DreamScene360:无约束文本-3D 场景生成】随着虚拟现实应用的需求日益增长,制作身临其境的 3D 资产也愈发重要。来自加州大学洛杉矶分校、德州大学奥斯汀分校的研究团队,提出了一个文本到 3D 360 度场景生成管道,可在几分钟内为野外环境创建全面的 360 度场景。该方法利用 2D 扩散模型的生成能力和 prompt 的自我完善来创建高质量、全局一致的全景图像。该图像可作为初步的“平面”(2D)场景表示。随后,将其提升为 3D 高斯图像,利用拼接技术实现实时探索。为了生成一致的 3D 几何图形,该管道将 2D 单目深度对齐到全局优化的点云中,从而构建出空间一致的结构。该点云是 3D 高斯中心点的初始状态。为了解决单视角输入中固有的隐形问题,他们对合成视角和输入相机视角施加了语义和几何约束,作为正则化处理。这些约束为高斯的优化提供了指导,有助于重建未见区域。总之,与现有技术相比,该方法能在 360 度视角内提供全局一致的 3D 场景,从而增强身临其境的体验。论文链接:https://arxiv.org/abs/2404.06903项目地址:https://dreamscene360.github.io/近来,根据文本提示或单张图像生成 3D 内容的技术在质量和速度上都取得了显著进步,其主流模式之一是生成一致的多视图图像,然后进行稀疏视图重建。然而,由于直接变形网格表示以接近目标拓扑结构的挑战,大多数方法在稀疏视图重建过程中学习隐式表示(如 NeRF),并通过后处理提取获得目标网格。虽然隐式表示法能有效模拟丰富的 3D 信息,但其训练通常需要较长的收敛时间。此外,隐式领域的后提取操作还会导致不良的视觉伪影。为此,来自中国科学院大学、清华大学、西安电子科技大学和生数科技的研究团队,提出了一种新型单图像到 3D 生成框架——FlexiDreamer,其能以端到端的方式重建目标网格。通过利用称为 FlexiCubes 的基于梯度的灵活提取,该方法避免了后处理带来的缺陷,有利于直接获取目标网格。此外,他们还采用了多分辨率哈希网格编码方案,将编码级别逐步激活到 FlexiCubes 中的隐式字段,从而帮助捕捉几何细节,实现每一步优化。值得注意的是,FlexiDreamer 在单个 NVIDIA A100 GPU 上从单视角图像中恢复密集 3D 结构仅需约 1 分钟,优于之前的方法。论文链接:https://arxiv.org/abs/2404.00987项目地址:https://flexidreamer.github.io/第 5 章 智能体(Agent)
【智谱AI、清华团队推出自动网页导航智能体 AutoWebGLM】大型语言模型(LLM)为许多智能体任务(如网络导航)提供了动力,但由于网页上操作的多样性、HTML 文本超出模型处理能力以及由于网页的开放域性质导致的决策的复杂性,大多数现有智能体在实际网页中的表现远不能令人满意。为此,来自智谱AI 和清华大学的研究团队,在 ChatGLM3-6B 的基础上开发了自动网页导航智能体 AutoWebGLM,其性能超过了 GPT-4。受人类浏览模式的启发,他们设计了一种 HTML 简化算法来表示网页,简洁地保留重要信息。他们采用人类与人工智能混合的方法来建立用于课程训练的网页浏览数据。然后,他们通过强化学习和拒绝采样对模型进行引导,进一步促进网页理解、浏览器操作和高效的任务分解。为了进行更好的测试,他们为真实世界的网页浏览任务建立了一个双语基准——AutoWebBench,并在各种网页导航基准中对 AutoWebGLM 进行了评估,发现了它的改进之处,以及在应对真实环境时所面临的挑战。论文链接:https://arxiv.org/abs/2404.03648GitHub 地址:https://github.com/THUDM/AutoWebGLM【BattleAgent:再现历史事件,对历史战役进行多模态动态模拟】来自罗格斯大学的研究团队及其合作者提出了 BattleAgent,这是一个结合了大型视觉语言模型(LVLM)和多智能体(agent)系统的仿真系统,旨在模拟多个智能体之间以及智能体与其环境之间特定时间内的复杂动态互动。它既能模拟领导者的决策过程,也能模拟士兵等普通参与者的观点,展示了当前智能体的能力,具有智能体与环境之间细粒度多模态交互的特点。它开发了可定制的智能体结构,从而满足特定的情境要求,例如侦察和挖掘战壕等各种与战斗相关的活动。这些组件相互协作,以生动全面的方式再现历史事件,同时从不同的视角洞察个人的思想和情感。BattleAgent 为历史战役建立了详细和身临其境的场景,使单个智能体能够参与、观察和动态响应不断变化的战役场景。这种方法有可能大大加深我们对历史事件的理解,特别是通过个人叙述。由于传统的历史叙事往往缺乏文献记载,而且优先考虑决策者的观点,忽略了普通人的经历,因此这种举措也有助于历史研究。论文链接:https://arxiv.org/abs/2404.15532【MIT CSAIL 推出多模态自动可解释性智能体 MAIA】MIT 计算机科学与人工智能实验室团队提出了一个多模态自动可解释性智能体—— MAIA。MAIA 是一个使用神经模型来自动完成神经模型理解任务(比如特征解释和故障模式发现)的系统。它为预训练的视觉语言模型配备了一系列工具,从而支持对其他模型的子组件进行迭代实验,从而解释其行为。这些工具包括人类研究人员常用的工具:合成和编辑输入,计算来自真实世界数据集的最大激活示例,以及总结和描述实验结果。MAIA 提出的可解释性实验将这些工具组合在一起,用于描述和解释系统行为。他们评估了 MAIA 在计算机视觉模型上的应用。他们首先描述了 MAIA 在图像学习表示中描述(神经元级)特征的能力。在几个经过训练的模型和一个具有配对 ground-truth 描述的合成视觉神经元新数据集上,MAIA 产生的描述与专家人类实验者生成的描述相当。此外,MAIA 可以帮助完成两个额外的可解释性任务:降低对虚假特征的敏感性,以及自动识别可能被错误分类的输入。论文链接:https://arxiv.org/abs/2404.14394项目地址:https://multimodal-interpretability.csail.mit.edu/maia/【AgentKit:使用图而非编码进行流程工程设计】来自卡内基梅隆大学和英伟达的研究团队为多功能智能体(agent)提出了一个直观的 LLM 提示框架——AgentKit,用于从简单的自然语言提示中明确构建复杂的“思维过程”。AgentKit 的基本构件是一个节点,其中包含针对特定子任务的自然语言提示。然后,用户将节点链组合在一起,就像堆砌乐高积木一样。节点链的设计可以明确执行自然结构的“思维过程”。例如,对于撰写论文的任务,可以从以下思维过程开始:1)确定核心信息;2)确定先前的研究差距等。AgentKit 中的节点可以通过不同的设计和组合方式来实现多种高级功能,包括即时分层规划、反思和从交互中学习。此外,由于其模块化性质和模拟人类思维过程的直观设计,一个基本的智能体可以通过简单的子任务提示列表来实现,因此没有任何编程经验的人也可以设计和调整智能体。从定量分析上看,通过 AgentKit 设计的智能体在 WebShop 和 Crafter 上实现了 SOTA。这凸显了 AgentKit 在使 LLM 智能体有效并适用于更广泛应用方面的潜力。论文链接:https://arxiv.org/abs/2404.11483GitHub 地址:https://github.com/holmeswww/AgentKit来自马萨诸塞大学阿默斯特分校、清华大学和北京大学的研究团队及其合作者,探讨了具身多智能体合作问题,在这种情况下,去中心化智能体必须在只有部分自我中心世界观的情况下进行合作。为了在这种情况下有效地制定计划,与在单个智能体场景中学习世界动态不同,他们必须在仅对世界进行部分自我中心视觉观察的情况下,模拟以任意数量智能体的行动为条件的世界动态。为了解决部分可观测性这一问题,他们首先训练生成模型,以便在部分自我中心观测条件下估计整体世界状态。为了能够在此世界状态下精确模拟多组行动,他们建议通过对多个智能体的自然可组合联合行动进行因式分解并组合生成视频,从而学习多智能体合作的组合世界模型。利用这种组合世界模型,结合视觉语言模型来推断其他智能体的行动,就可以使用树状搜索程序来整合这些模块,促进在线合作规划。为了评估这一方法的有效性,他们使用 ThreeDWorld 模拟器创建了两个具有挑战性的多智能体长视野合作任务,并用 2-4 个智能体进行了实验。结果表明,他们的合成世界模型是有效的,而且该框架能使智能体在各种任务和任意数量的智能体中与不同智能体进行高效合作。论文链接:https://arxiv.org/abs/2404.10775GitHub 地址:https://vis-www.cs.umass.edu/combo/游戏智能体(agent)的开发在推动通用人工智能(AGI)的发展中起着至关重要的作用。大型语言模型(LLM)及多模态大型语言模型(MLLM)的进步为游戏 agent 的发展提供了前所未有的机遇,使其在复杂的计算机游戏环境中具备类似人类的决策能力。来自乔治亚理工学院和 Cisco Research 的研究团队从整体角度全面概述了基于 LLM 的游戏 agent。首先,他们介绍了基于 LLM 的游戏 agent 的概念架构,其核心是六个基本功能组件:感知、记忆、思维、角色扮演、行动和学习。其次,他们调查了现有文献中具有代表性的基于 LLM 的游戏 agent 的方法和适应灵活性,涉及六种类型的游戏,包括冒险游戏、交流游戏、竞争游戏、合作游戏、模拟游戏以及制作和探索游戏。最后,他们对这一新兴领域的未来研究和发展方向进行了展望。论文地址:https://arxiv.org/abs/2404.02039GitHub 地址:https://github.com/git-disl/awesome-LLM-game-agent-papers在这项工作中,来自 IBM、微软的研究团队探讨了 AI 智能体实现方面的最新进展,重点关注它们实现复杂目标的能力,这些目标需要更强的推理、规划和工具执行能力。这项工作的主要目标是:1)交流现有 AI 智能体实现的当前能力和局限性;2)分享他们从观察这些系统的运行中获得的见解;3)为 AI 智能体设计的未来发展提出重要的考虑因素。为此,他们概述了单智能体和多智能体架构,确定了设计选择中的关键模式和分歧,并评估了它们对实现既定目标的总体影响。论文链接:https://arxiv.org/abs/2404.11584近来,基于大型语言模型(LLM)的智能体引起了研究界和工业界的广泛关注。与原始 LLM 相比,基于 LLM 的智能体具有自进化(self-evolving)能力,这是解决现实世界中需要长期、复杂的智能体-环境交互问题的基础。支持智能体与环境交互的关键要素是智能体的记忆。虽然以往的研究提出了许多有前景的记忆机制,但这些机制散见于不同的论文中,缺乏系统的综述,无法从整体的角度对这些工作进行总结和比较,也无法抽象出通用而有效的设计模式来启发未来的研究。为此,来自中国人民大学和华为的研究团队对基于 LLM 的智能体的记忆机制进行了全面研究。具体来说,他们首先讨论了基于 LLM 的智能体的“记忆是什么”和“为什么需要记忆”;然后,系统地回顾了以往关于如何设计和评估内存模块的研究;此外,还介绍了许多智能体应用,其中内存模块发挥了重要作用;最后,分析了现有工作的局限性,并指出了未来的重要方向。论文链接:https://arxiv.org/abs/2404.13501第 6 章 对齐(Alignment)
【智谱AI、清华团队推出 ChatGLM-RLHF】ChatGLM 是一项免费使用的人工智能(AI)服务,由 ChatGLM 系列大型语言模型(LLM)提供支持。为增强 ChatGLM 与人类偏好的一致性,来自智谱AI 和清华大学的研究团队推出了一个基于人类反馈的强化学习(RLHF)系统——ChatGLM-RLHF。ChatGLM-RLHF 包括三个主要部分:收集人类偏好数据、训练奖励模型和优化策略。在将 ChatGLM-RLHF 集成到生产中的整个过程中,研究团队遇到并解决了几个前所未有的挑战。他们为稳定的大规模训练提出了减轻奖励差异的策略,利用融合梯度下降实现了模型并行性,并设计了正则化约束,从而避免 LLM 中的灾难性遗忘。实验表明,与 ChatGLM 的监督微调(SFT)版本相比,ChatGLM-RLHF 在配准任务中取得了显著改进。例如,与 ChatGLM-SFT 相比,它在中文对齐任务中的胜率平均提高了 15%。这项工作为 LLM 与人类偏好对齐作出了实践,为 RLHF 实现中的挑战和解决方案提供了见解。论文链接:https://arxiv.org/abs/2404.00934基于人类反馈的强化学习(RLHF)是微调生成模型的一种流行范式,已经产生了 GPT-4 和 Claude3 Opus 等强大的模型。这种框架通常包括两个步骤:从离线偏好数据集学习奖励模型,然后运行在线 RL 来优化学习到的奖励模型。在这项工作中,来自康奈尔大学、普林斯顿大学和 Microsoft Research 的研究团队,利用重置思想提出了一种具有可证明保证的新型 RLHF 算法。受离线偏好数据集提供信息性状态(即标注者偏好的数据)这一事实的启发,他们提出的新算法——数据集重置策略优化(DR-PO)——通过数据集重置将现有的离线偏好数据集集成到在线策略训练程序中:它直接将策略优化器重置为离线数据集中的状态,而不总是从初始状态分布开始。从理论上讲,该研究证明 DR-PO 在有限样本复杂度的一般函数近似条件下,其学习性能至少与离线数据集所涵盖的任何策略一样好。在实验中,他们证明了在 TL;DR 总结和 Anthropic Helpful Harmful 数据集上,在 GPT4 胜率指标下,DR-PO 的生成效果优于近端策略优化(PPO)和方向偏好优化(DPO)。论文链接:https://arxiv.org/abs/2404.08495GitHub 地址:https://github.com/Cornell-RL/drpo在文本到图像的生成任务中,扩散模型的进步提高了生成结果的保真度。然而,这些模型在处理包含多个实体和属性的文本提示时遇到了挑战。注意力分布不均会导致实体泄漏和属性错位问题。要解决这个问题,从头开始训练需要大量的标注数据,而且非常耗费资源。为此,来自新加坡国立大学、山东大学的研究团队提出了一种属性聚焦(attribution-focusing)机制,这是一种通过调节扩散模型的注意力来实现的免训练分阶段机制。他们的核心理念之一是引导模型在不同的时间步集中于提示的相应句法成分。为此,他们在自注意力模块的早期阶段加入了温度控制机制,从而缓解实体泄漏问题。另外,他们在交叉注意模块中集成了以对象为中心的屏蔽方案和分阶段动态权重控制机制,使模型能够更有效地辨别实体之间的语义信息关联。各种配准场景的实验结果表明,该模型能以最小的额外计算成本实现更好的图像-文本对齐。论文链接:https://arxiv.org/abs/2404.13899【MIT、谷歌新研究:基于零样本跨语言对齐的奖励模型转移】根据人类标注的偏好数据对语言模型(LMs)进行对齐,是获得基于 LM 的系统实用且性能良好的的关键一步。然而,多语言人类偏好数据很难大规模获取,因此将这一框架扩展到多种语言具有挑战性。来自麻省理工大学和谷歌的研究团队评估了一种简单的零样本跨语言对齐方法,即在一种源语言的偏好数据上训练奖励模型,然后直接应用于其他目标语言。在总结和开放式对话生成方面,他们表明这种方法在包括人工评估在内的综合评估设置下始终是成功的,在多达 70% 的评估实例中,跨语言对齐模型比非对齐模型更受人类青睐。此外,不同语言奖励模型有时会比同种语言奖励模型产生更好的对齐模型。他们还确定了在没有特定语言数据甚至监督微调时的最佳实践。论文链接:https://arxiv.org/abs/2404.12318第 7 章 安全治理
当前的大型语言模型(LLM)容易受到提示注入、越狱攻击和其他攻击的影响,这些攻击允许攻击者用他们自己的恶意提示覆盖模型的原始指令。OpenAI 研究团队认为,这些攻击的主要漏洞之一是,LLMs 经常将系统提示(比如来自应用程序开发人员的文本)与来自不可信用户和第三方的文本视为相同的优先级。为此,他们提出了一种指令层次(instruction hierarchy)结构,明确定义了当不同优先级的指令冲突时模型应该如何选择。然后,他们提出了一种数据生成方法来演示这种分层指令跟随的行为,该方法指导 LLMs 有选择地忽略低特权指令。他们将这种方法应用于 GPT-3.5,结果表明它大大提高了模型的鲁棒性——即使对于在训练过程中未见过的攻击类型也是如此,同时对标准能力的影响降到最低。论文链接:https://arxiv.org/abs/2404.13208【Google DeepMind 新研究:减轻说服型生成式 AI 的危害】
最近,生成式人工智能(AI)系统已经显示出更先进的说服能力,并逐渐渗透到可以影响决策的生活领域。
然而,由于互惠交换和长时间互动的机会,生成式 AI 呈现了一种新的说服风险。这导致人们越来越关注说服型生成式 AI 的危害,以及如何减轻这些危害,从而突出了对说服型生成式 AI 进行系统研究的必要性。目前说服型生成式 AI 的定义不明确,相关的危害也没有得到充分的研究。现有的减轻危害的方法优先考虑说服结果带来的危害,而不是说服过程带来的危害。
在这项研究中,Google DeepMind 团队及其合作者提出了说服型生成式 AI 的定义,并区分了理性说服型生成式 AI 和操纵型生成式 AI(manipulative generative AI),前者依赖于提供相关事实、合理推理或其他形式的可信证据,后者则依赖于利用认知偏差和启发式方法或歪曲信息。
他们还提出了服型生成式 AI 的危害,包括经济、物理、环境、心理、社会文化、政治、隐私的定义和例子。然后,他们提出了一幅导致说服危害的机制图,概述了可用于减轻说服过程危害的方法,包括操纵分类的提示工程和红队。他们未来的工作将使这些缓解措施具有可操作性,并研究不同类型说服机制之间的相互作用。
论文链接:https://arxiv.org/abs/2404.15058
【Google DeepMind:先进人工智能模型的整体安全与责任评估】先进人工智能模型(AI)的安全性和责任评估是一个关键但尚在发展中的研究和实践领域。在 Google DeepMind 开发高级 AI 模型的过程中,他们创新并应用了一系列安全评估方法。他们总结并分享了他们不断发展的方法以及供广大受众参考的经验教训,其中包括:首先,理论基础和框架对于组织风险领域、模式、形式、指标和目标的重要性是非常宝贵的;其次,安全评估发展的理论和实践都能从合作中受益,从而明确目标、方法和挑战,并促进不同利益相关者和学科之间的见解交流;第三,类似的关键方法、教训和机构适用于责任和安全方面的各种问题 —— 包括既有的和新出现的危害。因此,从事安全评估和安全研究的广泛参与者必须共同努力,开发、完善和实施新的评估方法和最佳实践。报告最后概述了快速推进评估科学、将新的评估纳入 AI 的开发和治理、建立科学依据的规范和标准,以及促进强大的评估生态系统的明确需求。论文链接:https://arxiv.org/abs/2404.14068来自 Google DeepMind、Google Research 的研究团队及其合作者,重点探讨了高级人工智能助理带来的机遇以及伦理和社会风险。他们将高级人工智能助理定义为具有自然语言界面的 AI 智能体(artificial agents),其功能是根据用户的期望,代表用户在一个或多个领域规划和执行一系列行动。他们首先从技术本身入手,概述了人工智能助手、其技术基础和潜在应用范围;然后,探讨了与人工智能价值一致性、幸福感、安全性和恶意使用有关的问题,他们将进一步扩大调查范围,更详细地考虑高级人工智能助手与个人用户之间的关系,探讨操纵和说服、拟人化、信任和隐私等话题,有了这些分析之后,他们将考虑在社会范围内部署高级人工智能助手,重点关注合作、公平与获取、错误信息、经济影响、环境以及如何最好地评估高级人工智能助手;最后,他们为研究人员、开发人员、政策制定者和公共利益相关者提供了一系列建议。分析表明,高级人工智能助手很可能会对我们的个人和集体生活产生深远影响。他们认为,要使人工智能助手有益并与人类价值观一致,就必须对用户、开发者和社会之间相互竞争的诉求和需求做出适当回应。人工智能助手所具备的功能,如更强的智能体能力、自然语言交互能力和高度个性化,对用户特别有帮助。然而,这些特点也使人们容易受到技术的不当影响,因此需要强有力的保障措施。此外,当人工智能助手被大规模部署时,它们之间的互动所产生的连锁效应以及它们对更广泛的机构和社会进程的整体影响问题就会凸显出来。这些动态可能需要技术和政策干预,从而促进有益的合作,实现广泛、包容和公平的成果。最后,鉴于目前的人工智能评估主要侧重于人工智能系统的技术组成部分,因此必须投资于人工智能助手的整体社会技术评估,包括人与人工智能的互动、多智能体和社会层面的研究,从而支持该领域负责任的决策和部署。相关链接:https://deepmind.google/discover/blog/the-ethics-of-advanced-ai-assistants/来自剑桥大学的研究团队及其合作者确定了在确保大型语言模型(LLMs)的一致性和安全性方面的 18 个基本挑战。这些挑战被分为三个不同的类别:对 LLMs 的科学理解,开发和部署方法,以及社会技术挑战。他们根据已确定的挑战,提出了 200 多个具体的研究问题。论文链接:https://arxiv.org/abs/2404.09932近年来,与大型语言模型和文本到图像模型一样,生成式人工智能(GenAI)在各个领域受到了极大的关注。然而,确保这些模型生成负责任的内容对于它们在现实世界中的适用性至关重要。为了应对这一挑战,牛津大学高级研究员 Jindong Gu 探究了文本生成模型和视觉生成模型的实际负责任要求,概述了五个关键考虑因素:生成真实的内容,避免有毒内容,拒绝有害指令,不泄露与训练数据相关的内容,并确保生成的内容可识别。具体来说,他们回顾了满足这些要求的最新进展和挑战。此外,他们讨论并强调了负责任的 GenAI 在医疗保健、教育、金融和人工智能领域的重要性。通过对文本和视觉生成模型的统一视角,该研究团队旨在为实际安全相关问题提供见解,并进一步使社区在构建负责任的 GenAI 方面受益。论文链接:https://arxiv.org/abs/2404.05783【首个根据人类审查的安全指令进行微调的开源多语言模型】预训练语言模型是多种人工智能(AI)应用的基础,但其高昂的训练计算成本限制了其普及性。然而,现有模型面临着多语言能力有限、持续预训练会导致灾难性遗忘(而从头开始预训练的计算成本又很高),以及是否符合人工智能安全和开发法律等各种挑战。Aurora-M 是一个 15B 参数的多语种开源模型,使用英语、芬兰语、印地语、日语、越南语和代码进行训练。Aurora-M 在 StarCoderPlus 的基础上对 4350 亿个额外 token 进行了持续预训练,总训练 token 数超过了 2 万亿个。它是首个根据人类审查的安全指令进行微调的开源多语言模型。Aurora-M 经过了各种任务和语言的严格评估,在多语言环境下,尤其是在安全评估中,表现出了对灾难性遗忘的鲁棒性和优于替代方案的性能。论文链接:https://arxiv.org/abs/2404.00399第 8 章 大模型/AI4Science
【ResearchAgent:基于 LLM 的科学文献迭代研究思想生成】
一些对改善人类生活至关重要的科学研究,由于其固有的复杂性、缓慢的速度和对专业专家的需求而受到阻碍。为了提高它的生产力,来自韩国科学技术院和微软的研究团队,提出了一个大型语言模型驱动的研究思想写作智能体 —— ResearchAgent,它自动生成问题、方法和实验设计,同时根据科学文献迭代对它们进行改进。具体来说,从一篇核心论文为主要焦点来产生想法开始,ResearchAgent 不仅通过连接学术图上的信息来关联出版物,而且根据其基本概念从以实体为中心的知识存储中检索实体,在许多论文中进行挖掘和共享。此外,反映了人类通过同行讨论迭代改进想法的方法,利用多个评审智能体迭代来提供评审和反馈。用人类偏好对齐的大型语言模型来实例化它们,这些模型的评估标准来自实际的人类判断。他们在多学科的科学出版物上验证了 ResearchAgent,展示了其在基于人工和基于模型的评估结果生成新颖、清晰和有效的研究想法方面的有效性。论文链接:https://arxiv.org/abs/2404.07738【清华团队新研究:通过提示工程在 LLM 中整合化学知识】该论文介绍了一项关于整合提示工程中特定领域知识来提高科学领域大型语言模型(LLM)性能的研究。来自清华大学和牛津大学的研究团队设计了一个基准数据集,包括了小分子错综复杂的物理化学特性,在药理学上的可药性,以及酶和晶体材料的功能属性,强调了其在生物和化学领域的相关性和适用性。通过对麦克米伦催化剂、紫杉醇和氧化钴锂等复杂材料的案例研究,证明了该方法的有效性。研究结果表明,领域知识提示可以引导 LLM 生成更准确、更相关的回答,突出了 LLM 在配备特定领域提示后作为科学发现和创新的强大工具的潜力。研究还讨论了特定领域提示工程开发的局限性和未来方向。论文链接:https://arxiv.org/abs/2404.14467多模态人工智能(AI)系统有可能通过解释各种类型的医疗数据来增强临床决策。然而,这些模型在所有医学领域的有效性是不确定的。每个学科都提出了独特的挑战,需要解决最佳性能。当试图将不同的字段集成到单个模型中时,这种复杂性会进一步增加。来自海德堡大学和德累斯顿工业大学的研究团队及其合作者提出了一种多模态医疗 AI 的替代方法,该方法利用大型语言模型(LLM)的通才能力作为中央推理引擎。这个引擎可以自主协调和部署一套专门的医疗 AI 工具。这些工具包括文本、放射学和组织病理学图像解释、基因组数据处理、网络搜索和医学指南文档检索。他们在一系列临床肿瘤学场景中验证他们的系统,这些场景与典型的患者护理工作流程非常相似。研究表明,该系统在使用合适的工具、得出正确的结论、为个别病例提供完整和有用的建议方面具有很高的能力,同时在指导下持续参考相关文献。这项工作证明 LLM 可以有效地计划和执行特定于领域的模型,从而将检索或合成作为自主智能体的新信息,这使他们能够为病人量身定制的临床助理。它还通过允许单独验证和批准每个组件工具来简化法规遵从性。论文链接:https://arxiv.org/abs/2404.04667大型语言模型(LLMs)由于能够处理人类语言并执行未经明确训练的任务而受到广泛关注。这与化学科学息息相关,因为化学科学面临着数据集小而多样的问题,而这些数据集往往是文本形式的。然而,我们对 LLMs 化学推理能力的系统了解仍然非常有限,而这正是改进模型和减少潜在危害所必需的。为此,来自耶拿大学的研究团队及其合作者,提出了一个自动化框架 ChemBench,旨在对照人类化学家的专业知识,严格评估最先进 LLM 的化学知识和推理能力。他们为化学科学的众多子领域策划了 7000 多个问答对,评估了领先的开放式和闭源 LLM,发现最佳模型的平均表现优于最优秀的人类化学家。然而,这些模型在一些对人类专家来说很容易完成的化学推理任务上却表现较差,并提供了过于自信和误导性的预测,比如关于化学品安全概况的预测。这些发现表明,即尽管 LLM 在化学任务中表现出了非凡的能力,但进一步的研究对于提高其在化学科学中的安全性和实用性至关重要。论文链接:https://arxiv.org/abs/2404.01475目前,通用的大型视觉语言模型(VLMs)发展迅速,但在遥感(RS)领域仍表现不佳,这是由于遥感图像的独特性和专业性,以及目前的视觉语言模型的空间感知能力相对有限。现有的遥感专用视觉语言模型(RSVLM)仍有很大的改进潜力,这主要是由于缺乏大规模、高质量的遥感视觉语言数据集。来自武汉大学和上海 AI Lab 的研究团队提出了 HqDC-1.4M,即大规模高质量和详细的 RS 图像标题,其中包含 140 万个图像标题,这不仅增强了 RSVLM 对 RS 图像的理解,还显著提高了模型的空间感知能力,如定位和计数,从而增加了 RSVLM 的帮助。此外,为了解决 RSVLM 中不可避免的“幻觉”问题,他们还开发了首个旨在增强 RSVLM 自我认知能力的数据集——RSSA。通过在典型的 RS 视觉问题解答任务中加入各种无法回答的问题,RSSA 有效地提高了模型输出的真实性并减少了幻觉,从而提高了 RSVLM 的真实性。在这些数据集的基础上,该研究团队提出了H2RSVLM,即 “有用且诚实的遥感视觉语言模型”。H2RSVLM 在多个 RS 公开数据集上取得了优异的性能,能够识别并拒绝回答无法回答的问题,有效地减少了错误生成。论文链接:https://arxiv.org/abs/2403.20213
第 9 章 评测
【MMStar:一种新的大型视觉语言模型评测基准】大型视觉语言模型(LVLM)近来取得了突飞猛进的发展,引发了大量评估其多模态能力的研究。然而,来自中国科学技术大学、香港中文大学和上海 AI Lab 的研究团队深入研究了当前的评测工作,发现了两个主要问题:(1) 许多样本不需要视觉内容,答案可以直接从问题和选项或 LLM 中嵌入的世界知识中推断出来。这种现象在目前的基准中普遍存在。(2)LLM 和 LVLM 训练中存在无意数据泄露。LLM 和 LVLM 在没有视觉内容的情况下仍能回答一些视觉必需的问题,这表明在大规模训练数据中对这些样本进行了记忆。这两个问题都会导致对实际多模态收益的误判,并有可能误导对 LVLM 的研究。为此,该研究团队推出了 MMStar,这是一个新的视觉多模态基准,由人类精心挑选的 1500 个样本组成。MMStar 对 6 种核心能力和 18 个细节轴进行了基准测试,旨在通过精心平衡和纯化的样本来评估 LVLM 的多模态能力。这些样本首先是通过自动管道从当前基准中粗选出来的,然后再由人工进行审核,以确保每个精选样本都具有视觉依赖性、最小的数据泄漏以及先进的多模态能力。此外,他们还开发了两个指标来衡量多模态训练中的数据泄漏和实际性能增益,在 MMStar 上对 16 种领先的 LVLM 进行了评估,以评估它们的多模态能力,并在 7 个基准上使用所提出的指标来研究它们的数据泄漏和实际多模态增益。论文链接:https://arxiv.org/abs/2403.20330项目地址:https://mmstar-benchmark.github.io/【MMT-Bench:大型视觉语言模型综合多模态评测基准】大型视觉语言模型(LVLM)在通用多模态应用(如视觉对话和嵌入式导航)方面取得了长足进步。然而,现有的多模态评测基准仅涵盖有限的多模态任务,只能测试最基本的能力。在这项工作中,来自上海 AI Lab、上海交通大学和香港大学的研究团队及其合作者,提出了一个综合基准 MMT-Bench,用于评估大规模多模态任务中的 LVLM,这些任务需要专家知识和审慎的视觉识别、定位、推理和规划。MMT-Bench 包括 31325 个多选视觉问题,这些问题来自车辆驾驶和模拟导航等各种多模态场景,涵盖多模态理解中的 32 个核心元任务和 162 个子任务。由于任务覆盖面广,MMT-Bench 可以使用任务地图对 LVLM 进行评估,便于发现领域内和领域外的任务。论文链接:https://arxiv.org/abs/2404.16006来自宾夕法尼亚大学、华盛顿大学和艾伦人工智能研究所的研究团队及其合作者,提出了一个多模态语言模型(LLMs)的新基准 Blink,主要专注于其他评测中未发现的核心视觉感知能力。大部分 Blink 任务对于人类来说都能“瞬间”解决(例如,相对深度估计、视觉对应、取证检测和多视角推理)。然而,他们发现这些需要感知的任务对当前的多模态 LLMs 提出了巨大挑战,因为它们无法通过自然语言进行调解。Blink 将 14 项经典的计算机视觉任务改编成 3807 道选择题,并配以单幅或多幅图像和视觉提示。虽然人类的平均准确率为 95.70%,但 Blink 对现有多模态 LLM 的挑战却出人意料,即使是表现最好的 GPT-4V 和 Gemini,准确率也只有 51.26% 和 45.72%,仅比随机猜测高出 13.17% 和 7.63%,这表明这种感知能力尚未在最近的多模态 LLM 中 出现。他们分析还强调,专业的 CV 模型可以更好地解决这些问题,这为未来的改进提供了潜在的途径,Blink 将激励社区帮助多模态 LLMs 赶上人类水平的视觉感知。论文链接:https://arxiv.org/abs/2404.12390项目地址:https://zeyofu.github.io/blink/【Ada-LEval:长上下文 LLM 评估基准】最近,大型语言模型(LLM)界对增强 LLM 处理超长文档的能力表现出越来越大的兴趣。随着各种长文本技术和模型架构的出现,对模型的长文本能力进行精确而详细的评估变得越来越重要。然而,现有的长文本评估基准(如 L-Eval 和 LongBench)基于开源数据集构建长文本测试集,主要侧重于质量保证和摘要任务。这些数据集包括不同长度(从 2k 到 32k+ 不等)的测试样本,这些样本混杂在一起,使得在不同长度范围内评估模型能力具有挑战性。此外,这些数据集也没有涵盖最新 LLM 声称可以实现的超长设置(100k 以上 token)。上海 AI Lab 和上海交通大学的研究团队提出了一种长度适应性基准 Ada-LEval,用于评估 LLM 的长上下文理解能力。Ada-LEval 包括两个具有挑战性的子集:TSort 和 BestAnswer,可对 LLM 的长上下文能力进行更可靠的评估。这些基准支持对测试用例长度的复杂操作,可以轻松生成多达 128k token 的文本样本。他们用 Ada-LEval 评估了 4 个先进的闭源 API 模型和 6 个开源模型。评估结果表明了当前 LLM (尤其是在超长上下文设置中)的局限性。论文链接:https://arxiv.org/abs/2404.06480Github 地址:https://github.com/open-compass/Ada-LEval【卡内基梅隆大学、Meta 新研究:使用“图生文”评估“文生视觉”】尽管生成式人工智能领域取得了重大进展,但由于缺乏有效的衡量标准和标准化基准,综合评估仍具有挑战性。为此,来自卡内基梅隆大学和 Meta 的研究团队提出了 VQAScore,使用视觉问答(VQA)模型,通过计算“此图是否显示文本?”这类问题的“是”的概率来产生对齐分数。尽管 VQAScore 比现有技术更简单,但使用现成模型计算的 VQAScore 在 8 个图像-文本对齐基准中都取得了 SOTA。有趣的是,尽管他们只使用图像进行训练,VQAScore 也可以将文本与视频和 3D 模型对齐。此外,他们还提出了一个更具挑战性的基准——GenAI-Bench,其包含 1600 个组合文本提示,需要解析场景、对象、属性、关系以及比较和逻辑等高阶推理,为 Stable Diffusion、DALL-E 3 和 Gen2 等图像和视频生成模型提供了 15000 多项人类评分。论文链接:https://arxiv.org/abs/2404.01291项目地址:https://linzhiqiu.github.io/papers/vqascore/【IsoBench:基于同构表示的多模态基础模型基准测试】当前,基础模型在仅使用文本或同时使用图像和文本输入时,可以表现出令人印象深刻的能力。但是,它们的能力会随着输入模态的不同而改变吗?来自杜克大学、南加州大学的研究团队提出了一个基准数据集 IsoBench,其中包含数学、科学、算法和游戏四大领域的问题。每个示例都有多种同构输入表示,如视觉、文本和数学表示。IsoBench 提供细粒度的反馈,从而诊断由表示形式造成的性能差距。研究团队表示,在各种基础模型中,在同一问题上,模型对文本表示形式的偏好是一致的。最突出的是,在对所有 IsoBench 问题进行评估时,当输入图片而不是文本时,Claude-3 Opus 的性能要差 28.7 分,GPT-4 Turbo 要差 18.7 分,Gemini Pro 要差 14.9 分。此外,研究团队也介绍了两种提示技术——IsoCombination 和 IsoScratchPad,这两种技术通过考虑不同输入表述的组合和转换来提高模型性能。论文链接:https://arxiv.org/abs/2404.01266
【智谱AI、清华团队提出 ChatGLM-Math,增强 LLM 解决数学问题的能力】 大型语言模型(LLMs)已经展示出对人类语言的出色学习能力,但在需要解决数学问题的实际应用中仍然表现不佳。虽然先前的研究开发了许多策略和数据集来提高 LLM 的数学能力,但要同时保持和提高已部署 LLM 的语言和数学能力仍然是一项挑战。在这项工作中,来自智谱AI 和清华大学的研究团队,定制了“自我批判”(Self-Critique)流程,在 LLM 的对齐阶段解决了这一挑战。他们首先从 LLM 自身训练一个通用的数学批判模型,从而提供反馈信号;然后,依次对 LLM 自身生成的数据收集采用拒绝采样微调(rejective fine-tuning)和直接偏好优化。基于 ChatGLM3-32B,他们在学术数据集和新创建的挑战性数据集 MathUserEval 上进行了一系列实验。结果表明,这一流程显著增强了 LLM 的数学问题解决能力,同时还提高了其语言能力,性能超过了可能是其两倍大的 LLM。论文链接:https://arxiv.org/abs/2404.02893GitHub 地址:https://github.com/THUDM/ChatGLM-Math来自 Meta 的研究团队及其合作者,提出了一种端到端的大型语言模型(LLM)推理加速解决方案——LayerSkip。首先,在训练过程中,他们采用了层间丢弃技术,早期层间丢弃率较低,后期层间丢弃率较高。其次,在推理过程中,他们证明这种训练方法提高了早期退出的准确性,而无需在模型中添加任何辅助层或模块。第三,他们提出了一种新型自我推测解码方案,即在早期层退出,并通过模型的其余层进行验证和校正。与其他推测式解码方法相比,该方法占用的内存更少,并能从共享计算以及草稿和验证阶段的激活中获益。他们在不同大小的 Llama 模型上进行了不同类型的训练实验:从头开始预训练、持续预训练、针对特定数据域的微调以及针对特定任务的微调。他们验证了推理解决方案,结果表明,CNN/DM 文档的摘要处理速度提高了 2.16 倍,编码速度提高了 1.82 倍,TOPv2 语义解析任务的速度提高了 2.0 倍。论文链接:https://arxiv.org/abs/2404.16710【超越思维链(CoT),大模型的“Chain-of-X”范式调查】思维链(CoT)是一种被广泛采用的提示方法,能激发大型语言模型(LLM)令人印象深刻的推理能力。受 CoT 的顺序思维结构的启发,人们开发了许多 Chain-of-X (CoX) 方法,从而应对涉及 LLM 的不同领域和任务中的各种挑战。在这项工作中,来自上海交通大学、加州大学圣地亚哥分校的研究团队及其合作者,全面考察了不同背景下的 LLMs Chain-of-X 方法。具体来说,他们按照节点分类法(即 CoX 中的 X)和应用任务对这些方法进行了分类。他们还讨论了现有 CoX 方法的发现和影响,以及潜在的未来方向。论文链接:https://arxiv.org/abs/2404.15676【SnapKV:免微调,将 KV 缓存的大小降到最低】目前,大型语言模型(LLMs)在处理大量上下文方面取得了显著进展,其中键值(KV)缓存在提高其性能方面发挥了重要作用。然而,随着输入长度的增加,KV 缓存的增长给内存和时间效率带来了挑战。为此,来自伊利诺伊大学厄巴纳香槟分校、Cohere 和普林斯顿大学的研究团队,提出了一种创新的免微调方法 SnapKV,有效地将 KV 缓存的大小降到最低,同时在实际应用中产生了相当的性能。他们发现,该模型中的每个注意力头在生成过程中会持续关注特定的提示注意力特征。同时,这种鲁棒性模式可以从位于提示语末尾的“observation”窗口中获得。利用这一洞察力,SnapKV 通过为每个注意力头选择重要的 KV 位置集群来自动压缩 KV 缓存。该方法大大减少了处理长输入序列时不断增加的计算开销和内存占用。具体来说,在处理 16K token 输入时,SnapKV 实现了稳定的解码速度,与基线相比,生成速度提高了 3.6 倍,内存效率提高了 8.2 倍。同时,在处理 16 个长序列数据集时,它的性能与基线模型相当。此外,只需稍作改动,SnapKV 就可以在单个 A100-80GB GPU 上实现处理多达 380K 的上下文 token,在 Needle-in-a-Haystack 测试中表现出的准确率下降可以忽略不计。进一步的综合研究表明,SnapKV 具有实际应用的潜力。论文链接:https://arxiv.org/abs/2404.14469稀疏混合专家(SMoE)模型可在不显著增加训练和推理成本的情况下扩展模型容量,但存在以下两个问题:专家激活率低,只有一小部分专家被激活用于优化;缺乏对单个 token 中多个语义概念的细粒度分析能力。来自微软、清华大学的研究团队提出了多头混合专家(MH-MoE),它采用多头机制将每个 token 分割成多个子 token。然后,这些子 token 被分配给一组不同的专家并由它们并行处理,然后无缝地重新整合为原始 token 形式。多头机制使模型能够集体关注不同专家的各种表征空间的信息,同时显著提高专家激活度,从而加深对上下文的理解并减轻过度拟合。此外,MH-MoE 易于实现,并与其他 SMoE 优化方法解耦,易于与其他 SMoE 模型集成,从而提高性能。以英语为重点的语言建模、多语言语言建模和掩码多模态建模任务的大量实验,证明了 MH-MoE 的有效性。论文链接:https://arxiv.org/abs/2404.15045【英伟达提出扩散模型采样新方法 Align Your Steps】扩散模型已成为视觉领域及其他领域先进的生成建模方法。然而,扩散模型的一个缺点是采样速度慢,需要通过大型神经网络进行多次连续的函数评估。扩散模型的采样可以看作是通过一组离散的噪声水平(即采样时间表)来求解微分方程。过去的研究主要集中于推导高效的求解器,但很少关注如何找到最佳采样时间表,所有文献都依赖于手工制作的启发式方法。为此,来自英伟达的研究团队提出了一种通用的原则性方法—— Align Your Steps,来优化扩散模型的采样计划,从而获得高质量的输出。他们利用随机微积分的方法,找到了针对不同求解器的扩散模型和数据集的最佳时间表。他们使用各种不同的采样器,在多个图像、视频和 2D 玩具数据合成基准上评估了新方法,并观察到该优化时间表优于以前的手工制作时间表。他们的方法展示了采样计划优化尤其是在几步合成机制中尚未开发的潜力。论文链接:https://arxiv.org/abs/2404.14507项目地址:https://research.nvidia.com/labs/toronto-ai/AlignYourSteps/【TriForce:利用分层投机解码无损加速长序列生成】最近,随着大型语言模型(LLMs)被广泛应用于长内容生成,对高效长序列推理支持的需求日益增长。然而,为避免重复计算而存储的键值(KV)缓存已成为一个关键瓶颈,其大小随序列长度呈线性增长。由于 LLM 的自动递归特性,每生成一个 token 就会加载整个 KV 缓存,从而导致计算核心利用率低而延迟高。虽然已经提出了各种 KV 缓存压缩方法来缓解这一问题,但这些方法都会导致生成质量下降。来自卡内基梅隆大学和 Meta 的研究团队提出了一种可扩展至长序列生成的分层推测解码系统 TriForce。这种方法通过检索利用原始模型权重和动态稀疏 KV 缓存作为草稿模型,作为层次结构中的中间层,并由更小的模型进一步推测,从而减少其草稿延迟。TriForce 不仅为 Llama2-7B-128K 带来了令人印象深刻的速度提升,在 A100 GPU 上实现了高达 2.31 倍的速度,而且还展示了在处理更长上下文时的可扩展性。在两个 RTX 4090 GPU 上的卸载设置中,TriForce 实现了 0.108s/token 的速度,仅为 A100 上自动回归基线速度的一半,而在优化的卸载系统上则达到了 7.78 倍。此外,TriForce 在单个 RTX 4090 GPU 上的性能是 DeepSpeed-Zero-Inference 的 4.86 倍。论文链接:https://arxiv.org/abs/2404.11912GitHub 地址:https://github.com/Infini-AI-Lab/TriForce【Google DeepMind 新研究:多样本上下文学习】目前,大型语言模型(LLMs)最擅长的是 “少样本上下文学习”(ICL)—— 即在推理时从上下文中提供的少数几个示例中学习,而不进行任何权重更新。新扩展的上下文窗口允许用数百或数千个案例来研究 ICL——多样本模式,从少样本到多样本,在各种生成性和判别性任务中观察到显著的性能提升。然而,虽然多样本 ICL 前景广阔,但可能会受到人类生成示例可用数量的瓶颈制约。为此,来自 Google DeepMind 的研究团队探索了两种新的设置:强化 ICL 和无监督 ICL。强化 ICL 使用模型生成的思维链理由来代替人类示例;无监督 ICL 则完全取消了提示中的理由,只用特定领域的问题来提示模型。他们发现,强化型和无监督型 ICL 在多轮推理,尤其是在复杂推理任务中都非常有效。实验证明,与少样本学习不同,多样本学习在覆盖预训练偏差方面是有效的,并可以学习具有数值输入的高维函数。他们的分析还揭示了下一个 token 预测损失作为下游 ICL 性能指标的局限性。论文链接:https://arxiv.org/abs/2404.11018【清华、荣耀提出 SparseDM:迈向稀疏高效扩散模型】扩散模型已被广泛应用于数据生成任务中,然而,其部署耗时长、推理时间长以及对大内存的要求,限制了其在移动设备上的应用。为了提高扩散模型的部署效率,来自清华大学、荣耀的研究团队提出了一种基于改进的 Straight-Through Estimator 的方法。具体来说,他们在预训练好的扩散模型的卷积层和线性层中添加稀疏掩码,然后在微调阶段使用设计渐进稀疏性进行模型训练,并开关推理掩码,从而支持在推理过程中根据 FID 和 MACs 要求灵活选择稀疏性。在基于 Transformer 的 SOTA 模型的四个数据集上进行的实验表明,这一方法可以将 MACs 降低 50%,而 FID 平均仅增加 1.5。在其他 MACs 条件下,与其他方法相比,FID 也低于 1∼137。论文链接:https://arxiv.org/abs/2404.10445【谷歌推出新型 Transformer 架构:反馈注意力就是工作记忆】虽然 Transformer 给深度学习带来了革命性的变化,但二次注意力复杂性阻碍了其处理无限长输入的能力。谷歌研究团队提出了一种新型 Transformer 架构“反馈注意力记忆”(Feedback Attention Memory,FAM),其利用反馈环路使网络能够关注自身的潜在表征。这种设计促进了 Transformer 工作记忆的出现,使其能够处理无限长的序列。TransformerFAM 不需要额外的权重,因此可以与预训练模型无缝集成。实验表明,TransformerFAM 显著提高了 Transformer 在各种模型大小(1B、8B 和 24B)的长上下文任务中的性能。论文链接:https://arxiv.org/abs/2404.09173多模态大型语言模型(MLLMs)的推理速度很慢,这是因为其大型语言模型骨干存在内存带宽瓶颈,并且会自动递归生成 token。来自高通公司的研究团队探讨了如何应用推理解码来提高 MLLM(特别是 LLaVA 7B 模型)的推理效率。研究表明,纯语言模型可以作为使用 LLaVA 7B 进行推理解码的良好草稿模型,从而绕过草稿模型中图像 token 及其相关处理组件的需要。在三个不同任务中进行的实验表明,推理解码可实现高达 2.37% 的内存加速。论文链接:https://arxiv.org/abs/2404.08856【Video2Game:将真实世界场景视频转换为现实和交互式游戏环境】创建高质量的交互式虚拟环境,如游戏和模拟器,通常涉及复杂和昂贵的人工建模过程。来自伊利诺伊大学香槟分校、上海交通大学和康奈尔大学的研究团队提出了一种自动将真实世界场景视频转换为现实和交互式游戏环境的新方法——Video2Game。该系统的有三个核心组件:(1)神经辐射场(NeRF)模块,有效捕捉场景的几何形状和视觉外观(2)一个网格模块,从 NeRF 中提取知识,以更快地渲染(3)物理模块,对物体之间的相互作用和物理动力学进行建模。通过遵循精心设计的管道,人们可以构建现实世界的可交互和可操作的数字副本。在室内和大规模室外场景上对该系统进行了基准测试证明,该方法不仅可以实时产生高度逼真的渲染,还可以在上面构建交互式游戏。论文链接:https://arxiv.org/abs/2404.09833GitHub 地址:https://video2game.github.io/【Megalodon:具有无限文本长度的高效 LLM 预训练和推理】Transformers 的二次方复杂性和较弱的长度外推能力限制了其扩展至长序列的能力,虽然存在线性注意和状态空间模型等二次方以下的解决方案,但根据经验,它们在预训练效率和下游任务准确性方面都不如 Transformers。来自 Meta、南加州大学、卡内基梅隆大学和加州大学圣地亚哥分校的研究团队提出了一种用于高效序列建模、上下文长度不受限制的神经架构 Megalodon。Megalodon 继承了 Mega 架构,并进一步引入了多种技术组件来提高其能力和稳定性,包括复杂指数移动平均线(CEMA)、时间步归一化层、归一化注意力机制和带双跳残差配置的 pre-norm。在与 Llama2 的可控正面对照比较中,Megalodon 在 70 亿参数和 2 万亿训练 Tokens 的规模上取得了比 transformer 更好的效率。Megalodon 的训练损失为 1.70,在 Llama2-7B (1.75) 和 13B (1.67) 之间。论文链接:https://arxiv.org/abs/2404.08801GitHub 地址:https://github.com/XuezheMax/megalodon当前的视觉基础模型不仅可以泛化到任意图像从而完成训练任务,而且它们的中间表征对于检测和分割等其他视觉任务也很有用处。既然这些模型可以对物体进行 2D 分类、划分和定位,那么它们是否也能表示物体的 3D 结构?在这项工作中,来自密歇根大学和 Google Research 的研究团队,分析了视觉基础模型的 3D 意识。他们认为,3D 意识意味着表征(1)编码场景的 3D 结构,(2)在不同视图中对表面进行一致的表示。他们使用特定任务探针和零样本推理程序对冻结特征进行了一系列实验,揭示了当前模型的几个局限性。论文链接:https://arxiv.org/abs/2404.08636GitHub 地址:https://github.com/Cornell-RL/drpo【RecurrentGemma:超越 Transformer,迈向高效开放语言模型】Google DeepMind 团队提出了 RecurrentGemma,一个使用 Google 新颖的 Griffin 架构的开放语言模型。Griffin 将线性递归与局部注意力相结合,在语言上取得了优异的性能。它具有固定大小的状态,从而减少了内存使用,并能够对长序列进行有效的推理。他们提出了一个具有 2B 非嵌入参数的预训练模型和一个指令微调的变体。尽管在更少的 token 上进行训练,但这两个模型都取得了与 Gemma-2B 相当的性能。论文链接:https://arxiv.org/abs/2404.07839【麻省理工大学新研究 JetMoE:10 万美元,达到 Llama2 表现】大型语言模型(LLMs)已经取得了显著的成果,但其日益增长的资源需求已经成为发展强大和可访问的超人类智能的主要障碍。来自麻省理工大学和普林斯顿大学的研究团队提出了 JetMoE-8B,这是一种训练费用不到 10 万美元的新的 LLM,使用来自精心混合的开源语料库的 1.25T token 和 30000 个 H100 GPU 小时进行训练。尽管成本低,但 JetMoE-8B 表现出了令人印象深刻的性能,它超过了 Llama2-7B 模型,JetMoE-8B-chat 超过了Llama2-13B-Chat 模型。结果表明,LLM 训练可能比通常认为的更具成本效益。JetMoE-8B 基于高效的稀疏门控专家混合(SMoE)架构,由注意力和前馈专家组成。这两层都是稀疏激活的,允许 JetMoE-8B 具有 8B 参数,而每个输入 token 仅激活 2B,与 Llama2-7B 相比,减少了约 70% 的推理计算。此外,JetMoE-8B 是高度开放和学术友好的,只使用公共数据集和训练代码。该团队详细介绍了所有训练参数和数据混合,从而促进未来开发开放式基础模型的努力。这种透明度旨在鼓励在可访问和高效的 LLMs 领域的合作和进步。论文链接:https://arxiv.org/abs/2404.07413Github 地址:https://github.com/myshell-ai/JetMoE【Ferret-v2:提高大型语言模型的引用和接地能力】来自苹果公司、哥伦比亚大学和加州大学的研究团队提出了 Ferret-v2。Ferret-v2 具有三个关键设计:(1)任何分辨率基础和参考:一种灵活的方法,可以毫不费力地处理更高的图像分辨率,提高模型处理和理解图像更详细的能力。(2)多粒度视觉编码:通过集成额外的 DINOv2 编码器,模型可以更好地学习全局和细粒度视觉信息的多样化底层上下文。(3)三阶段训练范式:除了图像标题对齐外,在最终指令微调之前,还提出了一个高分辨率密集对齐的阶段。实验表明,由于其高分辨率缩放和细粒度的视觉处理,Ferret-v2 比 Ferret 和其他先进方法有了很大的改进。论文链接:https://arxiv.org/abs/2404.07973【厦大、清华、微软提出 Rho-1:不是所有 token 都是你需要的】以往的语言模型预训练方法对所有训练 tokens 统一应采用 next-token 的预测损失。然而,来自厦门大学、清华大学和微软的研究团队认为“并不是语料库中的所有 token 对语言模型训练都同样重要”。他们初步分析深入到语言模型的 token-level 训练动态,揭示了不同 token 的不同损失模式。利用这些见解,他们提出了名为 Rho-1 的新语言模型。与学习预测语料库中每下一个 token 的传统 LMs 不同,Rho-1 使用选择性语言建模(SLM),它选择性地训练与期望分布一致的有用 tokens。这种方法包括使用参考模型对预训练 token 进行评分,然后将集中损失的语言模型训练在具有较高超额损失的 token 上。在 15B OpenWebMath 语料库中进行持续预训练时,Rho-1 在 9 个数学任务中的少样本准确率绝对提高了 30%。经过微调,Rho-1-1B 和 7B 在 MATH 数据集上分别取得了 SOTA,仅用 3% 的预训练 tokens 匹配 DeepSeekMath。此外,当对 80B 个通用 tokens 进行预训练时,Rho-1 在 15 个不同的任务上实现了 6.8% 的平均增强,提高了语言模型预训练的效率和性能。论文链接:https://arxiv.org/abs/2404.07965Github 地址:https://github.com/microsoft/rho【UC 伯克利提出 LLoCO:离线学习长上下文】目前,由于自注意力机制的二次计算和内存开销以及生成过程中大量的 KV 缓存大小等问题,处理长上下文对于大型语言模型(LLMs)来说仍然是一个挑战。加州大学伯克利分校团队提出了一种新的方法来解决这个问题,通过上下文压缩和域内高效参数微调来离线学习上下文。该方法使 LLM 能够创建原始上下文的简明表示,并有效地检索相关信息以准确回答问题。他们提出了 LLoCO——一种使用 LoRA 结合上下文压缩、检索和参数高效调优的技术。他们的方法扩展了 4k token LLaMA2-7B 模型的有效上下文窗口,以处理多达 128k 的 tokens。他们在几个长上下文问答数据集上评估了该方法,证明 LLoCO 在推理期间使用的 token 在减少 30 倍的情况下,显著优于上下文学习。LLoCO 实现了高达 7.62 倍的加速比,并极大地降低了长文档问答的代价,是一种高效的长文本问答解决方案。论文链接:https://arxiv.org/abs/2404.07979视觉语言模型(VLM)通常由一个视觉编码器(如 CLIP)和一个语言模型组成,前者解释编码特征,后者解决下游任务。然而,由于视觉编码器的能力限制,VLM 仍然存在一些缺陷,如对某些图像特征“视而不见”、视觉幻觉等。在这项工作中,来自谷歌、洛桑联邦理工学院的研究团队探讨了如何拓宽 VLM 的视觉编码能力。他们对解决 VLM 任务的几种具有不同归纳偏差的视觉编码器进行了全面的基准测试,我们发现,没有一种编码配置能在不同任务中始终保持最佳性能,而具有不同偏置的编码器的性能却惊人地相似。受此启发,他们提出了一种名为 BRAVE 的方法,其能将来自多个冻结编码器的特征整合为一种更通用的表示方法,可直接作为输入输入到冻结 LM 中。BRAVE 在广泛的字幕和 VQA 基准上实现了 SOTA,并显著减少了 VLMs 的上述问题;与现有方法相比,它所需的可训练参数数量更少,表示形式也更紧凑。论文链接:https://arxiv.org/abs/2404.07204项目地址:https://brave-vlms.epfl.ch/【谷歌新研究:高效的无限上下文 Transformer】谷歌团队提出了一种高效的方法,可将基于 Transformer 的大型语言模型(LLM)扩展到无限长的输入,同时限制内存和计算量。该方法的一个关键组成部分是一种新的注意力技术——Infini-attention。据介绍,Infini-attention 在 vanilla 注意力机制中加入了压缩记忆,并在单个 Transformer 块中建立了掩码局部注意力和长期线性注意力机制。他们在长上下文语言建模基准、50 万长度的书籍摘要任务(1B 和 8B LLM)上证明了该方法的有效性。论文链接:https://arxiv.org/abs/2404.07143大规模的高质量训练数据对于提高模型的性能非常重要。在使用具有理由(推理步骤)的数据进行训练后,模型将获得推理能力。然而,由于标注成本较高,高质量推理数据集相对稀缺。为了解决这个问题,华为团队提出了自我激励学习(Self-motivated Learning)框架。该框架激励模型本身在现有数据集上自动生成理由。基于多个理由的正确性固有排名,该模型通过学习生成更好的理由,从而提高推理能力。具体来说,他们利用等级来训练奖励模型,从而评估推理的质量,并通过强化学习来提高推理的性能。Llama2 7B 在多个推理数据集上的实验结果表明,该方法显著提高了模型的推理能力,甚至在某些数据集上优于 text-davinci-002。论文链接:https://arxiv.org/abs/2404.07017尽管 LLM 广泛存在,但其能力和在不同语言中的可用性仍有很大差距。解决这些问题的一种方法是采用现有的预训练 LLM,并继续在新语言上对其进行训练。虽然之前的工作已经对语言适应性进行了尝试,但围绕最佳实践和方法论的许多问题尚未涉及。AI 芯片初创公司 SambaNova Systems 对 LLM 适应新语言的情况进行了全面调查。他们的研究涵盖了这一过程中的关键部分,包括词汇扩展、直接偏好优化和低资源语言中人类对齐的数据稀缺问题。他们将这些实验扩展到 9 种语言和 2 种参数范围(7B 和 70B)。此外,他们将该模型与 Llama 2、Aya-101、XGLM、BLOOM 和现有语言专家进行了比较,结果优于之前发布的基线。论文链接:https://arxiv.org/abs/2404.05829【增强物联网智能:基于 Transformer 的强化学习方法】物联网(IoT)的普及使得互联设备产生的数据激增,为复杂环境中的智能决策带来了机遇和挑战。然而,传统的强化学习(RL)方法由于处理和解释物联网应用中固有的复杂模式和依赖关系的能力有限,往往难以充分利用这些数据。来自亚喀巴科技大学研究团队及其合作者提出了一种新颖的框架,它将 transformer 架构与近端策略优化 (PPO) 相集成,以应对这些挑战。通过利用 transformer 的自我关注机制,他们的方法增强了 RL 智能体在动态物联网环境中的理解和行动能力,从而改进了决策过程。该研究团队在从智能家居自动化到工业控制系统等各种物联网场景中展示了此方法的有效性、决策效率和适应性的显著提高。该研究团队详细探讨了 transformer 在处理异构物联网数据中的作用,评估了该框架在不同环境中的性能,并与传统的 RL 方法进行了对比。结果表明,该方法使 RL 智能体在驾驭复杂物联网生态系统方面取得了SOTA 。论文链接:https://arxiv.org/abs/2404.04205参数高效微调(PEFT)方法试图通过更新少量权重来调整大模型。然而,之前的许多可解释性研究表明,表征可以编码丰富的语义信息,这表明编辑表征可能是一种更强大的替代方法。为此,来自斯坦福大学和 Pr(Ai)²R Group 的研究团队通过开发一系列表征微调(ReFT)方法来实现这一假设。据介绍,ReFT 方法在冻结的基础模型上运行,并学习针对特定任务对隐藏表征的干预。他们定义了 ReFT 系列的一个强实例,即低秩线性子空间 ReFT(LoReFT)。LoReFT 可直接替代现有的 PEFT,其学习干预的参数效率是之前 SOTA PEFT 的 10-50 倍。在八项常识推理任务、四项算术推理任务、Alpaca-Eval v1.0 和 GLUE 上,LoReFT 在效率和性能之间实现了最佳平衡,几乎总是优于最先进的 PEFT。论文链接:https://arxiv.org/abs/2404.03592GitHub 地址:https://github.com/stanfordnlp/pyreft【Google DeepMind 新研究:通过神经压缩文本训练 LLM】来自 Google DeepMind 和 Anthropic 的研究团队探讨了在高度压缩文本上训练大型语言模型(LLM)的想法。标准的分词 tokenizer 只能将文本压缩一小部分,而神经文本压缩器可以实现更高的压缩率。如果有可能直接在神经压缩文本上训练 LLM,这将在训练和服务效率方面带来优势,且更容易处理长文本跨度。实现这一目标的主要障碍在于,强压缩往往会产生不透明的输出,不适合学习。特别是,通过算术编码进行压缩的文本不容易被 LLM 学习。为了克服这一问题,研究团队提出了一种新颖的压缩技术“等信息窗口”(Equal-Info Windows),它将文本分割成多个区块,每个区块压缩成相同的比特长度。利用这种方法,他们展示了对神经压缩文本的有效学习,学习效果随着规模的扩大而提高,并在易错性和推理速度基准上远远超过了字节级基准。对于使用相同参数数量训练的模型,这一方法比分词 tokenizer 的迷惑性更差,但它的优点是序列长度更短。较短的序列长度需要较少的自回归生成步骤,从而减少了延迟。最后,他们对有助于提高可学习性的特性进行了广泛分析,并就如何进一步提高高压缩 tokenizer 的性能提出了具体建议。论文链接:https://arxiv.org/abs/2404.03626【智谱AI、清华团队新研究:理解语言模型涌现能力新视角】最近,许多研究对“语言模型中的涌现能力是大型模型所独有的”这一观点提出了质疑。这种怀疑来自两个方面:(1)较小的模型也能表现出较高的涌现能力;(2)对用于衡量这些能力的非连续性指标存在疑问。来自智谱 AI 和清华大学的研究团队提出了从预训练损失的角度来研究涌现能力,而不是模型大小或训练计算量。研究团队证明,具有相同预训练损失但模型和数据大小不同的模型,在各种下游任务中产生的性能是相同的。他们还发现,无论指标的连续性如何,当一个模型的预训练损失低于一个特定阈值时,它就会在某些任务上表现出涌现能力。而在达到这一阈值之前,其性能仍停留在随机猜测的水平上。这启发了研究团队将涌现能力重新定义为那些在预训练损失较低的模型中表现出来的能力,并强调这些能力不能仅仅通过推断预训练损失较高的模型的性能趋势来预测。论文链接:https://arxiv.org/abs/2403.15796【清华团队推出 Eurus:用偏好树推进 LLM 推理通才的发展】来自清华大学、伊利诺伊大学香槟分校和面壁智能的研究团队及其合作者,提出了一套为推理而优化的大型语言模型(LLM)——Eurus。据介绍,经过对 Mistral-7B 和 CodeLlama-70B 的微调,Eurus 模型在一系列涵盖数学、代码生成和逻辑推理问题的基准测试中,取得了开源模型中的 SOTA。值得注意的是,Eurus-70B 通过涵盖 5 项任务的 12 个测试的综合基准测试,在推理方面击败了 GPT-3.5 Turbo,并在 LeetCode 和 TheoremQA 两项基准测试中分别取得了 33.3% 和 32.6% 的 pass@1 准确率,以超过 13.3% 的优势超越了现有的开源模型。Eurus 的强大性能主要归功于 UltraInteract,这是一个新近收集的大规模、高质量对齐数据集,专为复杂推理任务而设计。UltraInteract 可用于监督微调和偏好学习。对于每条指令,它都包含一棵偏好树,其中包括:(1)统一格式的具有不同规划策略的推理链;(2)与环境和评论的多轮交互轨迹;以及(3)促进偏好学习的配对数据。论文链接:https://arxiv.org/abs/2404.02078GitHub 地址:https://github.com/OpenBMB/Eurus【Octopus v2:用于超级智能体的端侧语言模型】语言模型在各种软件应用,尤其是与自动工作流程相关的任务中显示出了有效性。这些模型具有调用函数的关键能力,这对创建智能体至关重要。尽管云环境中的大规模语言模型性能很高,但它们往往与隐私和成本问题相关。目前,用于函数调用的设备上模型面临着延迟和准确性的问题。来自斯坦福大学的研究团队提出了一种新方法 Octopus v2,它能使一个拥有 20 亿个参数的设备在准确性和延迟方面超越 GPT-4 的性能,并将上下文长度减少 95%。与采用基于 RAG 的函数调用机制的 Llama-7B 相比,这种方法将延迟降低了 35 倍,并且将延迟降低到了适合在生产环境中的各种边缘设备上部署的水平,符合实际应用的性能要求。论文链接:https://arxiv.org/abs/2404.01744【基于语言模型奖励的视频大型多模态模型直接偏好优化】偏好建模技术,如直接偏好优化(DPO),已被证明能有效提高大型语言模型(LLM)的泛化能力。然而,在涉及视频指令跟随的任务中,提供信息反馈,尤其是检测生成反应中的幻觉,仍然是一项重大挑战。以前的研究已经探索过使用大型多模态模型(LMM)作为奖励模型来指导偏好建模,但它们与相应视频相比,准确评估生成回复的事实性的能力尚未得到证实。来自卡内基梅隆大学的研究团队及其合作者提出了一种新型框架,该框架利用详细的视频字幕作为视频内容的代理,使语言模型能够将这些信息作为辅助证据,用于对视频问题解答(QA)预测进行评分。该方法与直接将视频帧作为输入的 GPT-4V 模型的奖励机制保持了鲁棒的一致性。此外,研究还表明,通过 DPO 应用这种定制奖励机制可显著提高视频 LMM 在视频 QA 任务中的性能。论文链接:https://arxiv.org/abs/2404.01258GitHub 地址:https://github.com/RifleZhang/LLaVA-Hound-DPO【苹果提出 ReALM:用大模型解析各种参考信息】参考解析一直以来都是一个重要问题,对于理解和成功处理不同类型的上下文至关重要。这种上下文既包括先前的转折,也包括与非对话实体相关的上下文,例如用户屏幕上的实体或后台运行的实体。虽然大型语言模型(LLM)在各种任务中都显示出极其强大的功能,但其在参考解析中的应用,尤其是在非对话实体方面的应用,仍未得到充分利用。苹果公司团队通过如何将参考解析转换为语言建模问题,展示了如何利用 LLMs 创建一个极其有效的系统来解析各种类型的参考信息,尽管涉及的实体形式(如屏幕上的实体)在传统上不利于简化为纯文本模式。在不同类型的参考文献中,该研究团队展示了与功能类似的现有系统相比所取得的巨大进步,他们的最小模型在屏幕参考文献方面的绝对收益超过 5%,此外,他们的最小模型与 GPT-4 的性能相当,而较大模型则大大优于 GPT-4。论文链接:https://arxiv.org/abs/2403.20329【Google DeepMind 推出 Gecko:实现强大的检索性能】谷歌团队新提出的 Gecko 是一种紧凑、通用的文本嵌入模型。Gecko 利用一个关键理念实现了强大的检索性能:将大型语言模型(LLM)中的知识提炼到检索器中。该模型的提炼过程分为两步,首先使用 LLM 生成多样化的合成配对数据。接下来,为每个查询检索一组候选段落,并使用相同的 LLM 对正向段落和反向段落进行重新标注,从而进一步提高数据质量。Gecko 的紧凑性证明了这种检索方法的有效性。在海量文本嵌入基准测试(MTEB)中,嵌入维度为 256 的 Gecko 优于嵌入维度为 768 的所有现有项目。具有 768 个嵌入维度的 Gecko 平均得分达到 66.31,与 7 倍更大的模型和 5 倍更高维度的嵌入相抗衡。论文链接:https://arxiv.org/abs/2403.20327【Jamba:混合 transformer-Mamba 语言模型】来自 AI21 Labs 的研究团队介绍了一种基于新型混合 transformer-Mamba 混合专家(MoE)架构的新型基础大型语言模型 Jamba。具体来说,Jamba 将 transformer 层和 Mamba 层的区块交错在一起,同时享受两个模型系列的优势。在其中一些层中添加了 MoE,以增加模型容量,同时保持活动参数使用的可管理性,这种灵活的架构允许针对特定资源和目标进行配置。在他们实施的特定配置下,最终获得了一个可容纳在单个 80GB GPU 中的强大模型。与 vanilla transformer 相比,大规模构建的 Jamba 可提供较高的吞吐量和较小的内存占用,同时在标准语言模型基准测试和长语境评估中表现出一流的性能。值得注意的是,该模型在高达 256K token 上下文长度的情况下也能表现出强劲的性能。该研究团队研究了各种架构决策,例如如何结合 transformer 和 Mamba 层,以及如何混合专家,并证明其中一些决策在大规模建模中至关重要,还描述了 Jamba 的训练和评估所揭示的这些架构的几个有趣特性,并计划发布各种消融运行的检查点,从而鼓励对这种新颖架构的进一步探索。论文链接:https://arxiv.org/abs/2403.19887GitHub 地址:https://www.ai21.com/jamba目前,由于具有数据依赖性和大规模学习能力,深度学习的最新进展主要依赖于 transformer。然而,这些架构中的注意力模块在时间和空间上与输入大小呈二次方关系,限制了对长序列建模的可扩展性。尽管最近有人尝试为多维数据(如图像和多变量时间序列如图像和多变量时间序列)设计高效的骨干架构,但现有的模型要么与数据无关,要么无法实现维间和维内通信。最近,选择性状态空间模型(Selective State Space Models),通过高效的硬件感知,在长序列建模方面显示出了巨大的潜力。受 SSM 成功的启发,来自康奈尔大学和纽约大学的研究团队提出了 MambaMixer,这是一种具有数据相关权重的新架构,它采用了跨 token 和通道的双重选择机制,称为选择性 token 和通道混合器(Selective Token and Channel Mixer)。MambaMixer 利用加权平均机制连接选择性混合器,允许各层直接访问早期特征。作为概念验证,他们设计了基于 MambaMixer 模块的视觉 MambaMixer(ViM2)和时间序列 MambaMixer(TSM2)架构,并探索了它们在各种视觉和时间序列预测任务中的性能。该研究团队研究结果强调了在 token 和通道之间进行选择性混合的重要性。在 ImageNet 分类、物体检测和语义分割任务中,ViM2 的性能与成熟的视觉模型不相上下,并优于基于 SSM 的视觉模型。在时间序列预测中,TSM2 与最先进的方法相比取得了出色的性能,同时显著改善了计算成本。这些结果表明,虽然 transformer、跨通道注意力和 MLP 足以在时间序列预测中取得良好的性能,但两者都不是必需的。论文链接:https://arxiv.org/abs/2403.19888【微软发布 Phi-3 技术报告:手机上的高功能语言模型】微软发布了 Phi-3 系列模型,包括 phi-3-mini、phi-3-small 和 phi-3-medium。其中,phi-3-mini 是一个基于 3.3 万亿个 token 训练的 38 亿参数语言模型,根据学术基准和内部测试结果,其总体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美(例如,phi-3-mini 在 MMLU 上的得分率为 69%,在 MT-bench 上的得分率为 8.38),而且体积很小,可以部署在手机上。微软团队表示,Phi-3 系列模型的创新点在于他们的训练数据集,它是 phi-2 所用数据集的放大版,由经过大量过滤的网络数据和合成数据组成。他们还进一步调整了模型的鲁棒性、安全性和聊天格式。此外,他们还提供了一些初步的参数缩放结果,包括针对 4.8T token 训练的 7B 和 14B 模型,即 phi-3-small 和 phi-3-medium,这两个模型的能力都明显高于 phi-3-mini(例如,在 MMLU 上分别为 75% 和 78%,在 MT-bench 上分别为 8.7 和 8.9)。论文链接:https://arxiv.org/abs/2404.14219【清北新研究:用于网络领域的大模型——工作流程、进展与挑战】网络领域的特点是高度复杂和快速迭代,需要丰富的专业知识来完成网络任务,包括网络设计、诊断、配置和安全。这些任务本身的复杂性,再加上网络技术和协议的不断变化,给基于机器学习的传统方法带来了巨大障碍。这些方法需要大量的标注数据、特定领域的特征工程和频繁的再训练以适应新的场景,因此往往难以实现网络中复杂任务的通用化和自动化。然而,最近出现的大型语言模型(LLM)为解决这些挑战带来了新的可能性。大型语言模型在自然语言理解、生成和推理方面表现出了非凡的能力。这些在大量数据基础上训练出来的模型可以为网络领域带来益处。一些研究人员已经探索了 LLM 在网络领域的应用,并取得了可喜的成果。通过回顾最新进展,来自清华大学和北京大学的研究团队提出了一个抽象的工作流程,用来描述将 LLM 应用于网络的基本过程。他们分门别类地提出了现有工作的亮点,并详细解释了它们在工作流程的不同阶段是如何运作的。此外,还深入探讨了所遇到的挑战,讨论了潜在的解决方案,并概述了未来的研究前景。他们希望这项调查能为研究人员和从业人员提供真知灼见,促进这一跨学科研究领域的发展。论文链接:https://arxiv.org/abs/2404.12901【Reka 团队推出三款多模态语言模型:Core、Flash 和 Edge】来自 Reka 的研究团队提出了 Reka Core、Flash 和 Edge,一系列由 Reka 从头开始训练的强大多模态语言模型。Reka 模型能够处理文本、图像、视频和音频输入并进行推理,他们讨论了其中一些模型的训练细节,并提供了全面的评估结果。实验表明,Reka Edge 和 Reka Flash 不仅是 SOTA 模型,而且还优于许多更大的模型。同时,他们能力最强、规模最大的模型 Reka Core 在自动评估和 blind human 评估中都接近 SOTA。在图像问题解答基准(如 MMMU、VQAv2)上,Reka Core 的表现与 GPT4-V 不相上下。在多模态聊天方面,Reka Core 在第三方 blind 评估设置下被评为第二最受欢迎的模型,表现优于 Claude 3 Opus 等其他模型。在文本基准上,blind Core 不仅在一组成熟基准(如 MMLU、GSM8K)上的表现与其他前沿模型相比具有竞争力,而且在人工评估上也优于 GPT4-0613。在视频问题解答(感知测试)方面,Core 的表现优于 Gemini Ultra。论文链接:https://arxiv.org/abs/2404.12387项目地址:https://showcase.reka.ai/近年来,大型语言模型(LLMs)以其丰富的世界知识和工具使用和推理能力,促进了许多 LLM 规划算法的发展。然而,LLMs 还不能准确解决复杂的组合优化问题。为此,MIT 团队提出了一个框架,使 LLM 能够将旅行规划问题正式表述为可满足性模理论(SMT)问题并加以解决,并使用 SMT 求解器交互式地自动解决组合搜索问题。SMT 求解器能保证输入约束条件的可满足性,而 LLM 则能与他们的框架进行基于语言的交互。当输入约束条件无法满足时,基于 LLM 的框架将通过使用 SMT 求解器进行自动推理,以交互方式向用户提供修改其旅行要求的建议。他们使用 TravelPlanner 对该框架进行了评估,成功率达到 97%,还创建了一个包含国际旅行基准的单独数据集,并在无法满足初始用户查询时,使用这两个数据集来评估交互式规划框架的有效性。根据人类的不同偏好,该框架可以生成有效的计划,数据集的平均成功率为 78.6%,TravelPlanner 的平均成功率为 85.0%。论文链接:https://arxiv.org/abs/2404.11891【AgentsCoDriver:用大模型驱动多车协同驾驶】近年来,互联和自动驾驶技术发展迅速。然而,目前的自动驾驶系统主要基于数据驱动方法,在可解释性、泛化和持续学习能力方面存在不足。此外,单车自动驾驶系统缺乏与其他车辆协作和协商的能力,而这对自动驾驶系统的安全性和效率至关重要。为了解决这些问题,来自香港城市大学和香港大学的研究团队用大型语言模型(LLM)开发了一个新颖的框架—— AgentsCoDriver,以实现多车协同驾驶。AgentsCoDriver 由五个模块组成:观察模块、推理引擎、认知记忆模块、强化反射模块和通信模块。它可以通过与环境的不断交互,长期积累知识、教训和经验,从而使自己具备终身学习的能力。此外,利用通信模块,不同的智能体可以在复杂的交通环境中交换信息,实现协商与协作。论文链接:https://arxiv.org/abs/2404.06345【苹果新研究 Ferret-UI:基于多模态 LLM 的移动 UI 理解】最近,多模态大型语言模型(MLLMs)有一些新的进展。然而,这些通用领域的 MLLMs 在理解用户界面(UI)屏幕并与之有效交互的能力方面往往存在不足。苹果团队提出了 Ferret-UI,这是一种为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有参考、基础和推理能力。考虑到 UI 屏幕通常呈现出更长的宽高比,并且包含比自然图像更小的感兴趣的对象(如图标,文本),他们在 Ferret 上合并了 “任意分辨率” 来放大细节并利用增强的视觉功能。具体来说,每个屏幕根据原始宽高比划分为 2 个子图像(即纵向划分为纵向划分为横向划分为纵向划分为纵向划分)。两个子图像在发送到 LLM 之前分别进行编码。他们从广泛的基本 UI 任务中精心收集训练样本,例如图标和识别,查找文本和小部件列表。这些示例都经过格式化,以便使用区域注释进行指导,从而方便精确的参考和基础。为了增强模型的推理能力,他们进一步编译了高级任务的数据集,包括详细描述、感知、交互对话和功能推理。经过对策划数据集的训练,Ferret-UI 达到了 SOTA。对于模型评估,他们建立了一个包含上述所有任务的综合基准。论文链接:https://arxiv.org/abs/2404.05719大型语言模型(LLM)在语言理解和生成方面展示了强大的能力,促进了广泛的应用。然而,关于如何以最小的试错成本和计算资源有效地将 LLM 扩展到超过 500 亿个参数的详细开源方法却明显不足。在这项工作中,来自北京智源人工智能研究院、中国电信的研究团队及其合作者,提出了一个 520 亿参数的开源多语言大型语言模型 Tele-FLM(又名 FLM-2),其具有稳定、高效的预训练范式和增强的事实判断能力。Tele-FLM 在文本语料库的 BPB 测试中展示了优秀的多语言语言建模能力。此外,在英文和中文基础模型评估中,它与涉及较大预训练 FLOP 的开源模型(如 Llama2-70B 和 DeepSeek-67B)不相上下。除了模型权重之外,他们还分享了核心设计、工程实践和训练细节。论文链接:https://arxiv.org/abs/2404.16645最近在指令跟随模型方面取得的进步使用户与模型的交互更加友好和高效,从而扩大了模型的适用范围。在平面设计领域,由于技能和资源有限,非专业用户往往难以设计出具有视觉吸引力的布局。在这项工作中,加州大学圣巴巴拉分校、Adobe 研究团队提出了一个新颖的多模态指令跟随框架,允许用户通过指定画布尺寸和设计目的,如书籍封面、海报、宣传册或菜单,轻松地将视觉元素排列成定制布局。他们开发了三个布局推理任务来训练模型理解和执行布局指令的能力。在两个基准测试中的实验表明,该方法不仅简化了非专业人员的设计流程,且性能超过了少样本 GPT-4V 模型,在 Crello 上的 mIoU 高出了 12%。这一进展凸显了多模态指令跟随模型在自动化和简化设计流程方面的潜力。论文链接:https://arxiv.org/abs/2404.15271大型语言模型(LLMs)的可重复性和透明度,对于推进开放研究、确保结果的可信性、以及对数据和模型偏差以及潜在风险进行调查,至关重要。苹果研究团队推出了一种先进的开放语言模型 OpenELM。OpenELM 使用分层缩放策略,在 transformer 模型的每一层中有效地分配参数,从而提高了准确性。例如,在参数预算约为 10 亿的情况下,OpenELM 的准确率比 OLMo 提高了 2.36%,而所需的预训练 token 却减少了 2 倍。与之前只提供模型权重、推理代码以及在私有数据集上进行预训练的做法不同,OpenELM 包含了在公共可用数据集上对语言模型进行训练和评估的完整框架,包括训练日志、多个检查点和预训练配置。此外,他们还发布了将模型转换为 MLX 库的代码,从而在苹果设备上进行推理和微调。论文链接:https://arxiv.org/abs/2404.14619GitHub地址:https://github.com/apple/corenet
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢