建议收藏！100篇必读论文｜大模型月报（2024.03）

大家好，这是我们的新专栏——大模型月报（100 篇必读论文）——的第一篇文章，内容主要为当前大模型领域热门研究方向（如文生图、文生视频、文生音乐等）的热门论文。

我们希望，这一专栏能够为大家提供较为全面的大模型最新研究进展。当然，「大模型月报」目前还无法涵盖所有热门论文以及研究方向，望请见谅。

欢迎大家在评论区多提建议～

想要第一时间获取每日最新大模型热门论文？
请添加微信 Tobethenum1，加入大模型论文分享群，务必备注“大模型日报”。
ps：我们日常会分享日报、周报，后续每月也会出一期月报，敬请期待～

以下，为 2024 年 3 月份，我们收录的一些热门大模型研究论文。文章篇幅较长，共计 5 万余字，建议收藏～

第 1 章文生图

【CogView3：通过 Relay Diffusion 实现更精细、更快速的“文生图”】

文生图系统的最新进展主要是由扩散模型推动的。然而，单级文本到图像扩散模型在计算效率和图像细节细化方面仍面临挑战。为了解决这个问题，来自清华大学和智谱AI 的研究团队提出了 CogView3——一个能提高文本到图像扩散性能的创新级联框架。

据介绍，CogView3 是第一个在文本到图像生成领域实现 relay diffusion 的模型，它通过首先创建低分辨率图像，然后应用基于中继（relay-based）的超分辨率来执行任务。这种方法不仅能产生有竞争力的文本到图像输出，还能大大降低训练和推理成本。

实验结果表明，在人类评估中，CogView3 比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%，而所需的推理时间仅为后者的 1/2。经过提炼（distilled）的 CogView3 变体性能与 SDXL 相当，而推理时间仅为后者的 1/10。

论文链接：https://arxiv.org/abs/2403.05121

【文生图新方法：连接不同语言模型和生成视觉模型】

随着文生图扩散模型的引入，文生图技术取得了重大进展。这些模型通常由解释用户提示的语言模型和生成相应图像的视觉模型组成。随着语言和视觉模型在各自领域的不断进步，探索用更先进的对应模型替换文生图扩散模型中的组件大有可为。因此，一个更广泛的研究目标是研究将任何两种不相关的语言和生成视觉模型整合到文本到图像的生成中。

来自香港大学、香港中文大学和香港科技大学的研究团队探讨了这一目标，并提出了一个能将不同的预训练语言模型和生成视觉模型集成到文生图中的 pipeline——LaVi-Bridge。通过利用 LoRA 和适配器，LaVi-Bridge 提供了一种灵活的即插即用方法，无需修改语言和视觉模型的原始权重。它与各种语言模型和生成视觉模型兼容，可适应不同的结构。

在这一框架内，研究团队证明了加入高级模块（如更先进的语言模型或生成式视觉模型）可显著提高文本对齐或图像质量等能力。为了验证 LaVi-Bridge 的有效性，研究团队进行了广泛的评估。

论文链接：https://arxiv.org/abs/2403.07860

项目地址：https://shihaozhaozsh.github.io/LaVi-Bridge/

【华为新研究：“文生图”的有效个性化和风格化】

文生图（T2I）的个性化和风格化目标是指导预先训练好的扩散模型分析用户引入的新概念，并将其纳入预期风格。最近，参数高效微调（PEFT）方法已被广泛采用来解决这一任务，极大地推动了这一领域的发展，但现有的高效微调方法仍难以在 T2I 生成过程中实现有效的个性化和风格化。

为了解决这个问题，华为团队提出了 block-wise LoRA 方法，对不同的 SD 块进行细粒度微调，从而生成忠实于输入 prompts 和目标身份的图像，并具有所需的风格。实验证明了这一方法的有效性。

论文链接：https://arxiv.org/abs/2403.07500

【华为提出 PixArt-Σ：可以生成 4K 分辨率图像的扩散 Transformer 模型】

来自华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究团队提出了一个能够直接生成 4K 分辨率图像的Diffusion Transformer模型（DiT）——PixArt-Σ，它与其前身 PixArt-α 相比有了长足的进步，图像的保真度明显提高，并能更好地与文本提示保持一致。

PixArt-Σ 的一个主要特点是其训练效率。利用 PixArt-α 的基础预训练，它通过纳入更高质量的数据，从“弱”基线发展到“强”模型，我们称之为“弱到强训练”过程。PixArt-Σ 的进步体现在两个方面：一是高质量的训练数据：PixArt-Σ 融合了更高质量的图像数据，以及更精确、更详细的图像说明。二是高效 token 压缩，研究团队在 DiT 框架内提出了一种新的注意力模块，可同时压缩键（keys）和值，从而显著提高效率并促进超高分辨率图像的生成。

得益于这些改进，PixArt-Σ 实现了卓越的图像质量和用户提示功能，同时模型大小（0.6B 参数）明显小于现有的文本到图像扩散模型，如 SDXL（2.6B 参数）和 SD Cascade（5.1B 参数）。此外，PixArt-Σ 能够生成 4K 图像，支持制作高分辨率海报和壁纸，有效地促进了电影和游戏等行业高质量视觉内容的生产。

论文链接：https://arxiv.org/abs/2403.04692

项目地址：https://pixart-alpha.github.io/PixArt-sigma-project/

【杨立昆团队提出图像世界模型：在视觉表征学习中学习和利用世界模型】

联合嵌入预测架构（JEPA）通过利用世界模型进行学习，被认为是一种很有前途的自监督方法，但以往仅限于预测输入中的缺失部分。

在这项研究中，深度学习三巨头之一、图灵奖获得者、Meta 首席科学家 Yann LeCun（杨立昆）及其团队，探索了如何将 JEPA 预测任务泛化到更广泛的破坏类型上，并提出了图像世界模型（IWM），这是一种超越遮蔽图像建模的方法，可以学习预测潜在空间中全局光度变换的影响。

他们研究了学习性能良好的图像世界模型的秘诀，并证明它依赖于三个关键方面：条件、预测难度和能力。该研究还证明，通过微调可以调整 IWM 学习到的预测性世界模型，从而解决不同的任务；微调后的 IWM 世界模型与之前的自监督方法性能相当，甚至更胜一筹。

最后，他们还展示了利用 IWM 学习可以控制所学表征的抽象程度，学习不变表征（如对比方法）或等变表征（如遮蔽图像建模）。

论文链接：https://arxiv.org/abs/2403.00504

【将“有界注意力”带入文生图扩散模型】

文本到图像的扩散模型在生成多样化和高质量图像方面展现出了强大的能力。然而，它们往往难以忠实捕捉包含多个主体的复杂输入提示的预期语义。

近来，为了提高用户控制能力，大量的从布局到图像的扩展方法被提出，旨在定位特定 token 所代表的主题。然而，这些方法往往会产生语义不准确的图像，尤其是在处理多个语义或视觉相似的主题时。

为此，特拉维夫大学与 Snap 研究团队共同研究并分析了造成这些局限性的原因。他们发现，主要问题源于去噪过程中主体间不经意的语义泄漏。这种泄漏可归因于扩散模型的注意力层，它往往会混合不同主体的视觉特征。

为了解决这些问题，他们提出了“有界注意力”（Bounded Attention）技术，这是一种无需训练的方法，可在采样过程中限制信息流。有界注意力可以防止主体间的有害信息泄漏，即使在复杂的多主体条件下，也能引导生成以促进每个主体的个性。

通过大量实验，证明了该研究团队的方法能够生成更符合给定提示和布局的复杂主题。

论文链接：https://arxiv.org/abs/2403.16990

项目地址：https://omer11a.github.io/bounded-attention/

【小米新研究：带图像条件的一步式扩散模型 SDXS】

目前，扩散模型的最新进展使其处于图像生成的最前沿。然而，尽管扩散模型性能优越，也并非没有缺点；它们的特点是架构复杂、计算量大，迭代采样过程会导致明显的延迟。

为了缓解这些局限性，小米研究团队提出了一种双重方法，包括模型微型化和减少采样步骤，旨在显著降低模型延迟。该方法利用知识蒸馏来简化 U-Net 和图像解码器架构，并引入了一种利用特征匹配和分数蒸馏的一步 DM 训练技术。他们还介绍了 SDXS-512 和 SDXS-1024 两个模型，它们在单 GPU 上的推理速度分别达到约 100 FPS（比 SD v1.5 快 30 倍）和 30 FP（比 SDXL 快 60 倍）。

论文链接：https://arxiv.org/abs/2403.16627

项目地址：https://idkiro.github.io/sdxs/

【港大、阿里新研究：只需一张图，轻松即时定制个性化照片】

来自香港大学、阿里巴巴和蚂蚁集团的研究团队推出了一种实用工具 FlashFace，用户只需提供一张或几张参考人脸图像和文字提示，就能轻松地即时个性化自己的照片。

FlashFace 有别于现有的人类照片定制方法，具有更高的身份保真度和更好的指令跟随性，这得益于两个微妙的设计。

一是该技术将人脸身份编码为一系列特征图，而不是像以前的技术那样编码为一个图像 token，从而使模型能够保留参考人脸的更多细节（如疤痕、纹身和脸型）。

二是在文本到图像的生成过程中，FlashFace 引入了一种分离整合策略来平衡文本和图像引导，从而缓解了参考人脸和文本提示之间的冲突（例如，将成人个性化为“儿童”或“老人”）。

大量实验证明了 FlashFace 在各种应用中的有效性，其中包括人像个性化、语言提示下的人脸互换、将虚拟人物变成真人等。

论文链接：https://arxiv.org/abs/2403.17008

项目地址：https://jshilong.github.io/flashface-page/

【Meta 新研究：通过自动提示优化提高文本到图像的一致性】

文本到图像（T2I）生成模型能够生成美观、逼真的图像。但这些模型仍难以生成与输入提示一致的图像，有时甚至无法正确捕捉对象的数量、关系和属性。

现有的提高提示-图像一致性的解决方案面临以下挑战：(1) 通常需要对模型进行微调；(2) 只关注附近的提示样本；(3) 受图像质量、表示多样性和提示与图像一致性之间不利权衡的影响。

Meta 团队及其合作者提出了一个通过提示进行 T2I 优化的框架 OPT2I，该框架利用大语言模型（LLM）来提高 T2I 模型中提示-图像的一致性。该框架从用户提示开始，以一致性得分最大化为目标迭代生成修改后的提示。研究团队在 MSCOCO 和 PartiPrompts 这两个数据集上进行的广泛验证表明，OPT2I 在保留 FID 并提高生成数据与真实数据之间的召回率的同时，可将初始一致性得分提高 24.9%（DSG 分数）。

论文链接：https://arxiv.org/abs/2403.17804

【沃尔玛新研究：利用文生图大模型生成个性化电子商务横幅广告】

Stable Diffusion等文生图模型为艺术创作提供了大量机会。有研究调查了文生图模型在增强许多创意艺术家作品方面的应用。许多电子商务平台采用手动流程生成横幅广告，这不仅耗时，在可扩展性方面也有局限。

沃尔玛公司的研究团队提出了利用文生图模型，根据在线购物者的互动情况，为他们生成具有动态内容的个性化网页横幅（banners）广告。这种方法的新颖之处在于无需人工干预即可将用户的交互数据转换为有意义的提示。为此，研究团队利用大型语言模型从项目元信息中系统地提取属性元组，然后通过提示工程将属性传递给文生图模型。研究结果表明，这一方法可以为用户创建高质量的个性化横幅。

论文链接：https://arxiv.org/abs/2403.05578

第 2 章文/图生视频

【综述：长视频生成的挑战、方法与展望】

视频生成是一个快速发展的研究领域，因其广泛的应用而备受关注。该领域的一个重要方面是长视频的生成，这带来了独特的挑战和机遇。

该研究首次介绍了长视频生成领域的最新进展，并将其归纳为两个关键范式：分而治之时序自回归。

该团队深入探讨了每种范式所采用的常见模型，包括网络设计和调节技术的各个方面。此外，他们还对数据集和评估指标进行了全面概述和分类，这对推进长视频生成研究至关重要。在总结现有研究的同时，还讨论了这一动态领域中新出现的挑战和未来发展方向。

该团队希望本调查报告能成为长视频生成领域研究人员和从业人员的重要参考资料。

论文链接：https://arxiv.org/abs/2403.16407

【Sora 能否作为 AGI 世界模型？一文读懂文本到视频生成】

文本到视频生成标志着快速发展的生成式人工智能领域的一个重要前沿，它整合了文本到图像合成、视频字幕和文本引导编辑方面的进步。

该论文对文本到视频技术的发展进行了研究，重点关注从传统生成模型到最先进的 Sora 模型的转变，并强调了可扩展性和通用性方面的发展。有别于以往的分析，研究团队深入探讨了这些模型的技术框架和发展路径。

此外，团队还深入探讨了实际应用，并解决了一些伦理和技术方面的挑战，如无法进行多实体处理、理解因果效应学习、理解物理交互、感知物体缩放和比例，以及消除对象幻觉（这也是生成模型中的一个长期存在的问题）。

此外，该论文涵盖了将文本到视频生成模型作为人类辅助工具和世界模型的话题，同时也引出了模型的不足之处，并总结了未来的改进方向，主要围绕训练数据集和评估指标（自动和以人为中心）展开。

研究团队表示，该论文既面向新手，也面向经验丰富的研究人员，旨在促进不断发展的文本到视频生成领域的进一步创新和讨论，为更可靠、更实用的生成式人工智能技术铺平道路。

论文链接：https://arxiv.org/abs/2403.05131

【AnyV2V：即插即用，轻松完成任何视频到视频编辑任务】

视频到视频编辑包括编辑源视频和附加控件（如文本提示、主题或样式），从而生成与源视频和所提供控件一致的新视频。然而，传统方法局限于某些编辑类型，限制了其满足用户广泛需求的能力。

来自滑铁卢大学、Vector Institute 和 Harmony.AI 的研究团队，提出了一种新型免训练框架 AnyV2V，从而将视频编辑简化为了两个主要步骤：（1）利用现有的图像编辑模型（如 InstructPix2Pix、InstantID 等）修改第一帧；（3）利用现有的图像视频生成模型（如 I2VGen-XL）进行 DDIM 反转和特征注入。

在第一阶段，AnyV2V 可以插入任何现有的图像编辑工具，从而支持多个视频编辑任务。除了传统的基于提示的编辑方法外，AnyV2V 还可以支持视频编辑任务，包括基于参考的风格转换、主题驱动编辑和身份处理。

在第二阶段，AnyV2V 可以插入任何现有的图像视频模型，执行 DDIM 反转和中间特征注入，从而保持与源视频的外观和运动一致性。在基于提示的编辑方面，AnyV2V 在提示对齐方面比之前的最佳方法高出 35%，在人类偏好方面比之前的最佳方法高出 25%。

结果显示，AnyV2V 在三项新任务中也取得了很高的成功率。此外，AnyV2V 也具有很好的通用性，能够无缝集成快速发展的图像编辑方法，从而满足用户的不同需求。

论文链接：https://arxiv.org/abs/2403.14468

项目地址：https://tiger-ai-lab.github.io/AnyV2V/

【孙力超团队提出 Mora：复制 Sora 的通用视频生成功能】

Sora 是第一个大规模通用视频生成模型，受到了全社会的广泛关注。自 2024 年 2 月由 OpenAI 推出以来，没有其他视频生成模型能与 Sora 的性能或支持广泛视频生成任务的能力相媲美。此外，目前仅有少数几个完全公开的视频生成模型，而且大多数都是闭源的。

为了填补这一空白，理海大学助理教授 Lichao Sun（孙立超）团队联合微软研究院提出了一种新的多智能体框架 Mora，它整合了多个先进的视觉 AI 智能体，以复制 Sora 所展示的通用视频生成功能。

特别是，Mora 可以利用多个视觉智能体，在各种任务中成功模仿 Sora 的视频生成能力，比如（1）文本到视频的生成（2）文本条件图像到视频的生成（3）扩展生成的视频（4）视频到视频的编辑（5）连接视频（6）模拟数字世界。

大量实验结果表明，Mora 在各种任务中取得了接近 Sora 的性能。然而，从整体上评估，这一工作与 Sora 的性能存在明显差距。研究团队希望，这一工作能为未来通过协作式 AI 智能体生成视频提供指导。

论文链接：https://arxiv.org/abs/2403.13248

GitHub 地址：https://github.com/lichao-sun/Mora

【英伟达参与，高效视频扩散模型 CMD 发布】

近来，视频扩散模型在生成质量方面取得了很大进步，但仍受限于高内存和计算要求。这是因为当前的视频扩散模型通常试图直接处理高维视频。

为了解决这一问题，来自韩国科学技术院、英伟达和加州理工学院的研究团队提出了内容-运动潜在扩散模型（CMD），其为预训练图像扩散模型在视频生成方面的新型高效扩展。

具体来说，他们提出了一种自动编码器，可将视频简洁地编码为内容帧（如图像）和低维运动潜表示的组合。前者代表视频中的普通内容，后者代表视频中的潜在运动。他们通过微调预先训练好的图像扩散模型来生成内容帧，并通过训练新的轻量级扩散模型来生成运动潜表征。该工作的关键创新是设计了一个紧凑的潜空间，可以直接利用预训练的图像扩散模型。

结果表明，该研究大大提高了生成质量，降低了计算成本。例如，通过在 3.1 秒内生成分辨率为 512×1024 长度为 16 的视频，CMD 的视频采样速度比之前的方法快 7.7 倍。此外，CMD 在 WebVid-10M 上的 FVD 得分为 212.7，比之前最高分 292.4 分高出 27.3%。

论文链接：https://arxiv.org/abs/2403.14148

项目地址：https://sihyun.me/CMD/

【Meta 新研究：通过因子扩散蒸馏进行视频编辑】

Meta AI 团队提出了一个无需依赖任何监督视频编辑数据就能建立视频编辑新技术的模型——Emu Video Edit （EVE）。

为了开发 EVE，研究团队分别训练了图像编辑适配器和视频生成适配器，并将两者附加到同一个文生图模型上。然后，为了使适配器与视频编辑相匹配，他们提出了一种新的无监督蒸馏程序——Factorized Diffusion Distillation。该程序在没有任何监督数据的情况下，同时从一个或多个教师那里提炼知识。

研究团队利用这一程序来教 EVE 编辑视频，通过共同提炼知识来从图像编辑适配器中精确编辑每个单独的帧，并使用视频生成适配器确保已编辑帧之间的时间一致性。最后，为了展示其方法在释放其他功能方面的潜力，研究团队调整了适配器的其他组合。

论文链接：https://arxiv.org/abs/2403.09334

【谷歌 VLOGGER：基于多模态扩散的具身虚拟形象合成】

Google Research 提出了一种从单张人物输入图像生成音频驱动人类视频的方法——VLOGGER，它建立在生成扩散模型基础之上。

VLOGGER 由两部分组成，一是随机人体到 3D 运动扩散模型，二是一种基于扩散的新型架构，它通过空间和时间控制来增强文本到图像模型。这有助于生成长度可变的高质量视频，并可通过人脸和身体的高级表示轻松控制。

与之前的工作相比，这一方法不需要对每个人进行训练，不依赖于人脸检测和裁剪，能生成完整的图像（不仅仅是人脸或嘴唇），并能考虑广泛的情况（如可见躯干或不同的主体身份），这对于正确合成交流的人类至关重要。研究团队还提出了一个包含 3D 姿势和表情注释的全新多样化数据集 MENTOR，它比以前的数据集大一个数量级（800000 identities），并且包含动态手势。研究团队在其上训练并简化了他们的主要技术贡献。

VLOGGER 在三个公共基准测试中的表现达到了 SOTA，考虑到图像质量、身份保留和时间一致性，同时还能生成上半身手势。VLOGGER 在多个多样性指标方面的表现都表明其架构选择和 MENTOR 的使用有利于大规模训练一个公平、无偏见的模型。最后，研究团队还展示了在视频编辑和个性化方面的应用。

论文链接：https://arxiv.org/abs/2403.08764

项目地址：https://enriccorona.github.io/vlogger/

【Follow-Your-Click：通过简短提示制作开放域区域图像动画】

尽管图像到视频（I2V）生成技术近年来不断进步，但对更好的可控性和局部动画的探索却较少。大多数现有的图像到视频生成方法都不具备局部感知能力，往往会移动整个场景。然而，人类艺术家可能需要控制不同物体或区域的移动。此外，目前的 I2V 方法不仅需要用户描述目标运动，还需要提供冗余的帧内容详细描述。这两个问题阻碍了当前 I2V 工具的实际应用。

来自香港科技大学、腾讯和清华大学的研究团队提出了一个名为 Follow-Your-Click 的实用框架，通过用户简单的点击（指定要移动的内容）和简短的运动提示（指定如何移动）来实现图像动画。在技术上，研究团队提出了第一帧屏蔽策略来提高视频生成质量，以及配备了简短运动提示数据集的运动增强模块来提高模型的简短提示跟随能力。为了进一步控制运动速度，他们提出基于流量的运动幅度控制，以更精确地控制目标的运动速度。

与之前的方法相比，Follow-Your-Click 具有更简单而精确的用户控制和更好的生成性能。与 7 种基线方法（包括商业工具和研究方法）在 8 个指标上的广泛实验比较表明，这一方法更胜一筹。

论文链接：https://arxiv.org/abs/2403.08268

项目地址：https://follow-your-click.github.io/

【VidProM：面向文生视频扩散模型的大型百万级真实 prompt 图库数据集】

Sora 的出现标志着文生视频扩散模型进入了一个新时代，为视频生成和潜在应用带来了重大进步。然而，Sora 以及其他文生视频扩散模型高度依赖于提示（prompts），而目前还没有一个公开可用的数据集对文生视频提示语进行研究。

来自悉尼科技大学和浙江大学的研究团队提出了首个包含 167 万条来自真实用户的独特文生视频提示的大规模数据集——VidProM，该数据集还包括由四种最先进的扩散模型生成的 669 万个视频和一些相关数据。

研究团队首先展示了这一大规模数据集耗时且成本高昂的整理过程。随后展示了 VidProM 与 DiffusionDB（一个用于生成图像的大型提示图库数据集）的不同之处。基于对这些提示的分析，他们发现有必要建立一个专门用于文生视频的新提示数据集，并深入了解真实用户在创建视频时的偏好。

这一大规模、多样化的数据集还激发了许多令人兴奋的新研究领域。例如，为了开发更好、更高效、更安全的文生视频扩散模型，研究团队建议探索文生视频提示工程、高效视频生成以及扩散模型的视频复制检测。

论文链接：https://arxiv.org/abs/2403.06098

GitHub 地址：https://github.com/WangWenhao0716/VidProM

【VideoElevator：利用多功能文本到图像扩散模型提升视频生成质量】

文本到图像扩散模型（T2I）在创建逼真、美观的图像方面已经展现出强大能力。相反，由于训练视频的质量和数量不足，文本到视频扩散模型（T2V）在帧质量和文本对齐方面仍然远远落后。

来自哈尔滨工业大学、清华大学的研究团队提出了一种无需训练、即插即用的方法——VideoElevator，该方法利用 T2I 提升了 T2V 的性能。

据介绍，与传统的 T2V 采样（即时间和空间建模）不同，VideoElevator 将每个采样步骤明确分解为时间运动细化和空间质量提升。具体来说，时间运动细化使用封装（encapsulated）的 T2V 来增强时间一致性，然后反转为 T2I 所要求的噪声分布。然后，空间质量提升利用扩展（inflated）的 T2I 直接预测噪声较小的潜影，增加更多照片般逼真的细节。

研究团队在各种 T2V 和 T2I 的组合下进行了大量 prompt 实验。结果表明，VideoElevator 不仅提高了具有基础 T2I 的 T2V 基线的性能，还促进了具有个性化 T2I 的风格化视频合成。

论文链接：https://arxiv.org/abs/2403.05438

项目地址：https://videoelevator.github.io/

【图像-视频生成新方法：高保真，无需微调，即插即用】

图像到视频（I2V）生成任务在开放领域中总是难以保持高保真。传统的图像动画技术主要集中在特定领域，如人脸或人体姿势，很难推广到开放领域。最近几个基于扩散模型的 I2V 框架可以为开放域图像生成动态内容，但无法保持保真度。

保真度低的两个主要因素是图像细节的丢失和去噪过程中的噪声预测偏差。为此，阿里巴巴团队提出了一种可应用于主流视频扩散模型的有效方法。这种方法通过补充更精确的图像信息和噪声矫正来实现高保真。具体来说，在给定图像的情况下，该方法首先在输入图像潜在表示（latent）中添加噪声以保留更多细节，然后通过适当的校正对噪声潜在表示进行去噪处理，以减轻噪声预测偏差。这一方法无需微调，即插即用。实验结果表明，它能有效提高生成视频的保真度。

论文链接：https://arxiv.org/abs/2403.02827

项目地址：https://noise-rectification.github.io/

【AtomoVideo：高保真图像视频生成器】

基于卓越的文生图技术，视频生成技术取得了显著的快速发展。阿里巴巴团队提出了一种高保真图像视频生成框架 AtomoVideo，它基于多粒度图像注入实现了生成的视频与给定图像的更高保真度。

得益于高质量的数据集和训练策略，AtomoVideo 在保持出色的时间一致性和稳定性的同时，实现了更高的运动强度。这一架构可灵活扩展到视频帧预测任务，通过迭代生成实现长序列预测。此外，由于采用了适配器训练的设计，AtomoVideo 可以很好地与现有的个性化模型和可控模块相结合。通过定量和定性评估，AtomoVideo 与流行的方法相比取得了更优越的结果。

论文链接：https://arxiv.org/abs/2403.01800

项目地址：https://atomo-video.github.io/

【MovieLLM：利用人工智能生成的电影增强对长视频的理解】

多模态模型的开发标志着机器在理解视频方面迈出了重要一步。这些模型在分析短视频片段方面大有可为。然而，当涉及电影等较长的格式时，它们往往力不从心。主要障碍在于缺乏高质量、多样化的视频数据，以及收集或注释此类数据所需的大量工作。

为此，来自复旦大学和腾讯的研究团队提出了一个为长视频创建合成的高质量数据的新框架——MovieLLM。该框架利用 GPT-4 和文生图模型的强大功能，生成详细的脚本和相应的视觉效果。MovieLLM 以其灵活性和可扩展性脱颖而出，成为传统数据收集方法的优越替代方案。

实验证明，MovieLLM 生成的数据显著提高了多模态模型在理解复杂视频叙事方面的性能，克服了现有数据集在稀缺性和偏差方面的局限性。

论文链接：https://arxiv.org/abs/2403.01422

项目地址：https://deaddawn.github.io/MovieLLM/

【Panda-70M：包含 7000 万段高质量字幕的视频数据集】

数据和标注的质量是下游模型质量的上限。虽然存在大量的文本语料库和图像-文本对，但高质量的视频-文本数据却很难收集。首先，人工标注需要标注者观看整个视频，这十分耗时。其次，视频具有时间维度，由多个场景叠加而成，显示了多个动作。

为了建立一个具有高质量字幕的视频数据集，来自 Snap 公司、加州大学和特伦托大学的研究团队提出了一种利用多模态输入（如文字视频描述、字幕和单个视频帧）的自动方法。具体来说，研究团队从公开的 HD-VILA-100M 数据集中收集了 380 万个高分辨率视频。然后将它们分割成语义一致的视频片段，并应用多种跨模态教师模型来获取每个视频的字幕。接下来，在一小部分子集上对检索模型进行微调，人工选择每个视频的最佳字幕，然后在整个数据集中使用该模型选择最佳字幕作为标注。

通过这种方法，他们得到了 7000 万个与高质量文字说明配对的视频。研究团队将该数据集命名为 Panda-70M。该项研究展示了 Panda-70M 数据集在三个下游任务中的价值：视频字幕、视频和文本检索以及文本驱动的视频生成。在提出的数据上训练出来的模型在所有任务的大多数指标上都获得了大幅提升。

论文链接：https://arxiv.org/abs/2402.19479

项目地址：https://snap-research.github.io/Panda-70M/

第 3 章文生音频

【VoiceCraft：零样本语音编辑的文本到语音技术】

德克萨斯大学和雷姆布兰德研究团队介绍了一种标记填充神经编解码语言模型 VoiceCraft，它在有声读物、网络视频和播客的语音编辑和零样本文本到语音（TTS）方面都达到了最先进的性能。

Voice Craft 模型采用 Transformer 解码器架构，并引入了一种 token 重新排列程序，该程序结合了因果掩蔽和延迟堆叠技术，可在现有序列中生成语音。在由人类进行评估的语音编辑任务中，VoiceCraft 生成的编辑语音在自然度方面与未经编辑的录音几乎没有区别。在零样本 TTS 方面，该团队推出的模型优于先前的 SOTA 模型，包括 VALLE 和 XTTS-v2。

此外，该团队在具有挑战性的真实数据集上对模型进行了评估，这些数据集包含不同的口音、说话风格、录音条件以及背景噪音和音乐，与其他模型和真实录音相比，Voice Craft 模型表现出色。特别是在语音编辑评估方面，还引入了一个名为 Real Edit 的高质量、高难度和真实的数据集。

论文链接：https://arxiv.org/abs/2403.16973

项目地址：https://jasonppy.github.io/VoiceCraft_web/

【MusicHiFi：快速高保真立体声语音编码】

基于扩散的音频和音乐生成模型通常通过构建音频的图像表示（如旋律谱图）生成音乐，然后使用相位重建模型或声码器将其转换为音频。然而，典型的声码器生成的单声道音频分辨率较低（如 16-24 kHz），这限制了其有效性。

来自罗切斯特大学、Adobe Research 的研究团队提出了一种高效的高保真立体声声码器 MusicHiFi。该方法采用了三个生成式对抗网络（GAN）的级联，将低分辨率的旋律谱图转换为音频，通过带宽扩展将高分辨率音频上采样，然后上混成立体声音频。

与之前的工作相比，该研究提出了：1）基于 GAN 的统一生成器和鉴别器架构，以及级联每个阶段的训练程序；2）新的快速、接近降采样兼容的带宽扩展模块；3）新的快速降混兼容的单声道到立体声上混器，确保输出中保留单声道内容。

评估结果显示，发现与过去的工作相比，该方法能获得相当或更好的音频质量、更好的空间化控制和更快的推理速度。

论文链接：https://arxiv.org/abs/2403.10493

项目地址：https://musichifi.github.io/web/

第 4 章文生3D

【清华朱军团队：根据人类偏好实现高保真文生 3D】

近来，根据文字提示创建 3D 内容取得了显著的突破。然而，目前的文本-3D 方法生成的 3D 结果往往与人类的偏好不太一致。

为此，清华大学朱军教授团队提出了一个名为 DreamReward 的综合框架，用于从人类偏好反馈中学习和改进文本-3D 模型。

首先，他们基于一个系统化的注释管道（包括评级和排名）收集了 25000 个专家比较结果；然后，他们建立了首个通用的文本-3D 人类偏好奖励模型——Reward3D，该模型可以有效地编码人类偏好；最后，在 3D 奖励模型的基础上，他们进行了理论分析，并提出了 Reward3D 反馈学习（DreamFL），这是一种直接微调算法，可通过重新定义的评分器优化多视角扩散模型。

在理论证明和大量实验对比的基础上，DreamReward 成功生成了高保真和 3D 一致的结果，且显著提高了与人类意图的提示一致性。这一研究结果证明了从人类反馈中学习来改进文本-3D 模型的巨大潜力。

论文链接：https://arxiv.org/abs/2403.14613

项目地址：https://jamesyjl.github.io/DreamReward/

【TexDreamer：首个零样本多模态高保真 3D 人体纹理生成模型】

由于难以获得合理展开的 UV，使用语义 UV 贴图对 3D 人体进行纹理处理仍然是一项挑战。尽管使用大型文本到图像（T2I）模型进行文本到 3D 的技术在监督多视角渲染方面取得了进步，但在生成速度、文本一致性和纹理质量方面仍然存在问题，导致现有数据集中数据稀缺。

来自上海大学、腾讯、上海交通大学和复旦大学的研究团队，提出了首个零样本多模态高保真 3D 人体纹理生成模型 TexDreamer。利用高效的纹理适应微调策略，研究团队将大型 T2I 模型调整为语义 UV 结构，同时保留其原有的泛化能力。利用新颖的特征翻译模块，模型能够在数秒内从文本或图像生成高保真 3D 人体纹理。

此外，研究团队还推出了最大的高分辨率（1024 X 1024）3D 人体纹理数据集——ArTicuLated humAn textureS（ATLAS），该数据集包含 50k 个带有文本描述的高保真纹理。

论文链接：https://arxiv.org/abs/2403.12906

项目地址：https://ggxxii.github.io/texdreamer/

【Stability AI 推出文生 3D 模型 SV3D】

Stability AI 团提出了一种基于 Stable Video Diffusion 的文生 3D 模型 Stable Video 3D（SV3D）。

据介绍，SV3D 有两个变体：SV3D_u 和 SV3D_p。其中，SV3D_u 基于单图像输入生成轨道视频，无需相机调节；SV3D_p 扩展了这一功能，既可生成单幅图像，也可生成轨道视图，从而可以沿着指定的相机路径创建 3D 视频。研究团队表示，SV3D 推动了 3D 技术领域的发展，并大大提高了质量和视图一致性。

具体而言，SV3D 可以调整图像到视频的扩散模型，用于新颖的多视图合成和 3D 生成，从而利用视频模型的泛化和多视图一致性，同时进一步为 NVS 增加显式相机控制。

此外，研究团队还提出了改进的 3D 优化技术，从而使用 SV3D 及其 NVS 输出进行图像到 3D 的生成。在多个数据集上使用 2D 和 3D 指标进行的广泛实验结果以及用户研究表明，与之前的研究相比，SV3D 在 NVS 和 3D 重建方面的性能达到了一流水平。

论文链接：https://arxiv.org/abs/2403.12008

项目地址：https://sv3d.github.io/

【西湖大学新研究：可控的文本-3D 生成】

文本-3D、图像-3D 的生成任务受到了广泛关注，但两者之间一个重要但未充分开发的领域是可控文本-3D 生成。

为此，来自西湖大学、浙江大学和同济大学的研究团队针对这一任务，提出了多视图控制网络（MVControl），这是一种新颖的神经网络架构，旨在通过整合额外的输入条件（如边缘、深度、法线和涂鸦图）来增强现有的预训练多视图扩散模型，其创新之处在于引入了一个调节模块，该模块利用局部和全局嵌入来控制基础扩散模型，而局部和全局嵌入是通过输入条件图像和摄像机姿势计算得出的。一旦经过训练，MVControl 就能为基于优化的 3D 生成提供 3D 扩散指导。

此外，他们还提出了一种高效的多阶段 3D 生成流水线，充分利用了近期大型重建模型和分数提炼算法的优势。在 MVControl 架构的基础上，他们采用了一种独特的混合扩散引导方法来指导优化过程。为了提高效率，他们采用了 3D 高斯表示法，而不是常用的隐式表示法。他们还使用了 SuGaR，这是一种将高斯绑定到网格三角形面上的混合表示法。这种方法缓解了 3D 高斯中几何形状不佳的问题，并能在网格上直接雕刻精细的几何形状。

大量实验证明，该方法实现了鲁棒的泛化，能够可控地生成高质量的 3D 内容。

论文链接：https://arxiv.org/abs/2403.09981

项目地址：https://lizhiqi49.github.io/MVControl/

【清华团队新研究：只需一张图，5 分钟定制高保真一致 3D 内容】

近年来，3D 生成模型发挥了强大的威力，它允许用户通过单张图像或自然语言来指导 3D 内容生成过程，从而将创作灵活性提升到了一个新的水平。然而，对于现有的 3D 生成方法来说，在不同的提示下创建主题驱动的 3D 内容仍然是一项挑战。

清华团队提出了一种新型 3D 定制方法——Make-Your-3D ，该方法可在 5 分钟内，仅通过一张带有文字描述的主题图像，个性化地生成高保真且一致的 3D 内容。

该项研究的主要内容是协调多视角扩散模型和特定身份 2D 生成模型的分布，使它们与所需 3D 主体的分布对齐。具体来说，研究团队设计了一个协同进化框架来减少分布的方差，其中每个模型分别通过身份感知优化和主体先验优化来学习另一个模型。

实验证明，这一方法可以生成高质量、一致且针对特定主题的 3D 内容，这些内容由文本驱动修改，在主题图像中是看不到的。

论文链接：https://arxiv.org/abs/2403.09625

项目地址：https://liuff19.github.io/Make-Your-3D/

【TripoSR：从单张图像快速重建 3D 物体】

来自 Stability AI 和 Tripo AI 的研究团队在一份技术报告中提出了 TripoSR，一个利用 Transformer 架构快速生成前馈 3D 的 3D 重建模型，可在 0.5 秒内从单个图像生成 3D 网格。TripoSR 以 LRM 网络架构为基础，对数据处理、模型设计和训练技术进行了大幅改进。

在公共数据集上的评估表明，与其他开源替代方案相比，TripoSR 在定量和定性方面都表现出了卓越的性能。TripoSR 根据 MIT 许可发布，旨在为研究人员、开发人员和创意人员提供 3D 生成式人工智能的最新进展。

论文链接：https://arxiv.org/abs/2403.02151

项目地址：https://github.com/VAST-AI-Research/TripoSR

【清华团队新研究：视频扩散模型是有效的 3D 生成器】

自动 3D 生成最近引起了广泛关注。最近的方法大大加快了生成速度，但由于模型容量或 3D 数据有限，生成的物体通常不够精细。在视频扩散模型最新进展的推动下，清华大学团队提出了 V3D，它利用预训练视频扩散模型的世界模拟能力来促进 3D 生成。

为了充分发挥视频扩散感知 3D 世界的潜力，研究团队进一步引入了几何一致性先验，并将视频扩散模型扩展为多视角一致性 3D 生成器。得益于此，最先进的视频扩散模型可以通过微调在给定单张图像的情况下生成围绕物体的 360 度轨道帧。利用这一量身定制的重建管道可以在 3 分钟内生成高质量的网格或 3D 高斯。

此外，V3D 还可扩展到场景级新视图合成，在输入视图稀疏的情况下实现对摄像机路径的精确控制。实验证明了这一方法在生成质量和多视图一致性方面的卓越性能。

论文链接：https://arxiv.org/abs/2403.06738

项目地址：https://heheyas.github.io/V3D/

【ThemeStation：多样化主题的可控 3D 到 3D 生成】

现实世界的应用往往需要大量主题一致的 3D 资产。虽然在根据文本或图像创建一般 3D 内容方面取得了一些进展，但根据输入 3D 示例的共享主题合成定制 3D 资产仍然是一个具有挑战性的问题。

来自香港城市大学、上海 AI Lab 和南洋理工大学的研究团队提出了一种主题感知型的 3D 到 3D 生成方法—ThemeStation。ThemeStation 基于给定的几个示例合成定制的 3D 资产，有两个目标：1）生成与给定范例主题一致的 3D 资产的统一性；2）生成具有高度变化的 3D 资产的多样性。

为此，研究团队设计了一个两阶段框架，首先绘制概念图，然后进行参考 3D 建模。他们也提出了一种新颖的双分数蒸馏（DSD）损失法，从而共同利用输入示例和合成概念图的先验。

广泛的实验和用户研究证实，ThemeStation 在生成多样化主题感知 3D 模型方面超越了之前的研究成果，也能实现各种应用，如可控的 3D 到 3D 生成。

论文链接：https://arxiv.org/abs/2403.15383

项目地址：https://3dthemestation.github.io/

【英伟达提出 LATTE3D：更快、更好的“文生 3D”方法】

近来，由文本到 3D 生成的方法可以生成令人印象深刻的 3D 效果，但这个过程需要耗时的优化过程，每个提示（prompt）可能需要一个小时。为了改善这种现象，ATT3D 等摊销方法可同时优化多个提示，从而提高效率，实现快速的文本到 3D 合成。但是，这些方法无法捕捉高频几何和纹理细节，难以扩展到大型提示集，因此通用性较差。

为此，英伟达推出了 LATTE3D，在更大的提示集上实现了快速、高质量的生成。该方法的关键在于：1）建立一个可扩展的架构；2）在优化过程中，通过 3D 感知扩散先验、形状正则化和模型初始化来利用 3D 数据，从而实现对各种复杂训练提示的鲁棒性。

据介绍，LATTE3D 对神经场和纹理曲面生成进行了摊销，只需一次前向传递即可生成高度精细的纹理网格。

结果表明，该方法可在 400 毫秒内生成 3D 物体，并可通过快速测试时间优化进一步提高性能。

论文链接：https://arxiv.org/abs/2403.15385

项目地址：https://research.nvidia.com/labs/toronto-ai/LATTE3D/

【牛津团队：通过几何扩散实现高质量文本到 3D 的生成】

虽然从文本到 3D 的生成方法最近取得了可喜的进展，但目前流行的方法往往无法确保视图一致性和纹理的丰富性。这个问题在仅使用文本输入的方法中尤为明显。

为了解决这个问题，牛津大学研究团队提出了一种基于高斯拼接法的两阶段方法DreamPolisher，以确保视图之间的几何一致性。首先，通过几何优化对粗3D生成进行细化。随后，使用 ControlNet 驱动的细化器和几何一致性项来提高纹理保真度和生成的3D资产的整体一致性。通过对跨越不同对象类别的各种文本提示进行实证评估，证明了 DreamPolisher 在生成一致、逼真的 3D 对象方面的功效，而且与文本指示的语义非常吻合。

论文链接：https://arxiv.org/abs/2403.17237

项目地址：https://yuanze-lin.me/DreamPolisher_page/

【谷歌、Stability AI 新研究：由文本引导生成纹理 3D 服装】

谷歌、Stability AI 及其合作者提出了 WordRobe ，这是一个新颖的框架，解决的是一个具有挑战性的新问题，即由文本驱动生成具有高质量纹理的3D服装，用于根据用户友好的文本提示生成未摆放的纹理3D服装网格。

为此，该团队首先使用一种新颖的从粗到细的训练策略学习3D服装的潜在表示法，并利用潜在解缠损失促进更好的潜在插值。随后，以弱监督方式将服装潜空间与 CLIP 嵌入空间对齐，从而实现文本驱动的 3D 服装生成和编辑。在外观建模方面，WordRobe 还利用 ControlNet 的零样本生成功能，在单个前馈推理步骤中合成与视图一致的纹理贴图，从而大大缩短了生成时间。

通过定量评估和定性用户研究，WordRobe 展示了在学习 3D 服装潜空间、服装插值和文本驱动纹理合成方面优于现有 SOTAs 的性能。使用 WordRobe 生成的未摆放的 3D 服装网格可直接输入标准的布料仿真和动画管道，无需任何后处理。

论文链接：https://arxiv.org/abs/2403.17541

项目地址：https://wordrobe24.github.io/WordRobe_Page/

【Meta 新研究：无需艺术家，一张图即可定制生成 3D 服装】

Meta 研究团队提出了一种以单张输入图像为指导，从基础网格合成 3D 服装资产的新方法——Garment3DGen。该方法允许用户根据真实图像和合成图像（如通过文本提示生成的图像）生成 3D 纹理服装。生成的服装可直接在人体上悬垂和模拟。

首先，研究团队利用图像到 3D 扩散方法的最新进展来生成 3D 服装几何图形。其次，他们引入了精心设计的损耗，允许输入的基础网格朝着所需的目标自由变形，同时保留网格质量和拓扑结构，从而进行模拟。最后，纹理估算模块可生成高保真纹理贴图，这些贴图具有全局和局部一致性，并能忠实捕捉输入导向，从而渲染生成的 3D 资产。

有了 Garment3DGen，用户无需艺术家的干预，就能生成自己喜欢的纹理 3D 服装。用户可以提供文字提示，描述他们希望生成 3D 资产的服装。

论文链接：https://arxiv.org/abs/2403.18816

项目地址：https://nsarafianos.github.io/garment3dgen

【由语言引导的人类动作生成】

目前，文本到运动合成技术已经取得了重大进展，但在 3D 环境中生成语言引导的人体运动仍面临巨大挑战。

这些挑战主要源于：缺乏能够对自然语言、3D 场景和人类运动进行联合建模的强大生成模型；生成模型需要大量数据，而全面、高质量的语言-场景-运动数据集却十分稀缺。

为了解决这些问题，来自北京理工大学、北京通用人工智能研究院、北京大学和清华大学的研究团队，提出了一个新颖的两阶段框架，采用场景承受力作为中间表征，有效地将 3D 场景基础和条件运动生成联系起来。该框架包括一个用于预测显式可承受性地图的可承受性扩散模型（ADM）和一个用于生成可信人体运动的可承受性-运动扩散模型（AMDM）。

通过利用场景承受力地图，该模型克服了在多模态条件信号下生成人类动作的困难，尤其是在使用缺乏大量语言-场景-动作对的有限数据进行训练时。

大量实验证明，在 HumanML3D 和 HUMANISE 等基准测试中的表现优于所有基线（模型）。此外，该研究团队还在专门设计的评估集上验证了该模型的泛化能力。

论文链接：https://arxiv.org/abs/2403.18036

第 5 章智能体（Agent）

【RepairAgent：首个基于大模型的自主程序修复智能体】

由斯图加特大学和加州大学戴维斯分校的研究团队提出的 RepairAgent ，是首个通过基于大型语言模型（LLM）的自主智能体来应对程序修复挑战的工作。

目前，基于深度学习的方法以固定的提示或在固定的反馈循环中提示模型，与之不同的是，该研究团队将 LLM 视为一个能够自主规划和执行行动的智能体，通过调用合适的工具来修复错误。

RepairAgent 可自由穿插收集错误信息、收集修复成分和验证修复，同时根据收集到的信息和先前修复尝试的反馈来决定调用哪些工具。实现 RepairAgent 的关键贡献包括：一组对程序修复有用的工具、一种允许 LLM 与这些工具交互的动态更新提示格式，以及一种指导智能体调用工具的有限状态机。

在流行的 Defects4J 数据集上进行的评估表明，RepairAgent 能有效地自主修复 164 个错误，其中包括 39 个以前的技术无法修复的错误。与 LLM 交互的平均成本为每个漏洞 270000 token，按照 OpenAI 的 GPT-3.5 模型的当前定价，相当于每个漏洞 14 美分。

这项工作首次提出了一种基于 LLM 的自主程序修复智能体，促进了未来软件工程中基于智能体的技术发展。

论文链接：https://arxiv.org/abs/2403.17134

【游戏智能体与大模型综述：方法、应用与挑战】

当前，尽管学术界和产业界对语言模型和多模态模型兴趣浓厚，但有关其在不同影响场景中的能力和潜力的系统性评论却很少。

为此，来自北京智源人工智能研究院（BAAI）、中科院等机构的研究团队，对当前在复杂游戏场景中使用大模型的情况以及仍面临的挑战进行了深入研究。

研究团队试图系统地回顾现有的基于大模型的游戏智能体（LMA）架构，总结其共性、挑战和其他见解。此外，他们还提出了一个新的观点，即在游戏中推进大模型的未来研究途径。该研究希望能帮助研究人员清楚地了解这一领域，并对这一极具影响力的研究方向产生更多兴趣。

论文链接：https://arxiv.org/abs/2403.10249

GitHub 地址：https://github.com/BAAI-Agents/GPA-LM

【SOTOPIA-π：社交智能语言智能体的互动学习】

人类通过模仿和社会互动来学习社交技能。在现有的语言智能体构建研究中，这种社交学习过程大多未得到充分研究。基于这一空白，卡内基梅隆大学研究团队提出了一种互动学习方法 SOTOPIA-π来提高语言智能体的社交智能。这种方法利用行为克隆和自我强化训练，根据大语言模型（LLM）的评分对过滤后的社交互动数据进行训练。

研究表明，这一训练方法能在提高语言智能体安全性的同时，让 7B LLM 达到专家模型（基于 GPT-4 的智能体）的社交目标完成能力，并在 MMLU 基准上保持一般 QA 能力。这种训练范式还揭示了基于 LLM 的社会智能评估中的一些困难：基于 LLM 的评估者高估了专门为社交互动训练的语言智能体的能力。

论文链接：https://arxiv.org/abs/2403.08715

【达摩院提出 AesopAgent：从故事到视频制作，智能体驱动的进化系统】

最近，智能体和 AIGC（人工智能生成内容）技术取得了重大进展。阿里达摩院提出了一个关于故事到视频制作的智能体驱动进化系统——AesopAgent，它是智能体技术在多模态内容生成方面的实际应用。

该系统在一个统一的框架内集成了多种生成功能，因此个人用户可以轻松利用这些模块。这一创新系统可将用户故事提案转化为脚本、图像和音频，然后将这些多模态内容整合到视频中。此外，动画单元（如 Gen-2 和 Sora）可以使视频更具感染力。

AesopAgent 系统可以协调视频生成的任务流程，确保生成的视频内容丰富且连贯一致。该系统主要包括两层，水平层（Horizontal Layer）和实用层（Utility Layer）。在水平层中，研究团队提出了一种基于 RAG 的新颖进化系统，该系统可优化整个视频生成工作流程以及工作流程中的各个步骤。它通过积累专家经验和专业知识，不断进化和迭代优化工作流程，包括优化大型语言模型提示和实用程序的使用。实用程序层提供多种实用程序，可生成在构图、角色和风格方面具有视觉连贯性的一致图像。同时，它还提供音频和特效，将它们整合到富有表现力和逻辑安排合理的视频中。

总体而言，与之前的许多视觉故事作品相比，AesopAgent 实现了最先进的性能。

论文链接：https://arxiv.org/abs/2403.07952

项目地址：https://aesopai.github.io/

【微软新研究：迈向整体智能的 Agent AI】

大型基础模型的最新进展极大地增强了我们对开放世界环境中感官信息的理解。在利用基础模型的力量时，人工智能（AI）研究必须从过度的还原论转向强调系统的整体功能。

来自微软的研究团队及其合作者强调开发 AI 智能体（Agent AI）——一种将大型基础模型整合到智能体行动中的具身系统。AI 智能体这一新兴领域横跨现有的各种体现式和基于智能体的多模态交互，包括机器人、游戏和医疗保健系统等。研究团队提出了一种新颖的大型行动模型——Agent Foundation Model 来实现具身智能行为。

在这一想法的基础上，研究团队讨论了AI 智能体如何在各种领域和任务中展现出非凡的能力，挑战我们对学习和认知的理解。此外，他们还从跨学科的角度讨论了AI 智能体的潜力，强调了科学话语中的 AI 认知和意识。这些讨论将成为未来研究方向的基础，并鼓励更广泛的社会参与。

论文链接：https://arxiv.org/abs/2403.00833

【中科院、国科大、华南理工新研究：永不停歇的具身机器人学习】

在大型语言模型（LLMs）的帮助下，具身机器人可以通过视觉观察执行复杂的多模态机器人操纵任务，且具有强大的泛化能力。然而，大多数视觉行为克隆智能体在适应一系列具有挑战性的未知任务时，会出现操纵性能下降和技能知识遗忘的问题。

在该研究中，来自中科院、国科大、华南理工大学的研究团队，利用具身机器人中的 NBCagent 研究了上述难题。NBCagent 是一种开创性的语言条件下永不停歇的行为克隆智能体，它可以从特定技能和技能共享属性中不断学习新型机器人操纵技能的观察知识。

具体来说，他们建立了一个特定技能演化规划器来执行知识解耦，该规划器可以从潜在和低级空间中不断将新的特定技能知识嵌入到 NBCagent 中。同时，他们提出了技能共享语义渲染模块和技能共享表征提炼模块，从而有效传递抗遗忘技能共享知识，进一步从语义和表征方面解决旧技能的灾难性遗忘问题。最后，他们设计了一个持续的具身机器人操纵基准，实验证明了这一方法的显著性能。

论文链接：https://arxiv.org/abs/2403.00336

项目地址：https://neragent.github.io/

【MineDreamer：通过模拟世界控制的“想象链”学习遵从指令】

设计一种能以类似人类的方式遵从各种指令的通用具身智能体是一个长期目标。然而，由于难以理解抽象和连续的自然语言指令，现有方法往往无法稳定地执行指令。

为此，来自上海人工智能实验室、北航、香港中文大学的研究团队提出了一种开放式的具身智能体 MineDreamer，其基于具有挑战性的 Minecraft 模拟器，采用创新范式，在低级控制信号生成中增强了指令遵循能力。

具体来说，MineDreamer 是在多模态大语言模型（MLLMs）和扩散模型的最新进展基础上开发的，研究团队采用了想象链（CoI）机制来设想执行指令的逐步过程，并将想象转化为针对当前状态的更精确的视觉提示；随后，智能体生成键盘和鼠标操作，从而有效实现这些想象，并在每个步骤中稳定地遵循指令。

大量实验证明，MineDreamer 能稳定地执行单步和多步指令，其性能明显优于最佳通用智能体基线，几乎翻了一番。此外，对智能体想象能力的定性分析还揭示了它对开放世界的概括和理解能力。

论文链接：https://arxiv.org/abs/2403.12037

项目地址：https://sites.google.com/view/minedreamer

【AgentStudio：在任何数字设备上使用任意软件】

创建能够在任何数字设备上使用任意软件的自主虚拟智能体是人工智能面临的一大挑战。有两个关键障碍阻碍了进展：一是在真实环境中构建虚拟智能体的基础设施不足，二是需要对智能体的基本能力进行实地评估。

为了解决这些问题，南洋理工大学和 Skywork AI 推出了 AgentStudio，这是一个在线、逼真和多模态的工具包，涵盖了智能体开发的整个生命周期，其中包括环境设置、数据收集、智能体评估和可视化等功能，同时使观察和行动空间具有高度通用性，并且支持函数调用和人机界面。

AgentStudio 还在图形用户界面进一步增强了通用性，允许在真实世界环境中高效开发数据集和基准。研究团队介绍了一个可视化基础数据集和一个真实世界基准套件，两者都是用该模型的图形界面创建的。

此外，该团队还介绍了从 Agent Studio 中获得的一些可操作功能的见解，比如通用的可视化接地、开放式工具创建、从视频中学习等。为促进未来开发通用虚拟体的研究，该团队已将环境、数据集、基准和界面开源。

论文链接：https://arxiv.org/abs/2403.17918

项目地址：https://skyworkai.github.io/agent-studio/

第 6 章对齐（Alignment）

【Chatbot Arena：基于人类偏好评估大模型的开放平台】

大型语言模型（LLMs）为我们带来了新的功能和应用，然而评估 LLMs 与人类偏好的对齐仍然是一项重大挑战。为此，来自加州大学伯克利分校、斯坦福和加州大学圣地亚哥分校的研究团队推出了基于人类偏好评估 LLMs 的开放平台 Chatbot Arena。

Chatbot Arena 采用成对比较法，并通过众包利用来自不同用户群的输入。该平台已运行数月，积累了超过 24 万张选票。该项研究介绍了该平台，分析了迄今为止收集到的数据，并解释了研究团队为高效、准确地评估模型并对其进行排序而使用的经过验证的统计方法。

众包问题具有足够的多样性和辨别力，其人工投票与专家评分者的投票非常一致。这些分析共同为 Chatbot Arena 的可信度奠定了坚实的基础。由于其独特的价值和开放性，Chatbot Arena 已成为最有参考价值的 LLM 排行榜之一，被领先的 LLM 开发人员和公司广泛引用。

论文链接：https://arxiv.org/abs/2403.04132

项目地址：https://chat.lmsys.org/

【利用对比奖励改进 RLHF】

基于人类反馈的强化学习（RLHF）是将大型语言模型（LLMs）与人类偏好相对齐的主流范式。然而，现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型，而奖励模型对各种来源的噪声（如人类标注错误）非常脆弱和敏感，这使 pipeline 变得脆弱。

来自复旦大学、字节跳动和西北大学的研究团队通过在奖励上引入惩罚项 contrastive rewards 来提高奖励模型的有效性。该方法包括两个步骤：第一，离线采样步骤，获取对提示的回应，作为计算基线；第二，使用基线回应计算对比奖励，并将其用于近端策略优化（PPO）步骤。

研究表明，对比奖励使 LLM 能够惩罚奖励的不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准以及减少 PPO 中的差异。通过 GPT 和人类的评估，实证结果表明，对比性奖励可以大幅提高 RLHF，而且这一方法始终优于强基线。

论文链接：https://arxiv.org/abs/2403.07708

【亚马逊提出大规模视频语言对齐方法 VidLA】

传统的视频语言对齐方法存在两大局限。首先，这些方法无法捕捉短程和长程时间的依赖性，它们通常采用复杂的分层深度网络架构，很难与现有的预训练图像-文本基础模型集成。

为了有效解决这一局限性，亚马逊研究团队提出了大规模视频语言对齐方法 VidLA，采用了简单的网络架构，并使用一组以分层方式在不同时间分辨率下运行的数据 token，从而考虑视频的时间分层性质。通过采用简单的双塔架构，能够用预先训练好的图像-文本基础模型来初始化视频-语言模型，从而提高最终性能。

其次，由于缺乏语义配准的大规模训练数据，现有的视频语言配准工作效果并不理想。为了克服这一问题，该团队利用 LLM 整理出了迄今为止最大的视频语言数据集，并提供了更好的视觉基础。与只包含短片的现有视频-文本数据集不同，该数据集丰富了不同时长的视频片段，从而帮助时间分层数据 token 在不同时间尺度上提取更好的表征。

实验结果表明，该团队提出的方法在多个检索基准（尤其是在较长的视频上）上取得了 SOTA，在分类基准上的表现也很有竞争力。

论文链接：https://arxiv.org/abs/2403.14870

第 7 章安全治理

【Google DeepMind 新研究：大模型的危险能力评估】

要了解人工智能系统带来的风险，我们必须了解它能做什么，不能做什么。

为此，Google DeepMind 团队提出了一项新的“危险能力”（dangerous capability）评估计划，并在 Gemini 1.0 模型上进行评估，其中涵盖四个领域：说服和欺骗、网络安全、自我“增殖”（self-proliferation）和自我推理。结果显示，他们没有在所评估的模型中发现具有强大危险能力的证据，但标出了预警信号。

研究团队表示，他们的目标是帮助推进严格的危险能力评估科学，为未来的模型做好准备。

论文链接：https://arxiv.org/abs/2403.13793

【压缩大型语言模型的安全性和可信度评估】

压缩高能力大型语言模型（LLMs）已成为资源节约型推理的首选策略。

然而，尽管 SOTA 压缩方法在保持良性任务性能方面取得了令人瞩目的进步，但压缩在安全性和可信度方面的潜在风险却在很大程度上被忽视了。

来自德克萨斯大学、德雷克塞尔大学和麻省理工学院的研究团队及其合作者，首次使用 5 种 SOTA 压缩技术，从 8 个可信度维度对 3 种领先的 LLMs 进行了全面评估。该研究强调了压缩与可信度之间错综复杂的相互作用，揭示了一些有趣的模式。

实验发现，在同时实现效率和可信度方面，量化是目前比剪枝更有效的方法。例如，4-bit 量化模型保留了原始模型的可信度，但模型剪枝会显著降低可信度，即使稀疏度为 50%。此外，在适度的比特范围内进行量化，可以出乎意料地提高某些可信度维度，如道德和公平性。相反，极端量化到非常低的比特水平（3 bit）往往会大大降低可信度。只看良性性能无法发现这种风险的增加，这反过来又要求在实践中进行全面的可信度评估。这些发现最终为同时实现 LLMs 的高实用性、高效率和可信度提出了实用建议。

论文链接：https://arxiv.org/abs/2403.15447

【TroubleLLM：向红队专家看齐】

大型语言模型（LLMs）已成为各种自然语言任务的最先进解决方案，并被整合到现实世界的应用中。然而，LLMs 可能会表现出不良的安全问题，如社会偏见和有毒内容，因而具有潜在的危害性。因此，在部署之前必须对其安全问题进行评估。然而，现有方法生成的测试提示的质量和多样性还远远不能令人满意。这些方法不仅耗费大量人力和预算成本，而且在 LLM 应用的特定测试领域中，测试提示的生成缺乏可控性。

本着将 LLM 用于 LLM 测试的理念，来自蚂蚁集团和香港中文大学的研究团队提出了第一个用于生成有关 LLM 安全问题的可控测试提示的 LLM——TroubleLLM。实验和人工评估证明了 TroubleLLM 在生成质量和生成可控性方面的优越性。

论文链接：https://arxiv.org/abs/2403.00829

第 8 章大模型/AI4Science

【斯坦福推出 BioMedLM：在生物医学文本上训练语言模型】

GPT-4 和 Med-PaLM 2 等模型在各种生物医学 NLP 任务中表现出了令人印象深刻的性能。

然而，这些模型有数千亿个参数，运行时计算成本高昂，需要用户通过互联网发送输入数据，而且是在未知数据源上训练的。

是否有更小、更有针对性的模型能与之媲美？为了解决这个问题，来自斯坦福大学和 DataBricks 的研究团队推出了 BioMedLM，这是一个 27 亿参数的 GPT 式自回归模型，专门在 PubMed 摘要和全文上进行训练。经过微调后，BioMedLM 可以生成强大的生物医学多选题答题结果，与更大型的模型相比更具有竞争力。例如，该模型在 MedMCQA (dev) 考试中的正确率达到了 57.3%，在 MMLU 医学遗传学考试中的正确率达到了 69.0%。

此外，BioMedLM 还可以进行微调，为患者提供有用的医学主题问题解答。这表明，较小的模型有可能成为生物医学等特定 NLP 应用的透明、保护隐私、经济和环保的基础。

论文链接：https://arxiv.org/abs/2403.18421

【天津大学提出“中医大模型”Qibo】

目前，在人工智能领域，大型语言模型（LLMs）已经在医学、法律和金融等多个专业领域的用户意图理解和响应方面取得了显著进步。但是在传统中医（TCM）这一独特领域，由于其理论与现代医学之间的本质区别，以及专业语料资源的缺乏，LLMs 的性能提升面临挑战。

天津大学的研究团队构建和整理了中医药领域的专业语料库，为大型模型赋予中医药理论所特有的专业知识，并成功开发了基于 LLaMA 的 Qibo 模型，这是中医药领域第一个经历了从预训练到监督微调（SFT）的完整训练过程的 LLMs。

此外，该团队还开发了用于评估 LLMs 性能的专用工具 Qibo-benchmark。该工具将为量化和比较不同模型在中医药领域的理解和应用能力提供重要依据，并为未来中医药智能助手的研究方向和实际应用提供指导。

经过充分的实验证明，Qibo 在中医领域具有良好的性能。

论文链接：https://arxiv.org/abs/2403.16056

【综述：心理健康大模型】

大语言模型（LLMs）在数字健康领域受到了广泛关注，并显示出了其潜力，而其在心理健康领域的应用却一直存在争议。

伦敦大学学院通过研究 LLMs 最新研究的优势和局限性，总结了 LLMs 在心理健康领域的应用情况，并探讨其在心理健康领域的早期筛查、数字干预和其他临床应用所面临的挑战和机遇。根据 PRISMA 指南，该团队研究了 PubMed、DBLP 计算机科学书目和 IEEE Xplore 上发表的英文文章，这些文章发表于 2017 年 1 月 1 日至 2023 年 9 月 1 日之间，重点关注了心理健康和 LLMs。

他们分析了 32 篇文章，包括利用社交媒体数据集进行心理健康分析（13篇）、心理健康聊天机器人（10篇）和其他心理健康应用（9篇）。研究结果表明，LLMs 在心理健康问题检测和通过个性化医疗保健加强远程心理服务方面非常有效。

然而，文本不一致、幻觉内容和缺乏伦理框架等风险也引起了人们对其临床应用的担忧。尽管存在这些挑战，LLMs 的进步凸显了其作为创新临床工具的潜力，因此有必要进一步研究和开发。因此他们也强调，LLMs 应该是专业心理健康服务的补充，而不是替代。

论文链接：https://arxiv.org/abs/2403.15401

【在语言模型中实现 3D 分子-文本解释】

语言模型（LM）对不同领域产生了巨大影响。然而，在理解 3D 分子结构方面的固有局限性，大大限制了它们在生物分子领域的潜力。

为了弥补这一缺陷，来自中国科学技术大学、新加坡国立大学的研究团队及其合作者，将重点放在 3D 分子-文本解释上，并提出了 3D-MoLM：三维分子语言建模。具体来说，3D-MoLM 通过为 LM 配备 3D 分子编码器，使 LM 能够解释和分析 3D 分子。这种整合是通过 3D 分子-文本投影实现的，它在 3D 分子编码器的表示空间和 LM 的输入空间之间架起了桥梁。

此外，为了增强 3D-MoLM 的跨模态分子理解和指令跟随能力，研究团队策划了一个以 3D 分子为中心的指令微调数据集—3D-MoIT。通过 3D 分子-文本配准和以 3D 分子为中心的指令微调，3D-MoLM 建立了 3D 分子编码器和 LM 的集成。它在下游任务（包括分子文本检索、分子字幕和更具挑战性的开放文本分子质量保证任务）上大大超过了现有基线，特别是在依赖于 3D 的属性方面。

论文链接：https://arxiv.org/abs/2401.13923

GitHub 地址：https://github.com/lsh0520/3D-MoLM

【FineMath：中文大语言模型的细粒度数学评估基准】

为了全面评估大语言模型（LLMs）的数学推理能力，我们需要精心策划涵盖不同数学概念和数学问题的不同难度的评估数据集。

为此，来自天津大学、中国地质大学（武汉）和昆士兰大学的研究团队提出了一个用于评估中文 LLMs 的细粒度数学评估基准数据集——FineMath，它涵盖了小学数学教学中的主要数学概念，并将其进一步划分为 17 类数学应用题，以便深入分析 LLMs 的数学推理能力。所有 17 类数学应用题都根据解题所需的推理步数，人工标注了难度级别。

研究团队在 FineMath 上对各种 LLMs 进行了广泛的实验，发现中文 LLMs 的数学推理能力仍有相当大的提升空间。他们还深入分析了以往被忽视的评价过程和方法，这两个因素极大地影响了模型结果以及对其数学推理能力的理解。

论文链接：https://arxiv.org/abs/2403.07747

【通过上下文学习，多模态大语言模型可对癌症病理图像进行分类】

医学图像分类需要标注特定任务的数据集，这些数据集用于从头开始训练深度学习网络，或对基础模型进行微调。然而，这一过程对计算和技术要求很高。在语言处理领域，上下文学习提供了另一种选择，即模型从提示中学习，绕过了参数更新的需要。然而，在医学图像分析中，上下文学习仍未得到充分探索。

来自海德堡大学附属医院、德累斯顿工业大学、圣安德鲁斯大学、海德堡大学、亚琛工业大学医院和 University Hospital Dresden 的研究团队系统地评估了 GPT-4V 在癌症图像处理中的应用，该模型在结肠直肠癌组织亚型分类、结肠息肉亚型分类和淋巴结切片中的乳腺肿瘤检测这三个重要的癌症组织病理学任务中采用了上下文学习。

研究结果表明，上下文学习足以媲美甚至超越为特定任务训练的专门神经网络，同时只需要极少量的样本。总之，这项研究证明，在非特定领域数据上训练的大型视觉语言模型可以开箱即用，解决组织病理学中的医学图像处理任务。这使没有技术背景的医学专家也能使用通用人工智能模型，特别是在注释数据稀缺的领域。

论文链接：https://arxiv.org/abs/2403.07407

【大模型作为心理学家？关于视觉情感计算的 GPT-4V 初步评估】

多模态语言模型（MLMs）被设计用于处理和整合来自文本、语音、图像和视频等多个来源的信息。尽管它在语言理解方面取得了成功，但为了更好地实现以人为本的应用，评估下游任务的性能至关重要。

来自香港科技大学（广州）、香港科技大学、北京通用人工智能研究院、浙江大学、大湾区大学、北航和中科院大学的研究团队评估了 MLMs 在情感计算中 5 种关键能力的应用，包括视觉情感任务和推理任务等。结果表明，GPT4 在面部动作单元识别和微表情检测方面具有较高的准确性，而其一般面部表情识别性能并不准确。

研究团队还强调了实现细粒度微表情识别所面临的挑战和进一步研究的潜力，并展示了 GPT4 在处理情绪识别和相关领域高级任务方面的多功能性和潜力，它通过与任务相关代理的集成来处理更复杂的任务，如通过信号处理进行心率估计。该项研究展示了关于 MLMs 在以人为本的计算中的潜在应用和挑战。

论文链接：https://arxiv.org/abs/2403.05916

项目地址：https://github.com/LuPaoPao/GPT4Affectivity

【ChatTraffic：首个用于文本到交通生成的扩散模型】

交通预测是智能交通系统（ITS）最重要的基础之一。传统的交通预测方法仅依靠历史交通数据来预测交通趋势，面临对异常事件不敏感和长期预测性能有限这两大挑战。

在这项工作中，研究团队探索了如何将生成模型与描述交通系统的文本相结合，用于交通生成，并将这项任务命名为文本到交通生成（TTG）。

TTG 任务的关键挑战在于如何将文本与道路网络的空间结构和交通数据联系起来，从而生成交通状况。为此，我们提出了 ChatTraffic，这是第一个用于文本到交通生成的扩散模型。为了保证合成数据和真实数据之间的一致性，我们用图卷积网络（GCN）增强了扩散模型，以提取交通数据的空间相关性。此外，我们还为 TTG 任务构建了一个包含文本-流量对的大型数据集。我们在发布的数据集上对我们的模型进行了定性和定量基准测试。

实验结果表明，ChatTraffic 可以从文本中生成真实的交通状况。

论文链接：https://arxiv.org/abs/2403.05029

GitHub 地址：https://github.com/ChyaZhang/ChatTraffic

【7B 语言模型，即可具备强大的数学能力】

此前人们认为，普通语言模型只有在规模非常大或需要大量数学相关预训练的情况下才会展现出数学能力。

来自微软亚洲研究院、西安交通大学、中国科学技术大学和清华大学的研究团队发现，采用普通预训练的 LLaMA-2 7B 模型已经表现出很强的数学能力，从 256 个随机生成答案中选择最佳响应时，该模型在 GSM8K 和 MATH 基准测试中的准确率分别达到了 97.7% 和 72.0%，这令人印象深刻。当前基础模型的主要问题是难以持续激发其固有的数学能力。值得注意的是，在 GSM8K 和 MATH 基准上，第一个答案的准确率分别降至 49.5% 和 7.9%。

研究团队发现，只需扩大 SFT 数据的规模，就能显著提高生成正确答案的可靠性。然而，由于公开数学问题的稀缺性，广泛扩展的潜力受到了限制。为此，研究团队采用了合成数据，事实证明合成数据几乎与真实数据一样有效，并且在扩展到约一百万个样本时也没有出现明显的饱和。

这种直接的方法在 LLaMA-2 7B 模型在 GSM8K 和 MATH 上分别达到了 82.6% 和 40.6% 的准确率，比以前的模型分别高出 14.2% 和 20.8%。该项研究还深入分析了不同推理复杂度和错误类型的扩展行为。

论文链接：https://arxiv.org/abs/2403.04706

项目地址：https://github.com/Xwin-LM/Xwin-LM

【哈佛大学新研究：为医学建立安全、统一的大型语言模型】

大型语言模型（LLMs）的功能正以令人惊叹的速度不断进步，其开发人员都在努力挖掘其潜力和风险。尽管已经采取了初步措施来评估通用知识 LLMs 的安全性和一致性，并暴露出了一些弱点，尽管医疗 LLMs 对个人健康和安全、公共健康和安全以及人权都存在风险，但其安全性和一致性尚未得到评估。

为此，来自哈佛大学和剑桥大学的研究团队首次对医用 LLMs 进行了安全评估。具体来说，研究团队提出了医疗人工智能系统的医疗安全性和一致性的定义，开发了一个有害医疗问题数据集来评估 LLMs 的医疗安全性和一致性，评估了医疗 LLMs 的通用性、医疗安全性和一致性，证明了微调是一种有效的缓解策略，并讨论了机器学习社区用于开发安全和对齐的 LLMs 的更广泛、更大规模的方法。

研究团队希望这项研究能够阐明医学 LLMs 的安全性和一致性，并激励未来的工作对其进行研究和开发更多缓解策略，从而最大限度地降低 LLMs 在医学中的危害风险。

论文链接：https://arxiv.org/abs/2403.03744

【在神经科学领域，大模型超越人类专家】

科学发现往往依赖于对数十年研究成果的综合，这一任务有可能超出人类的信息处理能力。大型语言模型（LLMs）提供了一种解决方案。经过大量科学文献训练的 LLMs 有可能整合嘈杂但相互关联的研究成果，从而比人类专家更好地预测新结果。

为了评估这种可能性，来自伦敦大学学院的研究团队及其合作者创建了一个预测神经科学结果的前瞻性基准——BrainBench。研究发现，LLMs 在预测实验结果方面超过了专家。BrainGPT 是根据神经科学文献调整的 LLM，它的表现更好。与人类专家一样，当 LLMs 对自己的预测充满信心时，他们更有可能预测正确。该项研究并不局限于神经科学，也可以应用于其他知识密集型领域。

论文链接：https://arxiv.org/abs/2403.03230

【EyeGPT：大模型驱动的眼科助手】

人工智能（AI）具有改善临床工作流程和加强医疗沟通的潜力，因此在医疗咨询领域备受关注。然而，由于医疗信息的复杂性，用普通世界知识训练的大型语言模型（LLM）可能无法在专家级水平上处理与医疗相关的任务。

来自香港理工大学、Centre for Eye and Vision Research (CEVR)、中山大学、上海交通大学和眼科临床医学中心的研究团队提出了专为眼科设计的专业 LLM——EyeGPT，它采用了角色扮演、微调和检索增强生成三种优化策略。特别是，研究团队提出了一个全面的评估框架，包含一个涵盖眼科的各个亚专科、不同的用户和不同的查询意图的多样化数据集。

此外，研究团队还考虑了多种评估指标，包括准确性、可理解性、可信度、共鸣和幻觉比例。通过评估不同 EyeGPT 变体的性能确定了最有效的变体，它在可理解性、可信度和移情能力方面与人类眼科医生的水平相当（all Ps>0.05）。该研究为今后的研究提供了宝贵的见解，有助于全面比较和评估眼科专业 LLM 的不同开发策略。其潜在益处包括改善患者的眼科护理体验和优化眼科医生的服务。

论文链接：https://arxiv.org/abs/2403.00840

【ChatDiet：个性化食品推荐 AI 聊天机器人】

食物对健康影响深远，我们需要先进的营养导向型食物推荐服务。传统方法往往缺乏个性化、可解释性和互动性等关键要素。虽然大语言模型（LLMs）带来了可解释性和可说明性，但独立使用它们却无法实现真正的个性化。

加州大学尔湾分校研究团队提出了一个由 LLM 驱动的新型框架——ChatDiet，它专为个性化营养导向食物推荐聊天机器人而设计。ChatDiet 整合了个人和群体模型，并辅以一个协调器（orchestrator）来可无缝检索和处理相关信息。能够根据个人用户的偏好动态提供个性化和可解释的食物推荐。

研究团队通过一项案例研究对 ChatDiet 进行了评估，他们建立了一个因果个人模型来估计个人的营养效果。评估展示了有效性达 92% 的推荐测试和说明性的对话实例，这凸显了 ChatDiet 在可解释性、个性化和互动性方面的优势。

论文链接：https://arxiv.org/abs/2403.00781

【港大、北大团队提出 Multimodal ArXiv：增强 LVLMs 的科学理解能力】

以 GPT-4V 为代表的大型视觉语言模型（LVLM）在涉及自然场景中具体图像的各种任务中表现出色。然而，由于缺乏科学领域的训练数据集，它们解释几何图形和科学绘图等抽象图形的能力仍然有限。

为了填补这一空白，来自香港大学和北京大学的研究团队提出了由 ArXivCap 和 ArXivQA 组成的 Multimodal ArXiv，从而增强 LVLMs 的科学理解能力。

据介绍，ArXivCap 是一个由 640 万张图片和 390 万条标题组成的图解标题数据集，这些图片和标题来自 572K 篇 ArXiv 论文，涉及多个科学领域。ArXivQA 是一个通过提示 GPT-4V 生成的基于科学数字的问题解答数据集，极大地增强了 LVLM 的数学推理能力，在多模态数学推理基准上实现了 10.4% 的绝对准确率提升。

此外，他们还利用 ArXivCap 设计了四个视觉到文本的任务，用于对 LVLMs 进行基准测试。对最先进的 LVLM 进行的评估结果表明，这些 LVLM 在处理学术数字的细微语义时表现较差，而针对特定领域的训练则能大幅提高其性能。

该研究的错误分析揭示了当前 LVLM 对视觉上下文的误读、识别错误以及制作过于简化的标题，为未来的改进提供了启示。

论文链接：https://arxiv.org/abs/2403.00231

项目地址：https://mm-arxiv.github.io/

第 9 章其他

【李飞飞团队发布具身人工智能基准，包含 1000 种日常活动和逼真模拟】

来自斯坦福、得克萨斯大学奥斯汀分校等大学的研究团队推出了一项以人为本的机器人技术综合模拟基准——BEHAVIOR-1K。

BEHAVIOR-1K 包括两个部分，由 “您希望机器人为您做什么？”这一问题的广泛调查结果指导和推动。第一部分是对 1000 种日常活动的定义，以 50 个场景（房屋、花园、餐厅、办公室等）为基础，其中有 9000 多个标注了丰富物理和语义属性的物体。其次是 OMNIGIBSON，这是一个模拟环境，通过对刚体、可变形体和液体进行逼真的物理模拟和渲染来支持这些活动。

实验表明，BEHAVIOR-1K 中的活动是长视距的，并且依赖于复杂的操作技能，这两点对于最先进的机器人学习解决方案来说仍然是一个挑战。为了校准 BEHAVIOR-1K 的模拟与现实之间的差距，研究团队进行了一项初步研究，将在模拟公寓中使用移动机械手学习到的解决方案转移到现实世界中。

研究团队希望 BEHAVIOR-1K 以人为本的特性、多样性和现实性能使其在具身人工智能和机器人学习研究中发挥重要作用。

论文链接：https://arxiv.org/abs/2403.09227

项目地址：https://behavior.stanford.edu/

【苹果 MM1 大模型：30B 参数，多模态，在预训练指标上达到 SOTA】

苹果团队在最新论文中讨论了构建高性能的多模态大语言模型（MLLMs）的问题，特别研究了各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据选择进行细致而全面地分析，研究团队发现了一些关键的设计经验。

例如，与其他已发布的预训练结果相比，在大规模多模态预训练中，精心混合使用图像字幕、交错图像文本和纯文本数据，对于在多个基准测试中取得 SOTA 少样本结果至关重要。此外，研究团队还展示了图像编码器、图像分辨率和图像 token 数都会产生重大影响，而视觉语言连接器设计的重要性则相对较小。

通过所提出的方法，研究团队建立了一个多模态模型系列 MM1，它由密集模型和专家混合（MoE）变体组成，参数多达 30B，在预训练指标上达到了 SOTA，并在一系列既定的多模态基准上经过监督微调后取得了具有竞争力的性能。得益于大规模的预训练，MM1 具有增强的上下文学习和多图像推理等吸引人的特性，从而能够进行少样本的思维链提示。

论文链接：https://arxiv.org/abs/2403.09611

【AIOS：将大型语言模型嵌入操作系统】

基于大型语言模型（LLM）的智能体（agent）的集成和部署一直充满挑战，影响其效率和功效，问题包括：LLM 上智能体请求的次优调度和资源分配、智能体与 LLM 交互过程中维持上下文的困难，以及集成具有不同能力和专长的异构智能体所固有的复杂性。此外，智能体数量和复杂性的快速增长进一步加剧了这些问题，往往会导致瓶颈和资源利用率不达标。

受这些挑战的启发，罗格斯大学的研究团队推出了一种将大型语言模型嵌入操作系统（OS）的 LLM 智能体操作系统 AIOS。具体来说，AIOS 的设计目的是优化资源分配、促进智能体之间的上下文切换、实现智能体的并发执行、为智能体提供工具服务以及维护智能体的访问控制。

该团队介绍了这种操作系统的架构，概述了它要解决的核心挑战，并提供了 AIOS 的基本设计和实现方法。

他们对多个智能体并发执行的实验证明了 AIOS 模块的可靠性和效率。可以通过这些实验，提高 LLM 智能体的性能和效率，同时为将来更好地开发和部署 AIOS 生态系统开辟道路。

论文链接：https://arxiv.org/abs/2403.16971

GitHub 地址：https://github.com/agiresearch/AIOS

【3D 视觉-语言-动作生成世界模型】

最近的视觉-语言-动作（VLA）模型依赖于 2D 输入，缺乏与更广阔的 3D 物理世界的整合。此外，这些模型通过学习从感知到行动的直接映射来进行行动预测，忽视了世界的巨大动态以及行动与动态之间的关系。相比之下，人类拥有世界模型，可以描绘对未来场景的想象，并据此规划行动。

为此，来自马萨诸塞大学阿默斯特分校、上海交通大学等大学的研究团队提出了 3D-VLA，介绍了一系列新的具身基础模型，通过生成式世界模型将 3D 感知、推理和行动无缝连接起来。具体来说，3D-VLA 建立在基于 3D 的大型语言模型（LLM）之上，并使用了一组交互 tokens 来与具身环境互动。

此外，为了给模型注入生成能力，研究团队训练了一系列具身扩散模型，并将它们与 LLM 对齐，以预测目标图像和点云。为了训练 3D-VLA 模型，研究团队从现有的机器人数据集中提取了大量与 3D 相关的信息，策划了一个大规模的 3D 体感指令数据集。

在数据集上进行的实验证明，3D-VLA 显著提高了具身环境中的推理、多模态生成和规划能力，展示了其在现实世界应用中的潜力。

论文链接：https://arxiv.org/abs/2403.09631

项目地址：https://vis-www.cs.umass.edu/3dvla/

【清华团队提出 UltraFuser：文本、代码和数学都很强】

自然语言、程序代码和数学符号的基础数据分布差异巨大，要使大型语言模型（LLMs）在三个领域同时实现高性能，还具有一定的挑战。要使 LLM 在特定领域内达到非常高的熟练程度，往往需要使用相关语料进行大量训练，而这通常会牺牲 LLM 在其他领域的性能。

为此，清华团队提出直接融合已经高度专业化的模型，他们提出的融合框架 UltraFuser 由三个已经在语言、编码和数学方面得到了充分的训练的专家组成。研究团队提出了 token 级门控机制来融合专家的输出。为确保稳定性，他们还设计了一种两阶段训练策略，并伴有平衡采样。

为了有效地训练融合模型，研究团队进一步构建了一个高质量的监督指令调整数据集 UltraChat 2，其中包括文本、代码和数学内容。该数据集包含约 30 万条指令，涵盖了各个领域的广泛主题。实验表明，该模型可以同时掌握这三个关键领域。

论文链接：https://arxiv.org/abs/2403.08281

【微软 AutoDev：人工智能驱动的自动化开发】

随着人工智能（AI）助手的出现，软件开发的格局发生了范式转变。然而，现有的解决方案并没有充分利用 IDE 的所有潜在功能，如构建、测试、执行代码、git 操作等。因此，这些解决方案受限于其有限的功能，主要侧重于在基于聊天的界面中建议代码片段和文件操作。

为了填补这一空白，微软团队推出了全自动 AI 驱动软件开发框架 AutoDev，该框架专为自主规划和执行复杂的软件工程任务而设计。AutoDev 使用户能够定义复杂的软件工程目标，并将其分配给 AutoDev 的自主 AI 智能体来实现。这些 AI 智能体可以对代码库执行各种操作，包括文件编辑、检索、构建过程、执行、测试和 git 操作。它们还能访问文件、编译器输出、构建和测试日志、静态分析工具等。这使得 AI 智能体能够以完全自动化的方式执行任务并全面了解所需的上下文信息。

此外，AutoDev 还将所有操作限制在 Docker 容器内，建立了一个安全的开发环境。该框架结合了防护栏以确保用户隐私和文件安全，允许用户在 AutoDev 中定义特定的允许或限制命令和操作。

研究团队在 HumanEval 数据集上对 AutoDev 进行了测试，在代码生成和测试生成方面分别取得了 91.5% 和 87.8% 的 Pass@1 好成绩，证明了它在自动执行软件工程任务的同时维护安全和用户控制的开发环境方面的有效性。

论文链接：https://arxiv.org/abs/2403.08299

【ChatGPT 等大模型改了多少 AI 顶会论文？】

来自斯坦福、NEC Labs America 和加州大学圣芭芭拉分校的研究团队提出了一种估算大型语料库中可能被大型语言模型（LLMs）大幅修改或生成的文本比例的方法。我们的最大似然模型利用专家撰写的参考文本和人工智能（AI）生成的参考文本，在语料库层面准确、高效地检验了真实世界中 LLMs 的使用情况。

研究团队将这种方法应用于 ChatGPT 发布后 AI 会议科学同行评审的案例研究：ICLR 2024、NeurIPS 2023、CoRL 2023 和 EMNLP 2023。研究结果表明，在提交给这些会议的同行评议文本中，有 6.5% 到 16.9% 的文本可能被 LLMs 大幅修改过，即超出了拼写检查或细微的文字更新范围。生成文本的情况有助于深入了解用户行为：在可信度较低、提交时间临近截止日期以及不太可能回应作者反驳的审稿人所提交的审稿中，估计 LLMs 生成文本的比例较高。

研究团队还观察到了生成文本在语料库层面的趋势，这些趋势可能过于微妙，无法在个体层面发现，他们还讨论了这些趋势对同行评审的影响。研究团队呼吁今后开展跨学科工作，研究使用 LLMs 如何改变我们的信息和知识实践。

论文链接：https://arxiv.org/abs/2403.07183

【网易、北理新研究：让大模型成为一个好的故事讲述者】

讲故事的目的是在有序图像流的基础上产生合理而生动的叙事。图像故事主题的忠实性和故事情节的发散性吸引读者继续阅读。以前的工作通过迭代改进了多种模式的对齐，但最终为图像流生成了简单化的故事情节。

来自北京理工大学和网易公司的研究团队提出了一种新的 pipeline——LLaMS，用于生成体现了表现力和一致性的多模态人类级故事。具体来说，通过充分利用 LLM 中的常识性知识，研究团队首先采用序列数据自动增强策略来增强事实内容的表达，并利用文本推理架构来生成和预测富有表现力的故事。其次，他们提出了用于故事插图生成的 SQ-Adatpter 模块，该模块可保持序列一致性。

人工评估验证了 LLaMS 的优越性。评估结果表明，与之前的 SOTA 方法相比，LLaMS 达到了最先进的讲故事性能，相关性达到 86%，一致性达到 100%。此外，研究团队还进行了消融实验来验证建议的序列数据增强和 SQ-Adapter 的有效性。

论文链接：https://arxiv.org/abs/2403.07301

【语言模型的算法进展】

来自 Epoch、麻省理工和东北大学（Northeastern University）的研究团队探索了自深度学习出现以来预训练语言模型算法的改进速度。利用 Wikitext 和 Penn Treebank 上的 200 多个语言模型评估数据集（时间跨度为 2012-2023 年），研究团队发现，达到设定的性能阈值所需的计算量大约每 8 个月减少一半，95% 置信区间约为 5 到 14 个月，大大快于摩尔定律的硬件增益速度。

研究团队估算了增强的 scaling laws，这使量化算法的进步能够量化，同时确定缩放模型与训练算法创新的相对贡献。尽管算法进步和新架构（如 Transformer）的开发速度很快，但计算能力的提高对这一时期的整体性能提升做出了更大的贡献。虽然受限于嘈杂的基准数据，但该项分析量化了语言建模方面的快速进步，揭示了计算和算法的相对贡献。

论文链接：https://arxiv.org/abs/2403.05812

【Google DeepMind 新研究：多步骤一致性模型】

扩散模型相对容易训练，但需要许多步骤才能生成样本。一致性模型（consistency models ）的训练难度要大得多，但只需一步即可生成样本。

Google DeepMind 团队提出了 Multistep Consistency Models，它是一致性模型和 TRACT 之间的统一，可以在一致性模型和扩散模型之间进行插值，在采样速度和采样质量之间进行权衡。具体来说，一步一致性模型是传统的一致性模型，而 ∞ 步一致性模型是扩散模型。

Multistep Consistency Models 在实践中效果非常好。通过将采样预算从单步增加到 2-8 步，可以让我们更轻松地训练模型，生成更高质量的样本，同时保留大部分采样速度优势。值得注意的是，Imagenet 64 在 8 步中的 FID 为 1.4，Imagenet128 在 8 步中的一致性蒸馏 FID 为 2.1。该方法可扩展到文生图扩散模型，生成的样本质量非常接近原始模型。

论文链接：https://arxiv.org/abs/2403.06807

【RecAI：利用大模型开发新一代推荐系统】

来自微软亚洲研究院、中国科学技术大学、中国人民大学的研究团队提出了一个实用的工具包 RecAI，它利用大型语言模型（LLMs）的先进功能来增强甚至革新推荐系统。RecAI 提供了一套工具，包括 Recommender AI Agent，Recommendation-oriented Language Models、Knowledge Plugin、RecExplainer 和 Evaluator，从多角度促进 LLMs 与推荐系统的整合。

有了 LLMs 的加持，新一代的推荐系统有望变得更加通用、可解释、可对话和可控，从而为更加智能和以用户为中心的推荐体验铺平道路。研究团队希望 RecAI 的开源能帮助加速新的高级推荐系统的发展。

论文链接：https://arxiv.org/abs/2403.06465

GitHub 地址：https://github.com/microsoft/RecAI

【微软团队解码“AI Pen”：检测人工智能生成文本的技术与挑战】

大型语言模型（LLM）在生成类人文本方面表现出了令人印象深刻的能力，这彻底改变了自然语言生成（NLG）领域。但它们的广泛使用也带来了挑战，需要深思熟虑、道德审查和负责任地实践。

微软团队深入探讨了这些挑战，探索了减轻这些挑战的现有策略，并特别强调将人工智能生成的文本确定为最终解决方案。此外，他们还从理论角度评估了检测的可行性，并提出了新的研究方向，以解决该领域目前存在的局限性。

论文链接：https://arxiv.org/abs/2403.05750

【谷歌 Gemini 1.5 Pro 技术报告出炉，共计 671 位作者】

在 Gemini 1.5 Pro 技术报告中，谷歌团队写道，“Gemini 1.5 Pro 是一种计算效率极高的多模态专家混合模型，能够从包括多个长文档和数小时的视频和音频在内的数百万个 token 的上下文中调用细粒度信息并进行推理。”

据介绍，Gemini 1.5 Pro 在各种模式的长语境检索任务中实现了接近完美的召回率，提高了长文档质量保证、长视频质量保证和长语境 ASR 的先进水平，并在一系列广泛的基准测试中达到或超过了 Gemini 1.0 Ultra 的先进水平。

另外，在研究 Gemini 1.5 Pro 长文本能力的极限时，谷歌团队发现，它在下一个 token 预测方面不断改进，检索率接近完美（>99%），达到至少 1000 万个 token，与 Claude 2.1（20 万）和 GPT-4 Turbo（128 万）等现有模型相比实现了巨大的提升。

最后，谷歌团队强调了大型语言模型（LLMs）在前沿领域令人惊讶的新能力；当给定 Kalamang（一种在全球使用人数不到 200 人的语言）的语法手册时，该模型学会了将英语翻译成 Kalamang，其水平与从相同内容中学习的人相似。

论文链接：https://arxiv.org/abs/2403.05530

【DeepSeek-VL：实现真实世界的视觉语言理解】

DeepSeek-VL 是一个开源的视觉语言（VL）模型，专为真实世界的视觉和语言理解应用而设计，围绕三个关键维度展开：

1）数据构建：为全面呈现实际语境，DeepSeek-AI 团队努力确保数据的多样性和可扩展性，并广泛涵盖现实世界的各种场景，包括网页截图、PDF、OCR、图表和基于知识的内容。此外，团队还根据真实用户场景创建了用例分类法，并据此构建了指令微调数据集。利用该数据集进行的微调大大改善了模型在实际应用中的用户体验。

2）模型架构：考虑到大多数实际应用场景的效率和需求，DeepSeek-VL 采用了混合视觉编码器，可高效处理高分辨率图像（1024 x 1024），同时保持相对较低的计算开销。这一设计选择确保了该模型在各种视觉任务中捕捉关键语义和细节信息的能力。

3）训练策略：团队认为，一个熟练的视觉语言模型首先应具备强大的语言能力。为了确保在预训练过程中保留 LLM 的能力，团队研究了一种有效的 VL 预训练策略，即从一开始就整合 LLM 训练，并仔细管理视觉和语言模式之间的竞争动态。

DeepSeek-VL 系列（包括 1.3B 和 7B 模型）作为视觉语言聊天机器人在现实世界的应用中展示了优秀的用户体验，在相同模型大小的各种视觉语言基准测试中取得了 SOTA 或具有竞争力的性能，同时在以语言为中心的基准测试中保持了强劲的性能。

论文链接：https://arxiv.org/abs/2403.05525

【苹果新研究：我们离智能视觉演绎推理还有多远？】

最近，GPT-4V 等视觉语言模型（VLMs）在各种视觉语言任务中取得了令人难以置信的进步。Apple 团队深入研究了基于视觉的演绎推理这一更为复杂但探索较少的领域，并发现了当前 SOTA VLMs 中尚未暴露的盲点。

研究团队利用瑞文渐进矩阵（RPMs）来评估 VLMs 仅依靠视觉线索进行多跳关系和演绎推理的能力。他们在三个不同的数据集（包括 Mensa IQ 测试、IntelligenceTest 和 RAVEN）上对几种流行的 VLMs 进行了全面评估，这些 VLMs 采用了标准策略，如上下文学习、自我一致性和思维链（CoT）。

结果表明，尽管 LLMs 在文本推理方面的能力令人印象深刻，但在视觉演绎推理方面仍远未达到可比的熟练程度。某些在 LLMs 中有效的标准策略并不能完美地应对视觉推理任务带来的挑战。此外，详细的分析显示，VLMs 在解决这些任务时之所以举步维艰，主要是因为他们无法感知和理解 RPM 示例中多种混淆的抽象模式。

论文链接：https://arxiv.org/abs/2403.04732

【Pix2Gif：图像到 GIF 生成的运动引导扩散模型】

来自微软的研究团队提出了一个用于生成图像到 GIF 的运动引导扩散模型——Pix2Gif。他们将任务表述为由文本和运动幅度提示引导的图像翻译问题。为确保模型遵循运动引导，研究团队提出了一个新的运动引导扭曲模块，以两种提示为条件对源图像的特征进行空间转换。此外，他们还提出了感知损失来确保转换后的特征图与目标图像保持在同一空间内，从而确保内容的一致性和连贯性。

在模型训练准备阶段，研究团队从 TGIF 视频字幕数据集中提取了连贯的图像帧并精心整理了数据，这些数据提供了有关研究对象时间变化的丰富信息。经过预训练后，模型以零样本的方式被应用于多个视频数据集。实验证明了该模型的有效性，它不仅能捕捉文本中的语义提示，还能捕捉运动引导中的空间提示。所有模型使用 16xV100 GPU 的单节点训练。

论文链接：https://arxiv.org/abs/2403.04634

项目地址：https://hiteshk03.github.io/Pix2Gif/

【Meta、StabilityAI 新研究：用强化学习增强大模型推理】

从人类反馈中强化学习（RLHF）已成为使大型语言模型（LLM）输出与人类偏好对齐的主要方法。受 RLHF 成功的启发，来自Meta、佐治亚理工学院、StabilityAI 和加州大学伯克利分校的研究团队探索了多种从反馈中学习的算法，如 Expert Iteration、Proximal Policy Optimization（PPO）、Return-Conditioned RL 等在提高 LLM 推理能力方面的表现。

他们研究了启发式和通过学习奖励模型为 LLM 提供的稀疏和密集奖励。从多种模型大小和初始化开始，包括有监督微调（SFT）数据和无监督微调数据，研究团队发现所有算法的表现都相当不错，而 Expert Iteration 在大多数情况下表现最佳。令人惊讶的是，Expert Iteration 的样本复杂度与 PPO 相似，从一个预训练的检查点收敛最多需要一百万个样本。研究发现：在 RL 训练过程中，模型无法在 SFT 模型已经产生的解决方案之外进行更多探索。

此外，研究团队还讨论了在 SFT 训练期间，maj@1 和 pass@96 指标性能之间的权衡，以及 RL 训练如何同时提高这两个指标的性能。该项研究最后讨论了这一发现对 RLHF 的影响以及 RL 未来在 LLM 微调中的作用。

论文链接：https://arxiv.org/abs/2403.04642

【天大提出 SheetAgent：通过大模型进行电子表格推理和操作】

电子表格操作能显著提高工作效率，已经被广泛用于大多数日常工作中。大型语言模型（LLM）已被尝试用于电子表格的自动操作，但尚未在存在推理挑战的复杂现实任务（如具有多步骤推理和模糊要求的长视距操作）中进行研究。

为了缩小与现实世界需求的差距，天津大学团队提出了一个具有长视距和多类别任务的基准——SheetRM，其推理操作依赖于现实生活中的挑战。为了减轻上述挑战，研究团队进一步提出了一个利用 LLM 功能的新型自主智能体——SheetAgent。SheetAgent 由 Planner、Informer 和 Retriever 三个协作模块组成，通过迭代任务推理和反思，SheetAgent 既能实现高级推理，又能准确操作电子表格，而无需人工交互。

实验证明，与基线相比，SheetAgent 在多个基准测试中的通过率提高了 20%-30%，在电子表格操作中实现了更高的精度，并展示了卓越的表格推理能力。

论文链接：https://arxiv.org/abs/2403.03636

项目地址：https://sheetagent.github.io/

【GaLore：通过梯度低函数投影实现记忆高效的 LLM 训练】

由于权重和优化器状态的大小不断增加，大型语言模型（LLM）的训练面临着巨大的内存挑战。常见的内存缩减方法，如低秩适应（LoRA），是在每一层冻结的预训练权重中添加一个可训练的低秩矩阵，从而减少可训练参数和优化器状态。然而，这些方法在预训练和微调阶段的表现通常不如使用全秩权重（full-rank weights）进行的训练，因为它们将参数搜索限制在低秩子空间（low-rank subspace），改变了训练动态，而且可能需要全秩预热启动（full-rank warm start）。

来自加州理工学院、Meta AI、得克萨斯大学奥斯汀分校和卡内基梅隆大学的研究团队提出了一种允许全参数学习的训练策略Gradient Low-Rank Projection（GaLore），它比 LoRA 等常见的低阶适应方法更节省内存。GaLore 在 LLaMA 1B 和 7B 架构上使用多达 19.7B tokens 的 C4 数据集进行预训练。在 GLUE 任务上对 RoBERTa 进行微调时，在保持效率和性能的同时可将优化器状态下的内存使用率降低多达 65.5%。与 BF16 基线相比，8 位 GaLore 进一步减少了高达 82.5% 的优化器内存和 63.3% 的总训练内存。

值得注意的是，研究团队首次证明了在不采用模型并行、检查点或卸载策略的情况下，在拥有 24GB 内存的消费级 GPU（如NVIDIA RTX 4090）上预训练 7B 模型的可行性。

论文链接：https://arxiv.org/abs/2403.03507

【MIT 新研究：学习使用多种语言模型协作解码】

麻省理工团队提出了一种通过在 token 层交错生成多个大型语言模型（LLM）让它们学会协作的方法。他们将由哪个 LLM 生成下一个 token 的决定建模为一个潜在变量。通过在潜变量模型下优化训练集的边际可能性，基础 LLM 会自动学习何时自行生成、何时调用其中一个 “助手”语言模型生成，所有这一切都无需直接监督。解码过程中的 token 级协作可以根据手头的具体任务融合每个模型的专长。

这一协作解码尤其适用于跨领域环境，在这种环境中，通用基础 LLM 会学习调用领域专家模型。该项研究在指令遵循、特定领域 QA 和推理任务中，证明了联合系统的性能超过了单个模型。通过对所学潜在决策的定性分析，研究团队发现用其方法训练出来的模型表现出几种有趣的协作模式，比如模板填充。

论文链接：https://arxiv.org/abs/2403.03870

项目地址：https://github.com/clinicalml/co-llm

【Design2Code：我们离前端工程自动化还有多远？】

近年来，生成式人工智能取得了突飞猛进的发展，在多模态理解和代码生成方面实现了前所未有的能力。多模态大型语言模型（LLMs）可以直接将可视化设计转换为代码实现，开创了前端开发的新模式。

来自微软、Google DeepMind、斯坦福和佐治亚理工学院的研究团队将其形式化为一个 Design2Code 任务，并进行了全面的基准测试。具体来说，研究团队手动策划了一个包含 484 个不同真实网页的基准测试案例，并开发了一套自动评估指标，从而评估当前的多模态 LLMs 在截图作为输入的情况下，生成直接呈现给定参考网页的代码实现的能力。

研究团队还通过全面的人工评估对自动指标进行了补充。他们开发了一套多模态提示方法，并在 GPT-4V 和 Gemini Pro Vision 上展示了这些方法的有效性。然后进一步微调了一个开源模型——Design2Code-18B，它成功地和 Gemini Pro Vision 的性能相匹配。人工评估和自动度量都表明，与其他模型相比，GPT-4V 在这项任务中表现最佳。此外，在 49% 的情况下，标注者认为 GPT-4V 生成的网页可以在视觉外观和内容方面取代原始参考网页；而令人惊讶的是，在 64% 的情况下，GPT-4V 生成的网页被认为比原始参考网页更好。

细分指标表明，开源模型在回忆输入网页的视觉元素和生成正确的布局设计方面大多比较落后，而文本内容和着色等方面则可以通过适当的微调得到大幅改进。

论文链接：https://arxiv.org/abs/2403.03163

项目地址：https://salt-nlp.github.io/Design2Code/

【谷歌、斯坦福提出 RT-Sketch：将手绘草图用于目标条件模仿学习】

在目标条件模仿学习（IL）中，自然语言和图像通常被用作目标表征。然而，自然语言可能含糊不清，图像也可能过于具体。来自斯坦福、Google DeepMind 和 Intrinsic 公司的研究团队提出将手绘草图作为视觉模仿学习中的目标指定模式。草图像语言一样便于用户即时提供，但与图像类似，草图也能帮助下游策略实现空间感知，甚至超越图像，将任务相关对象与任务无关对象区分开来。

研究团队提出了一种以目标为条件的操作策略——RT-Sketch，它将所需场景的手绘草图作为输入，并输出操作。他们在成对轨迹数据集和相应的合成目标草图上训练 RT-Sketch，并通过在铰接式台面上重新排列桌面物品的六种操作技能对这种方法进行了评估。

实验结果表明，RT-Sketch 能够在简单的环境中完成与图像或语言条件智能体相似的操作，而在语言目标模糊或存在视觉干扰的情况下，RT-Sketch 则具有更强的鲁棒性。此外，RT-Sketch 能够解释不同程度的草图（从最简单的线条图到详细的彩色图）并对其采取相应的行动。

论文链接：https://arxiv.org/abs/2403.02709

项目地址：https://rt-sketch.github.io/

【Google DeepMind 新研究：让机器人学会动作语言】

语言提供了一种将复杂概念分解成可理解片段的方法。机器人模仿学习领域的最新研究使用语言条件策略，根据视觉观察和语言中指定的高级任务来预测动作。这些方法利用自然语言的结构，在多任务数据集中语义相似的任务（如“拿起可乐罐”和“拿起苹果”）之间共享数据。然而，随着任务在语义上越来越多样化（如 “拿起可乐罐”和“倒杯子”），任务之间的数据共享变得越来越困难，因此学习将高级任务映射到动作需要更多的演示数据。

为了在任务和动作之间架起桥梁，来自 Google DeepMind 和斯坦福的研究团队提出教机器人学习动作语言，用更精细的短语（如 “向前移动手臂”）来描述低级动作。作为任务和动作之间的中间步骤，预测这些语言动作迫使策略学习看似不同的任务中低级动作的共享结构。此外，以语言动作为条件的策略可以很容易地在执行过程中通过人类指定的语言动作进行修正。这为灵活的策略提供了新的范例，使其能够从人类对语言的干预中学习。

RT-H 方法利用语言动作构建了一个动作层次结构：它首先学习预测语言动作，然后以语言动作和高级任务为条件，在所有阶段利用视觉上下文预测动作。RT-H 利用这种语言-动作层次结构，通过有效利用多任务数据集来学习更稳健、更灵活的策略。研究表明，这些策略不仅能对语言干预做出响应，还能从语言干预中学习，其效果优于从远程操作干预中学习的方法。

论文链接：https://arxiv.org/abs/2403.01823

【Wukong：为大规模推荐建立 Scaling Law】

Scaling laws 在持续提高模型质量方面发挥着重要作用。但由于其升级机制效率低下，迄今为止的推荐模型并没有表现出类似于在大型语言模型领域所观察到的规律。这一局限性为这些模型适应日益复杂的现实世界数据集带来了巨大挑战。

Meta 团队提出了一种纯粹基于堆叠因式分解机（stacked factorization machines）的有效网络架构，以及一种协同升级策略来建立推荐领域的扩展法则，它们共同称为 “Wukong”。“Wukong”的独特设计使其能够通过更高更宽的层次来捕捉多样化的任意顺序的交互。

研究团队在六个公共数据集上进行了广泛的评估，结果表明“Wukong”在质量上始终优于最先进的模型。在一个内部大规模数据集上对“Wukong”可扩展性的评估表明，其在质量上保持了对一流模型的优势，同时在模型复杂度上保持了两个数量级的 Scaling laws，超过了 100 Gflop 或相当于 GPT-3/LLaMa-2 规模的总训练计算量，这是以前的技术无法达到的。

论文链接：https://arxiv.org/abs/2403.02545

项目地址：https://rt-hierarchy.github.io/

【Cognition is All You Need】

最近对如由大型语言模型（LLMs）驱动的聊天机器人等对话式人工智能（AI）工具在复杂的现实世界知识工作中的应用进行的研究表明，这些工具在推理和多步骤问题解决方面存在局限性。具体来说，虽然现有的聊天机器人可以模拟浅层推理和理解，但随着问题复杂性的增加，它们很容易出错。

这些系统之所以无法处理复杂的知识工作，是因为它们没有进行任何实际认知。Mindcorp 公司研究团队提出了一个在 LLMs 之上和之外实现编程定义的神经符号认知的更高层次框架——Cognitive AI。具体来说，研究团队提出了 Cognitive AI 的双层功能架构，作为 AI 系统的路线图，可以执行复杂的多步骤知识工作。他们提出，Cognitive AI 是更高形式的AI（如 AGI）进化的必要先导，并特别声称 AGI 无法通过概率方法单独实现。

最后，研究团队讨论了对 LLMs、AI 采用周期和 Cognitive AI 商业开发的影响。

论文链接：https://arxiv.org/abs/2403.02164

【RegionGPT：实现区域理解视觉语言模型】

通过将大型语言模型（LLMs）与图像-文本对进行整合，视觉语言模型（VLMs）取得了突飞猛进的发展，但由于视觉编码器的空间感知能力有限，而且使用的是缺乏详细的特定区域描述的粗粒度训练数据，因此它们在详细的区域视觉理解方面举步维艰。

为此，来自香港大学和英伟达的研究团队推出了一个专为复杂区域级字幕和理解而设计的新型框架——RegionGPT（RGPT）。RGPT 通过对 VLMs 现有视觉编码器进行简单而有效地修改，增强了区域表征的空间意识。研究团队通过在训练和推理阶段整合任务引导的指令提示，进一步提高了需要特定输出范围的任务的性能，同时保持了模型在通用任务中的通用性。

此外，研究团队还开发了一个自动区域标题（caption）数据生成管道，用详细的区域级标题来丰富训练集。通用的 RGPT 模型可以有效地应用于一系列区域级任务并能够显著提高其性能，包括但不限于复杂的区域描述、推理、对象分类和引用表达式理解。

论文链接：https://arxiv.org/abs/2403.02330

项目地址：https://guoqiushan.github.io/regiongpt.github.io/

【具身智能新突破：将现实世界中的仿人控制视为下一个 token 预测】

类似于语言中的下一个单词（word）预测，来自加州大学伯克利分校的研究团队将现实世界中的仿人控制视为下一个 token 预测问题。

据介绍，该模型是通过传感器运动轨迹的自回归预测训练出来的因果 transformer。为了考虑数据的多模态性质，研究团队以模态对齐的方式进行预测，并对每个输入 token 预测同一模态的下一个 token。这种通用表述方式使模型能够利用模态缺失的数据，如没有动作的视频轨迹。

研究团队在一组模拟轨迹上训练了这一模型，这些轨迹来自先前的神经网络策略、基于模型的控制器、动作捕捉数据和 YouTube 上的人类视频。

结果表明，该模型能让一个全尺寸的仿人机器人在旧金山自由行走。即使仅使用 27 小时的行走数据进行训练，该模型也能迁移到现实世界中，并能泛化到训练过程中未见的指令，如向后行走。

论文链接：https://arxiv.org/abs/2402.19469

项目地址：https://humanoid-next-token-prediction.github.io/

【Google DeepMind 提出 AtP*：将大模型行为定位到组件的高效且可扩展方法】

Activation Patching 是一种直接计算模型组件行为因果关系的方法。然而，要详尽地应用这种方法，需要对模型组件的数量进行成本线性递增的扫描，而这对于 SoTA 大型语言模型（LLM）来说，成本之高令人望而却步。

Google DeepMind 团队研究了一种基于梯度的快速激活修补近似方法——Attribution Patching（AtP），并发现 AtP 的两种失效模式会导致严重的假否定。因此，他们提出了一种名为 AtP* 的 AtP 变体，在保留可扩展性的同时针对这些失效模式进行了两处修改。该研究首次系统地研究了 AtP 和其他更快激活修补方法，结果表明 AtP 明显优于所有其他研究方法，而 AtP* 则有进一步的显著改进。最后，研究团队提供了一种方法来约束 AtP* 估计值的剩余错误否定（remaining false negatives）概率。

论文链接：https://arxiv.org/abs/2403.00745

【清华、央音、微软亚研院：Byte 模型是数字世界的模拟器】

传统的深度学习往往忽视字节（bytes），它是数字世界的基本单位，所有形式的信息和操作都以二进制格式进行编码和处理。受自然语言处理中下一个 token 预测的成功启发，来自微软亚洲研究院、中央音乐学院和清华大学的研究团队及其合作者提出了一个用于模拟数字世界、具有下一个字节预测功能的模型——bGPT。

bGPT 在文本、音频和图像等各种模态下的性能与专业模型不相上下，为预测、模拟和诊断算法或硬件行为提供了新的可能性。它几乎完美地复制了符号音乐数据的转换过程，在将 ABC 记谱法转换为 MIDI 格式时，实现了每字节仅 0.0011 比特的低错误率。

此外，bGPT 在模拟 CPU 行为方面也表现出非凡的能力，执行各种操作的准确率超过 99.99%。利用下一字节预测，bGPT 等模型可以直接从大量二进制数据中学习，有效模拟数字世界的复杂模式。

论文链接：https://arxiv.org/abs/2402.19155

项目地址：https://byte-gpt.github.io/

【中科院、国科大新研究：进行自我感知、更接近人类的 AI】

“机器能思考吗？”这个问题和评估机器是否能达到人类智能水平的图灵测试，是人工智能（AI）的核心问题之一。

来自中科院和国科大的研究团队通过哲学论证“我思故我在”，对当前 AI 所支持的“会思考的机器”这一观点提出质疑，因为它们没有自我意识。当前的 AI 只是看似智能的信息处理，并不能像人类智能那样真正理解或主观意识到自我，并以自我感知世界。

研究团队提出了一种受大脑启发的基于自我的 AI——BriSe AI 范式。BriSe AI 范式致力于以自组织的方式协调各种认知功能和学习策略，以构建人类级别的 AI 模型和机器人应用。

具体来说，BriSe AI 强调“自我”在塑造未来 AI 中的关键作用，并植根于一个实用的分层自我框架，包括感知与学习、身体自我、自主自我、社会自我和概念自我。自我的分层框架突出了基于自我的环境感知、自我身体建模、与环境的自主交互、与他人的社交互动和协作，以及对自我更抽象的理解。此外，多层次“自我”之间以及“自我”与“学习”之间的积极相互促进和支持，增强了 BriSe AI 对信息的自觉理解和对复杂环境的灵活适应，成为推动 BriSe AI 向真正的通用人工智能迈进的动力。

论文链接：https://arxiv.org/abs/2402.18784

【综述：大模型与游戏】

近年来，有关大型语言模型（LLMs）的研究呈爆炸式增长，公众对这一主题的参与也随之增加。虽然 LLMs 最初只是自然语言处理中的一个小众领域，但它在包括游戏在内的广泛应用和领域中展现出了非凡的潜力。

来自马耳他大学和纽约大学的研究团队概述了 LLMs 在游戏中的各种应用现状，并指出了 LLMs 在游戏中的不同作用。他们讨论了游戏中未充分开发的 LLMs 领域和未来有望使用 LLMs 的方向，并协调了游戏领域中 LLMs 的潜力和局限性。作为 LLMs 与游戏交叉领域的第一份全面调查报告和路线图，研究团队希望这篇论文能够为这一新领域的突破性研究和创新奠定基础。

论文链接：https://arxiv.org/abs/2402.18659

【综述：AIGC 的检索增强生成】

人工智能生成内容（AIGC）的发展得益于模型算法的进步、可扩展的基础模型架构以及大量高质量数据集的可用性。虽然 AIGC 已经取得了令人瞩目的成绩，但它仍然面临着各种挑战，比如难以维护最新的长尾知识、数据泄漏的风险以及与训练和推理相关的高昂成本。

检索增强生成（RAG）是最近出现的一种应对这些挑战的范例。特别是，RAG 引入了信息检索过程，通过从可用数据存储中检索相关对象来增强 AIGC 结果，从而提高准确性和鲁棒性。

来自北京大学的研究团队全面回顾了将 RAG 技术集成到 AIGC 场景中的现有工作。首先根据检索器如何增强生成器对 RAG 基础进行分类。为各种检索器和生成器提炼了增强方法的基本抽象。这种统一的视角涵盖了所有 RAG 场景，揭示了有助于未来潜在进展的先进技术和关键技术。

研究团队还总结了 RAG 的其他增强方法，用于促进 RAG 系统的有效工程设计和实施。然后，他们从另一个角度考察了 RAG 在不同模式和任务中的实际应用，为研究人员和从业人员提供了参考。此外，研究团队还介绍了 RAG 的基准，讨论了当前 RAG 系统的局限性，并提出了未来研究的潜在方向。

论文链接：https://arxiv.org/abs/2402.19473

项目地址：https://github.com/hymie122/RAG-Survey

【Google DeepMind 推出 Griffin：结合门控线性递归和局部注意力，建立高效语言模型】

递归神经网络（RNNs）推理速度快，可有效扩展长序列，但存在训练困难、难以扩展的问题。为此，Google DeepMind 团队提出了一个具有门控线性递归的 RNN——Hawk 和一个混合了门控线性递归和局部注意的混合模型 Griffin。

在下游任务上，Hawk 的性能超过了 Mamba，在比 Llama-2 少 6 倍的 token 上训练出来的 Griffin 的性能则与 Llama-2 不相上下。研究团队还展示了 Griffin 可以在训练期间看到的序列长度之外进行外推。这些模型在训练过程中的硬件效率与 Transformers 相当，而在推理过程中，它们的延迟更低，吞吐量明显更高。研究团队将 Griffin 扩展到 140 亿个参数，并解释了如何对模型进行分片来实现高效的分布式训练。

论文链接：https://arxiv.org/abs/2402.19427

【HawkEye：可理解和推理时间信息的视频-文本 LLM】

视频-文本大语言模型（video-text LLMs）在回答简单视频中的问题和进行对话方面表现出色。然而，在复杂的长视频中，它们几乎无法理解和推理时间信息，而时间信息正是视频与图像之间最根本的区别。

来自北京大学、华为、北京通用人工智能研究院的研究团队提出了 HawkEye——一种能够以完全文本到文本的方式执行时态视频接地的视频-文本 LLM。为了收集适用于时态视频接地的训练数据，他们构建了 InternVid-G（一个具有段级标题和负跨度的大规模视频-文本语料库），并以此为视频-文本 LLM 提出了两个新的时间感知训练目标。此外，他们还提出了一种粗粒度方法来表示视频中的片段，与其他替代方法相比，这种方法更鲁棒，更易于 LLM 学习和跟踪。

实验结果表明，HawkEye 在时态视频接地方面更胜一筹，在其他视频-文本任务上也可与现有的视频-文本 LLM 相媲美，这验证了其卓越的视频-文本多模态理解能力。

论文链接：https://arxiv.org/abs/2403.10228

【斯坦福提出 VideoAgent：以大型语言模型为代理理解长视频】

长视频理解是计算机视觉领域的一项重大挑战，需要一个能够对长多模态序列进行推理的模型。受人类长视频理解认知过程的启发，斯坦福大学研究团队强调交互式推理和规划，而不是处理冗长视觉输入的能力。

他们提出了一种基于代理的新型系统——VideoAgent，它采用大型语言模型（LLMs）作为中心代理，反复识别和编译关键信息以回答问题，而视觉语言基础模型则作为翻译和检索视觉信息的工具。

在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中，VideoAgent 平均只使用了 8.4 和 8.2 帧，就实现了 54.1% 和 71.3% 的零样本准确率。这些结果表明，与目前最先进的方法相比，该方法具有更高的有效性和效率，凸显了基于代理的方法在推进长视频理解方面的潜力。

论文链接：https://arxiv.org/abs/2403.10517

【UC 伯克利提出 RAFT：根据特定领域的 RAG 微调语言模型】

在大型文本数据集上预训练大型语言模型（LLM）现已成为一种标准模式。在许多下游应用中使用这些 LLM 时，通常会通过基于 RAG 的提示或微调将新知识（如时间关键新闻或私人领域知识）添加到预训练模型中。然而，模型获取此类新知识的最佳方法仍是一个未决问题。

为此，UC伯克利团队提出了检索增强微调法（RAFT），这是一种新的训练方法，可提高模型在“开卷”领域设置中回答问题的能力。在 RAFT 中，给定一个问题和一组检索到的文档，可以训练模型忽略那些无助于回答问题的文档（即干扰文档）。RAFT 通过逐字引用相关文档中有助于回答问题的正确序列来实现这一点。这与 RAFT 的思维链（CoT）式响应相结合，有助于提高模型的推理能力。

在特定领域的 RAG 中，RAFT 持续提高了模型在 PubMed、HotpotQA 和 Gorilla 数据集上的性能，为改进预训练 LLM 的域内 RAG 提供了一种后训练方法。

论文链接：https://arxiv.org/abs/2403.10131

【苹果新研究：提高大模型的服务效率】

为提高大型语言模型（LLMs）的服务效率，苹果研究团队提出了一种改进的推测解码方法。该方法结合了经典的双模型推测解码方法和最新的单模型方法 Medusa 两种成熟技术的优势。

据介绍，从 Medusa 中汲取灵感，该方法采用单模型策略进行推测解码。不过，该方法与众不同之处在于，它采用了一种具有循环依赖性设计的单个轻量级草稿头（draft head），在本质上类似于经典推测解码中使用的小型草稿模型，但没有完整 Transformer 架构的复杂性。由于采用了递归依赖关系，该方法可以使用波束搜索快速过滤掉草稿头中不需要的候选码。这种方法既有单一模型设计的简便性，又避免了在 Medusa 中仅为推理而创建依赖数据的树状注意力结构。研究团队在几个流行的开源语言模型上实证了该方法的有效性，并对采用这种方法所涉及的权衡进行了全面分析。

论文链接：https://arxiv.org/abs/2403.09919

【UC 伯克利新研究：我们何时不需要更大的视觉模型？】

扩大视觉模型的规模一直是获得更强大视觉表征的事实标准。在这项工作中，来自 UC 伯克利和微软研究院的研究团队讨论了在多大程度上不需要更大的视觉模型。

首先，研究团队展示了“尺度扩展”（S^2）的能力，即在多个图像尺度上运行预先训练和冻结的较小视觉模型（如 ViT-B 或 ViT-L），在分类、分割、深度估计、MLLM 基准和机器人操纵方面的表现优于较大的模型（如 ViT-H 或 ViT-G）。值得注意的是，在 V* 基准上，S^2 在详细理解 MLLM 方面达到了 SOTA，超过了 GPT-4V 等模型。

另外，他们也研究了在哪些条件下，与根据模型大小进行缩放相比，S^2 是首选的缩放方法。虽然较大的模型在较难的例子上具有更好的泛化优势，但他们发现较大视觉模型的特征可以很好地近似于多尺度较小模型的特征。这表明，目前大型预训练模型所学习到的大部分（如果不是全部）表征也可以从多尺度较小模型中获得。

研究结果表明，多尺度较小模型的学习能力与较大模型相当，用 S^2 对较小模型进行预训练，可以达到甚至超过较大模型。

论文链接：https://arxiv.org/abs/2403.13043

GitHub 地址：https://github.com/bfshi/scaling_on_scales

【Meta 新研究：消除大模型“反转诅咒”？试试逆向训练】

大型语言模型（LLMs）有一个令人惊讶的缺陷：当在“A 有一个特征 B”上进行训练时，它们不能泛化为“B 是 A 的一个特征”，这就是所谓的“反转诅咒”（Reversal Curse）。由于齐普夫定律（Zipf's law）的存在，即使使用数万亿个 token 进行训练，这个问题仍然会出现，因此即使我们在整个互联网上进行训练，这个问题也会出现。

为此，Meta 研究团队提出了另一种训练方案，称为逆向训练（reverse training），即所有词都使用两次，从而使可用的词库数量翻倍。在保留（即不反转）所选子串（如实体）的同时，通过反转训练字符串，对 LLM 进行正向和反向训练。

研究表明，在标准任务中，数据匹配逆向训练模型的性能优于标准模型，而在反转任务中，计算匹配逆向训练模型的性能远远优于标准模型，有助于解决“反转诅咒”问题。

论文链接：https://arxiv.org/abs/2403.13799

【MathVerse：多模态语言模型真的懂数学图表吗？】

尽管多模态大型语言模型（MLLMs）在视觉环境中展现出了强大的能力，但在视觉数学解题中的能力仍未得到充分评估和理解。

为了对 MLLMs 进行公平、深入的评估，来自香港中文大学、上海人工智能实验室和加州理工大学洛杉矶分校的研究团队，提出了一个全方位的可视化数学基准 MathVerse。

据介绍，他们从公开资料中精心收集了 2612 个高质量、多主题、带图表的数学问题。然后，每个问题都会被人类注释者转换成六个不同的版本，每个版本都提供了不同程度的多模态信息内容，共计有 15000 个测试样本。通过这种方法，MathVerse 可以全面评估 MLLM 是否以及在多大程度上能够真正理解用于数学推理的可视化图表。

此外，为了对输出答案进行精细评估，他们还提出了一种思维链（CoT）评估策略。他们采用 GPT-4(V) 来自适应地提取关键推理步骤，然后通过详细的错误分析对每个步骤进行评分，从而揭示 MLLM 的中间 CoT 推理质量，而不是判断真假。

论文链接：https://arxiv.org/abs/2403.14624

项目地址：https://mathverse-cuhk.github.io/

【西湖大学新研究：优于 Transformer 的高效推理】

近来，多模态大型语言模型（MLLM）已被应用于各个领域。然而，用于许多下游任务的基础模型，目前的 MLLM 都是由 Transformer 网络组成，其二次计算复杂度效率较低。

为了提高基础模型的效率，西湖大学团队提出了线性计算复杂度 MLLM—Cobra，将高效的 Mamba 语言模型整合到了视觉模式中。此外，他们也探索和研究了各种模态融合方案，从而创建有效的多模态 Mamba。

大量实验证明：Cobra 与当前计算效率最高的方法 LLaVA-Phi、TinyLLaVA 和 MobileVLM v2 相比，性能极具竞争力，而且由于 Cobra 采用线性顺序建模，速度更快；有趣的是，封闭集挑战性预测基准测试结果表明，Cobra 在克服视觉错觉和空间关系判断方面表现出色；值得注意的是，Cobra 甚至只用了约 43% 的参数数量就实现了与 LLaVA 相当的性能。

论文链接：https://arxiv.org/abs/2403.14520

项目地址：https://sites.google.com/view/cobravlm

【微软提出状态空间模型 SiMBA：接近 Transformer】

Transformer 已广泛采用注意力网络用于序列混合，采用 MLPs 进行通道混合，在实现跨领域突破方面发挥了关键作用。

然而，最近很多学者强调了注意力网络的问题，包括低感应偏差和与输入序列长度有关的二次复杂性。为解决上述问题，学者们提出了状态空间模型（SSM），如 S4 和其他模型（Hippo、Global Convolutions、liquid S4、LRU、Mega 和 Mamba），从而帮助处理更长的序列长度。例如，Mamba 虽然是最先进的 SSM，但在扩展到计算机视觉数据集的大型网络时存在稳定性问题。

为此，微软团队提出了新架构 SiMBA ，将 Einstein FFT（EinFFT）引入，通过特定的特征值计算进行信道建模，并使用 Mamba 块进行序列建模。

基于图像和时间序列基准进行的广泛性能研究表明，SiMBA 的性能优于现有的 SSM，缩小了与最先进 transformer 的性能差距。值得注意的是，SiMBA 在 ImageNet 和迁移学习基准（如 Stanford Car 和 Flower）、任务学习基准以及七个时间序列基准数据集上取得了 SOTA。

论文链接：https://arxiv.org/abs/2403.15360

【UC 伯克利新研究：利用迭代数据增强提升大模型】

目前，预训练大型语言模型（LLM）是解决绝大多数自然语言处理任务的最先进方法。虽然现实世界中的许多应用仍需要微调才能达到令人满意的性能水平，但其中许多应用都处于低数据水平，这使得微调具有挑战性。

为了解决这个问题，UC 伯克利团队提出了 LLM2LLM，这是一种有针对性的迭代数据增强策略，它使用教师 LLM 来增强小型种子数据集，通过增强额外的数据来对特定任务进行微调。LLM2LLM 运行步骤如下：（1）在初始种子数据上微调基准学生 LLM 模型；（2）评估并提取模型出错的数据点；（3）使用教师 LLM 根据这些错误数据点生成合成数据，然后将其添加回训练数据中。这种方法放大了 LLM 在训练过程中预测错误的数据点信号，并将其重新整合到数据集中，以便 LLM 专注于更具挑战性的示例。

研究结果表明，LLM2LLM 显著提高了 LLM 在低数据机制中的性能，其表现优于传统的微调和其他数据增强基线。此外，LLM2LLM 还减少了对劳动密集型数据整理的依赖，有助于创建更具可扩展性和性能的 LLM 解决方案，使用户能够应对数据受限的领域和任务。

论文链接：https://arxiv.org/abs/2403.15042

GitHub 地址：https://github.com/SqueezeAILab/LLM2LLM

【好过 GPT-4V，上海 AI Lab 推出视频基础模型 InternVideo2】

近日，上海 AI Lab 推出了一种新的视频基础模型（ViFM）——InternVideo2，该模型在动作识别、视频类文本任务和以视频为中心的对话方面达到了 SOTA。

这种模型采用渐进式训练范式，将遮蔽视频 token 重建、跨模态对比学习和下一个 token 预测等不同的自监督或弱监督学习框架统一起来，不同的训练阶段将引导该模型通过不同的前置任务捕捉不同层次的结构和语义信息。在数据层面，研究团队通过语义分割视频和生成视频-音频-语音字幕，优先考虑时空一致性，并对 InternVideo2 的数据和模型大小进行了扩展。

通过大量实验，该团队验证了此模型的有效性，并在 60 多项视频和音频任务中达到了 SOTA。值得注意的是，该模型在各种与视频相关的字幕、对话和长视频理解基准测试中的表现都优于其他模型，突出了其推理和理解长时间语境的能力。

论文链接：https://arxiv.org/abs/2403.15377

【TinySaver：利用小模型自适应替代大模型】

都柏林大学学院与法国 Junia 公司介绍了一种类似早期退出的动态模型压缩方法 TinySaver ，它利用小模型自适应地替代大模型。与传统的压缩技术不同，TinySaver 等动态方法可以利用难度差异，让某些输入提前完成推理过程，从而节省计算资源。

现有的早期退出设计大多是通过在模型主干上附加额外的网络分支来实现的。然而，该研究团队发现，完全独立的小模型可以取代大模型的大部分工作，而对性能的影响却微乎其微，将它们作为第一出口可以显著提高计算效率。

通过搜索和使用最合适的微小模型作为给定大型模型的计算节省器，所提出的方法是一种新颖而通用的模型压缩方法。这一发现将有助于研究界探索新的压缩方法，以应对快速发展的人工智能模型带来的不断升级的计算需求。

该团队还在 ImageNet-1k 分类中对 TinySaver 进行了评估，结果表明，在各种现代视觉模型中，这种方法有可能将计算操作的数量减少多达 90%，而性能损失几乎可以忽略不计。

论文链接：https://arxiv.org/abs/2403.17726

【苹果公司：为虚拟助理建立世界英语语言模型】

用于虚拟助理（VA）的神经网络语言模型（NNLM）通常与语言、地区有关，在某些情况下还与设备有关，这就增加了扩展和维护这些模型的难度。结合一个或多个类别的 NNLM 是提高可扩展性的一种方法。

在这项工作中，苹果和 AppTek 将英语的区域变体结合起来，为设备上的 VA 建立了一个“世界英语”NNLM。特别是，他们研究了在现有的生产型 NNLM 中应用适配器瓶颈来模拟特定方言特征，并增强多方言基线。他们发现，在方言建模方面，适配器模块比专门化整个子网络更有效。

基于此，他们为世界英语 NNLM 引入了一种新架构，该架构可满足单方言模型的准确性、延迟和内存限制。

论文链接：https://arxiv.org/abs/2403.18783

【微软、MIT 新研究：通过改进提示提高模型性能、减少幻觉】

大型语言模型（LLM）的性能在很大程度上取决于提示语的质量，而提示语通常是人工设计并针对特定任务的，因此成本高昂且不可扩展。

来自微软和麻省理工学院的研究团队提出了一种新方法——监督提示训练（SPT）。SPT 使用双 LLM 系统自动生成高效提示。在该系统中，一个 LLM（生成器）执行任务，而另一个 LLM（校正器）提供反馈并生成改进的提示。与早期技术不同的是，生成器和校正器会相互协作，不断改进它们的提示。该方法还引入了“影响分数”（impact scores）的概念来衡量提示语在句子层面的有效性。该研究团队在四个基准上进行了测试，测试了 LLM 中的幻觉水平。

值得注意的是，SPT 方法能够将 GPT-4 在 GSM8K 上的准确率从 65.8% 提高到 94.1%，通过改进提示来提高性能和减少幻觉，从而改进了 LLM，为传统的模型微调提供了一种高效、可扩展的替代方法。

论文链接：https://arxiv.org/abs/2403.18051

【贾佳亚团队推出 Mini-Gemini：挖掘多模态视觉语言模型的潜力】

香港中文大学团队提出了 Mini-Gemini，这是一个简单有效的框架，可增强多模态视觉语言模型（VLM）。

尽管视觉语言模型在促进基本视觉对话和推理方面取得了进步，但与 GPT-4 和 Gemini 等模型相比，性能差距依然存在。该团队试图从高分辨率视觉 token、高质量数据和 VLM 引导生成这三个方面挖掘 VLM 的潜力，来提高性能和实现任意对任意的工作流程，从而缩小差距。为了增强视觉 token，该研究团队建议在不增加视觉 token 数量的情况下，利用额外的视觉编码器进行高分辨率细化。他们还进一步构建了一个高质量的数据集，以促进精确的图像理解和基于推理的生成，从而扩大当前 VLM 的操作范围。

总体而言，Mini-Gemini 进一步挖掘了 VLM 的潜力，并同时增强了当前框架在图像理解、推理和生成方面的能力。Mini-Gemini 支持从 2B 到 34B 的一系列密集和 MoE 大型语言模型。事实证明，它在多个零样本基准测试中取得了领先的性能，甚至超过了已开发的私有模型。

论文链接：https://arxiv.org/abs/2403.18814

GitHub 地址：https://github.com/dvlab-research/MiniGemini

【Google DeepMind 新研究：让大模型保持长篇事实准确性】

大型语言模型（LLM）在回答开放式话题的事实搜索提示时，经常会生成包含事实错误的内容。

为了对模型在开放式领域中的长篇事实性进行基准测试，Google DeepMind 团队首先使用 GPT-4 生成了一个由跨越 38 个主题的数千个问题组成的提示集——LongFact。

此外，他们提出可以通过一种称之为“搜索增强事实性评估器”（SAFE）的方法，将 LLM 智能体用作长篇事实性的自动评估器。

SAFE 利用 LLM 将长篇回复分解为一组单独的事实，并通过多步骤推理过程来评估每个事实的准确性，该过程包括向谷歌搜索发送搜索查询，并确定搜索结果是否支持某个事实。

他们还建议将 F1 score 扩展为长篇事实性的综合指标。为此，他们平衡了回复中支持事实的百分比（精确度）和所提供事实相对于代表用户首选回复长度的超参数的百分比（召回率）。

根据实验，他们证明了 LLM 智能体可以实现超人的评级性能，同时，SAFE 的成本比人类标注人员低 20 多倍。该研究团队还在 LongFact 上对四个模型系列（Gemini、GPT、Claude 和 PaLM-2）的 13 个语言模型进行了基准测试，发现较大的语言模型通常能获得更好的长篇事实性。

论文地址：https://arxiv.org/abs/2403.18802

GitHub 地址：https://github.com/google-deepmind/long-form-factuality

【LM2D：歌词与音乐驱动的舞蹈合成】

舞蹈通常由专业人员根据音乐节奏编排复杂的动作，也可能受到歌词内容的影响。除了听觉维度之外，歌词的融入也丰富了基础音调，并使动作生成更符合其语义含义。然而，现有的舞蹈合成方法往往只以音频信号为条件建立动作模型。

为此，来自瑞典皇家理工学院、南洋理工大学、国立情报学研究所和哥本哈根大学的研究团队通过两项贡献来弥补这一差距。首先，他们提出了一个新的概率架构 LM2D，它将多模态扩散模型与一致性蒸馏相结合，旨在通过一个扩散生成步骤同时创建以音乐和歌词为条件的舞蹈。其次，研究团队提出了首个包含音乐和歌词的 3D 舞蹈动作数据集，该数据集通过姿势估计技术获得。

研究团队通过客观指标和人类评估（包括舞者和舞蹈编导）对其模型与纯音乐基线模型进行了评估。结果表明，LM2D 能够生成与歌词和音乐相匹配的逼真、多样的舞蹈。

论文链接：https://arxiv.org/abs/2403.09407

往期月报：大模型月报（2024.02）

｜点击关注我 👇 记得标星｜

内容中包含的图片若涉及版权问题，请及时与我们联系删除

建议收藏！100篇必读论文｜大模型月报（2024.03）

第 1 章 文生图

第 2 章 文/图生视频

第 3 章 文生音频

第 4 章 文生3D

第 5 章 智能体（Agent）

第 6 章 对齐（Alignment）

第 7 章 安全治理

第 8 章 大模型/AI4Science

第 9 章 其他

评论列表

评论