BAAI 2024 智源大会大模型技术演进总结

技术演进方向

AGI技术的演进方向

按照上图所展示，语言大模型是基础（大家都在做），目前很多厂商在持续做多模态理解+生成，包括后面的具身智能与AI for Sciene。按照智源王仲远院长的展示，具身（自动驾驶、机器人等）与AI for science（主要是生物医学相关）的研究还在持续研究中，且离世界模型的距离还有较长的路要走。

大模型目前做各种业务场景的实践，需要提升的是思想基本核心能力，最终有上述这四项核心能力（理解、逻辑、记忆、生成）组合产生譬如总结、规划、翻译、解释、演绎等各类功能。

多模态大模型的演进方向

Emu3系列的多模态模型已经形成Any-2-Any的训练方法，包括文字、图像、视频等模型在输入输出的统一，当然这种范式向世界模型又前进了一步。仲远院长说目前Emu3系列模型在训练当中，要既能生成高质量的图片和视频，还可以续写视频、理解物理世界。目前多模态领域智源已经开源出 Bunny 系列数据+模型+代码，包括 3B、4B、8B 版本供大家使用。

具身智能的演进方向

如何实现Video-Language In, Action Out。按照目前智源所研究，具身可以操控一切软件。让智能体像人一样看屏幕，通过鼠标、键盘完成计算机上的所有任务，最终“反思过去、总结现在、规划未来”。

在具身的探索有特别多的应用和创新点：

结合国产自研硬件：打造人性机器人（心脏超声机器人）、灵巧手（工业手臂）
进行场景化探索：家庭服务机器人、无人药店商业化等（在服务、制造、物流、巡检等场景的应用）

与之处于并列AI for Science探索：在生命科学领域上主要应用是如何理解复杂的生物系统、优化药物的设计并助力医药研发。

各个头部厂商的技术栈和观点

文心大模型

文心大模型背靠百度搜索引擎，整个实现应该是非常复杂的系统工程与大模型的结合。王海峰老师在介绍文心基础大模型时，主要从如下七个方面来进行训练与优化：

基础模型训练：包括使用万卡算力、长文本建模、可再生训练和混合MOE专家模型训练四项；
数据构建与优化：主要谈及通过多种策略按照挖掘→分析→合成→标注→评估的完整闭环去优化数据源及数据分布；
对齐技术：技术点较多但为详细描述，涉及-多类型多阶段有监督微调、多层次多粒度奖励模型训练、多损失函数混合优化、自反馈增强的大模型对齐技术等。总的来说还是按照有监督微调→偏好学习→强化学习路线来做；
提示优化：分别从理解、扩展、整合和润色四个方面进行prompt的优化；
知识增强：百度通过构建一个拥有5500亿的知识图谱-这个很强来完成知识内化（数据构建与语义学习），并将这些知识用于提示的构建和知识推理上；
检索增强：基于百度整套的ERNIE预训练语义理解技术（文心大模型-产业级知识增强大模型），通过语义理解和匹配的新一代检索架构，完成在大模型前的检索增强；
对话增强：这里百度分别在记忆机制、上下文理解和对话规则三个方面来分别进行对话增强。这里的工作好像大家容易混入提升优化中，包括llama提出的ghost attn机制，保证系统消息在多轮对话中的一致性和这里的工作非常一致。

有关Agent的介绍，百度给出的motivation是来自作者Daniel Kahneman的《Thinking Fast and Slow》书籍中关于快慢的定义，也就是Agent应该是分为System1（快但容易出错）和System2（慢但理性正确）两个部分组成。设计的结构如下：

通过上述的方案设计的Agent，其主要核心在于如何训练system2系统，也就是思考模型。模型在这system2的这四个子功能中，需要增强理解、规划和反思能力，持续进化。换句话说整个方案需要分为三步：1）思考过程需进行有监督的精调；2）对于行为决策进行偏好学习；3）针对结果去反思进行强化学习。训练方法和LLM模型基本一致。

百川大模型

百川模型目前已经演进到Baichuan 4，在这个过程中主要是以语言是中轴心，认为语言是人类知识的压缩去找出自己的商业价值。联合创始人谢剑在演示是主要从训练创新性+探索性工作和应用落地两个方面进行展示：

1.训练数据：

使用百川3做数据质量的筛选和合成，按照下图展示，模型筛选是主要的数据筛选过程。

数据筛选和数据合成均有模型的参与，且是主要的贡献者。腾讯混元的康战辉老师也特别提到合成数据的重要性占比。

2.上下文长度的bound探索

可以明显看出ROPE编码的base选择与上下文长度的关系是一个幂函数的关系。对于ROPE base设定上，更大的训练长度本身就应该选择更大的底数，与训练策略无关。很有意思的结论

3.对齐

关于LLM在Cognitive和Expressive Capability能力的探索

百川在对齐上也有自己探索的工作，探索大模型的两种不同能力，该论文值得学习一下：

cognitive capability: 认知能力随着训练token量级，在不断变强
expressive capability: 最终不会超过预训练的知识

4.模型融合

在对齐阶段的模型融合工作由三个：

参数本身融合如何做？谢剑老师觉得值得去探索的工作，如左图所示，将不同模型能力集成在一起；
对DPO做改进，按维度去进行SPO，对应于人类的多维度偏好进行模型融合；
融合Human和AI的反馈融合，人类的反馈是直接需求，是需要解决的反馈。而AI的反馈是在AI本身上的，是能促进模型理解的，两者可以相辅相成进行PPO的多阶段效果提升。

5.推理

6.Agent：复杂任务评测方案

百川针对自研的AI助手，主要围绕两大需求进行研发：

（1）【懂】搜索：让模型掌握专业的搜索技能

解决方案：

定向搜索：精准定位问题领域，直接访问权威站点
多轮搜索：逐步解析，深入探究，解锁问题的核心答案
嵌入搜索结果：将搜索结果作为观点、论据直接应用到问题结果中
结构化：将搜索结果以表格等结构化形式呈现，优化信息布局，便于用于快速定位、解读所需信息

（2）【会】提问：让模型引导客户清晰表达自身需求

解决方案：

引导与激发用户清晰表达自身需求

零一万物大模型

由黄文灏老师介绍-他本人在YI系列模型中主要负责预训练，包括语言模型和多模态模型。黄老师围绕Scaling Law给出了非常硬核的分析以及一些有意思的思考。

对于数据的流水线的建立：

黄老师透露：加入零一万物的前三个月，让整个团队都没有做模型，均是在做数据。当数据比较ready的情况下才开始做模型，较为顺利，一次性成功。针对上图所示的数据exhausted问题，黄老师从三个方面进行的解释，1）数据的增长远超过我们的预估；2）合成数据量的得分越来越高；3）帕拉图representation hypothesis（不同模型在表示数据的方式上越来越趋于一致）

在预训练scaling law的公式验证上给出了上述公式，其中N为参数量、D为token数、C为浮点运算量（FLOPs）。这里 $ N_c $ 、$ D_c $ 以及 $α_{N} 、 α_{D}$ 均为常数。其主要应用在数据量选择、参数设置和训练的效果预估三个方面。

在The Bitter Lesson的解读中，给出了如下结论：所有结构模型在相同数据集上有足够训练时间均可接近同样的点，只是时间上的差异问题。

在解释Follow Llama模型结果并继续训练话题时，按照他的训练经验给出如下结论（llama模型主要做了如下三个变化）：

Post-norm：Pre-norm在超过千亿模型后相比于Post-norm会更好，只需要将其调的更稳定即可；
Swiglu激活函数：给出Swigle比Relu的收敛性更快，但计算所花费时间更长，需要做好平衡；
ROPE位置编码：给出ROPE位置编码计算会在训练Transformer或GPT模型中会占据10%以上时间。

腾讯混元模型

康战辉老师：腾讯混元及AI搜索的负责人。主导微信搜索、腾讯混元大模型、腾讯机器学习平台（应用在腾讯的广告、腾讯会议、搜索、企业微信、QQ等数百个领域）

康老师主要强调了MOE化的彻底应用，通过在千亿的dense模型（万亿token进行训练）作为基础进行Up-Scaling形成万亿的MOE模型（并加入7万亿的token进行训练，该模型为腾讯混元pro的基座模型），通过此次改造，包括基于合成数据（这里康老师特地提到说OpenAI在GPT-4o、GPT-5中有一半是合成数据，且GPT-4O、GPT-5都是MOE架构）、多种训练策略和对齐算法优化，模型效果整体提升超过50%，并且支持角色扮演、FunctionCall、代码生成等领域能力。

针对万亿MOE模型架构，目前腾讯主要在路由机制、训练稳定性和Scaling law上进行技术创新，来解决专家负载不均衡、训练稳定性差和专家表征趋同三个挑战。

具体的技术细节并未深入描述，这里给出的多阶段长文训练策略中FullAttention应该是ring att的某种改进，再加上外推机制的多阶段微调完成整个无损扩展。

针对数理能力的提升，混元的主要思路是依据合成数据及CoT+PoT解题方式（值得学习一下）去提升数理能力

这里拓展一下，数学推理是评估LLMs执行复杂多跳和定量推理能力的重要标志。在以前，这对神经网络来说是一项具有挑战性的任务，它们甚至难以解决基本的加法和减法问题。然而，最近的LLMs在数学推理方面取得的关键突破是通过CoT、PoT提示。

CoT 提示：鼓励LLMs在草稿上逐步解决问题，增强了数学推理的准确性和可解释性。但在计算精度以及复杂的数学或算法推理过程方面表现出困难（例如，解二次方程的根和计算矩阵特征值）
PoT 提示：将中间推理过程制定为一个程序，使用外部工具如 Python 执行以计算答案。通过将计算卸载到外部工具，这种方法提高了解决复杂数学问题的鲁棒性（例如，使用 sympy 解二次方程或使用 numpy 计算矩阵特征值）。但是，在处理更抽象的推理情景时，如常识推理、形式逻辑和抽象代数，特别是在没有内置 API 的情况下，PoT 的表现不佳

大多数现有的PoT工作局限于像 GPT-4 和 Codex 这样的专有模型。开源模型的 PoT 潜力尚未见分晓。目前主要通过指令调整优化 LLMs 的 CoT 和 PoT 推理能力。

针对AI搜索增强来改善时新类和知识类问题效果，降低模型幻觉，腾讯主要从三个方面入手：

搜索信源整合：微信搜索、搜狗搜索、长尾类数据的自建来整合；
设计从Prompt进行召回分析（包括查询、重拍和引用），再加上一个校验分析后，进入大模型进行summary，这样一个完整Planner+Action架构；
针对SearchGPT模型（应该就是腾讯元宝的基座模型）的改进：通过搜索增训+多任务微调完整混元模型在搜索场景的增强。

针对混元多模态模型，图生文只给出了结果展示，在文生图上采用多模态的LLM+DiT架构，方案实现简单通用。

上述chat类、search类、多模态类模型的应用点已经接入腾讯600+业务，目前在腾讯会议（AI助手）、腾讯云（ChatBI）、营销场景（素材生成、场景分析和推荐匹配）、微信（微信读书的AI问书）、新闻写作以及腾讯元宝APP的应用案例展示。

快手可灵、爱诗PixVerse文生视频模型

快手可灵：中国版sora，视频生成大模型。万鹏飞老师：快手视觉生成与互动中心负责人，负责快手可灵的模型训练；
爱诗PixVerse：在智源文生视频大模型全方位能力评测中，PixVerse位居全球TOP3，仅次于Sora和Runway。王长虎老师，爱诗科技创始人兼CEO。

在快手商业体系下，视频生成有着在UGC、PGC上的丰富应用场景，同时具有丰厚的视频创作经验，对于整个视频生成领域来说，将用户的多模态输入转为视频（2D+T）信号，也就是压缩到二维空间+时间的3D信号。

针对视频生成场景，可灵的技术方案从如下四个方面进行探索：

模型设计：

数据保障：

计算效率：

能力扩展：

上述的技术方案并未透露详细的实现细节，包括训练卡数、训练时长等，均表示无法透露。可灵模型的效果还是非常惊艳的，主要亮点有六个：1）大幅度的运动具有合理性（采用3D时空联合注意力机制）；2）分钟级的视频可生成，且帧率能达到30fps（得益于高效训练基础设施+极致的推理优化+可扩展的基础架构）；3）能模拟物理世界特性；4）强大的概念组合能力和想象力；5）电影级的画面生成（通过自研的3D VAE架构，生成1080p的分辨率）；6）支持自由的输出视频宽高比（可变分辨率的训练策略）。

爱诗科技CEO王长虎老师在文生图、文生视频领域主要讲解了：从检索生成→部分生成→基于大模型的视频生成技术的技术历史、大模型在视频领域的GAN、Diffusion、VLDM、VideoPoet的模型优劣、Sora的成功以及Luma、行业Tools工程Runway、Pika的差异化商业模式。

对于公司的核心产品PixVerse，其战略目标主要是满足实际的文字/图片/角色生成视频的创作需求。这样和目前设计领域常用绘世（SD系列）很像，流式的界面设计对于产品设计、视频创作非常简单易用，这里长虎老师展示了目前APP的功能和生成的结果：

PixVerse主要需要解决的问题有两个：一个是C2V 角色的一致性（也就是用户可以创建属于自己的角色库，选用特定角色连续进行视频生成，依据创作需求将其融入不同的场景和故事线）、另外一个就是可控性难题-Magic Brush 运动笔刷（用户通过涂抹区域和绘制运动轨迹，来精确控制视频元素的运动方法且符合物理规律）

目前的技术方法仍然是SD+Transformer架构：

本人与设计行业同学交流，AI基本融入到了大多数的产品设计当中，特别是科技行业的产品设计。并了解到的关于创作领域目前采用的方法还是使用绘世这种软件对于图片or视频进行图片的归档和标签文件撰写归档后，训练不同风格的Lora模型，通过权重调整，来生成不同风格，不同样式的图片or视频。也就是说 Chacter2Image、Chacter2Video在可控生成方面仍有很长的路要走，至于到底是选择Lora还是Adapter，两个方向均有大量的研究，具体本人还未深入的了解。

开源资源：

（1）智源系

1.语言模型数据开源：

行业类别划分的预训练数据集：https://data.baai.ac.cn/details/BAAI-IndustryCorpus
千万级高质量开源微调数据集：待开源

2.智源多模态开源：

小模型：GitHub - BAAI-DCAI/Bunny: A family of lightweight multimodal models. 数据也公开
大模型：GitHub - baaivision/Emu: Emu Series: Generative Multimodal Models from BAA

3.GPU芯片的技术开源体系

FlagOpen：提供一种面向异构芯片、支持多种框架的大模型全栈开源技术底座。（https://github.com/FlagOpen）

这里主要为FlagOS训练、评测和推理平台。集成包括Triton算子库、集合通信库以及FlagDiagnose智算集群诊断工具和FlagPerf AI芯片评测工具。

4.FlagEval 2.0评测体系（https://jwolpxeehx.feishu.cn/wiki/C6VfwvbmOiuVrokpJAgcJXUcnLh）

此外智源和HF合作做了一个中文LLM榜单：Open Chinese LLM Leaderboard - a Hugging Face Space by BAAI

（2）有价值的测评工具

YI使用了如下类似于AB实验的平台去进行测评，是一种更加客观的测评方法

（3）大模型知识编辑工具（https://github.com/zjunlp/EasyEdit）

有意思的研究点

模型合并与生长

仲远院长给出在模型生长方面的经验，包括从7B扩充到16B的的scale-up的扩充，以及在MOE架构下对于专家的scale-out的扩充，非常具有参考意义。关于模型合并增长方面，研究的学者也是非常多，应用点除了高效训练超大模型外，还包括在模型能力、长上下文能力上都做出了非常出色和可复现的工作。

例如在针对Llama3-70B模型长上下文扩充到100万时，有学者就利用模型合并思想去分离一个已经使用1.83Btoken的数据量分阶段训练好的模型的长上下文参数时，获得很好的效果。相当于得到了一个万能lora模型可以合并到Llama3-70B的任意模型上均能或者长上下文能力。这一点，本人已验证过在300K上的大海捞针测试中可以取得满分的效果。

再比如像百川的谢剑老师提到的关于模型参数本身融合、DPO过程按照SPO进行融合、融合RLHF和RLAIF的反馈，这些方向都非常值得探索。

知识编辑

知识编辑旨在通过内部更新或外部干预的方式缓解大模型知识谬误问题。知识编辑研究的2个主要动机：

LLM训练时候，无法保证知识100%正确学习，有错误的知识就存在知识编辑的需求；
知识是有时间特性，随着时间的迁移知识也会有变化，因此需要知识编辑技术更新知识；

知识编辑技术的3个衡量标准：

Generality：需要支持在不重训（re-training）模型的情况下完成知识更新；
Reliability：在编辑特定知识时，不影响其他现有知识；
Consistency：知识更新后，针对语义相似的提问/Prompt输入，模型应该正确地输出同一个知识；

在知识编辑上张宁豫老师讲的非常详细，取得的效果也非常惊艳，但总体还并有特别强的可解释性。关于知识编辑的实现方法和效果后面可以详细输出，大家可以参考张老师的公开学习资料：https://person.zju.edu.cn/person/attachments/2024-05/01-1714892750-871701.pdf

其他研究点

大参数/窗口：Continue Scaling UP and seek for more intelligent；这里腾讯混元给出了一个高效的超长文Attention训练机制，
多模态&实时交互：Any-to-Any、Human-like interaction；
长程任务：long-horizon task planning and completion capability(System1 → System 2)；
数理能力提升：依据现有CoT 提示、PoT 提示的研究方法去增强数理能力提升，前者偏向感性注重过程、后者偏向理性注重结果。

很有意义的结论

MOE结构被大家公认去训练在更大参数量的模型上，并且都是这样做的；
OpenAI的GPT-4 GPT4-O的数据来源接近50%来源于合成数据；
Yi模型训练时，FP6 FP4目前还没有支持，但做Yi-large、腾讯混元和百川做更大规模模型完全用FP8进行训练；
长上下文的扩展问题，不是技术问题，仅仅是算力问题，有算力就能干。另外GLM系模型的东昱晓表示超长文本也超过1million只有一万条。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

BAAI 2024 智源大会 大模型技术演进总结