进入2025年，大模型依赖Scaling Law提升性能的方式正面临边际递减。一方面算力成本居高不下，另一方面训练效率与推理质量难以兼顾。在这种背景下，模型正悄然从“模仿机器”转向“思考引擎”。

6月7日，以“推理”为核心的智源大会·深度推理模型论坛在北京举行，清华、北大、南大、上交、港科大、人大等高校的研究者与蚂蚁、DeepSeek等业界技术专家同台，围绕大模型的“第二增长曲线”展开深入讨论。

（回放链接：https://event.baai.ac.cn/live/896）

在主旨报告环节，丁宁、俞扬及何俊贤的研究深入探讨了强化学习在模型能力进化中的核心作用，揭示了如何通过设计精巧的奖励机制与算法，让模型在探索与自我修正中提升推理效率与泛化表现；袁境阳与吴翼着眼于“原生稀疏注意力”与“大规模强化学习系统”，试图让大模型从受制于算力瓶颈的“效率负担”，转变为在软硬件协同下高效训练；刘鹏飞与窦志成探讨了“认知工程”与“深度信息获取”，试图让模型从简单的知识工具，进化为能深度思考、解决真实世界复杂问题的“思考模型”；而张志强的工作揭示了模型训练背后深刻的数学规律，为庞大的预训练工程提供了科学的指南。

在最后的圆桌讨论中，各位专家学者进一步围绕深度推理模型的诞生、核心挑战与未来应用展开了精彩的思想碰撞。这些讨论不仅厘清了当下研究的关键问题，更为我们描绘了一年内技术落地的可能图景。

袁境阳：《原生稀疏注意力机制：关注硬件的原生可训练稀疏注意力大模型》

长文本处理是大模型研究的核心挑战。传统的基于 softmax 的注意力机制，其计算成本随着序列长度的增加而快速上升，成为了性能的主要瓶颈。为了解决这一问题，学术界提出了稀疏注意力概念。虽然稀疏注意力可以帮助直接计算注意力最重要的部分，但仍然面临以下两大挑战：（1）现有的方法主要针对推理阶段设计，很少有针对训练阶段设计的工作。（2）很多方法宣称大幅减少了注意力计算，在实际应用中不能完全发挥出理论优势。

袁博士所在团队通过原生可训练稀疏注意力机制和硬件对齐解决上述问题。

NSA的核心设计理念如上图所示。可训练的稀疏架构可以进行端到端的稳定训练。该工作实现了与硬件对齐的系统设计，保证理论上的计算减少，能实打实的提升运算速度。

NSA 的核心架构设计包含三个并行分支的注意力框架：（1）压缩注意力。将长序列中的 token 按序列顺序区分为若干长度的相同组，通过可学习的压缩器将每个组压缩成单个token。模型能以很低的计算成本快速扫描整个上下文，抓住全局主旨。（2）选择注意力。保留关键的细节，根据第一个分支算出的注意力得分来挑选最相关的组，并用每个组的原始 token 进行更精细的 attention 计算。（3）滑动窗口注意力。让压缩和选择分支能够更好地学习远距离依赖，而不是一直关注近处的信息。

最终，通过门控机制，将三个分支的注意力得分加权。

NSA 可以将稀疏索引信息（压缩的注意力梯度、稀疏信息的梯度、局部信息的梯度）进行自动的反向传播。通过独立的注意力分支，间接实现了稀疏索引的可学习，能够进行端到端的稳定训练。

之前的很多稀疏算法在论文中得到了很“美”的效果，但实际部署时没有达到预期性能。这是因为其内存访问模式是随机离散的，在GPU 上的计算效率极低。

NSA 采用了分块处理的方式，内存的读取还是计算都会以连续的数据块作为单位，能够最高效地利用现代 GPU 的张量核心，最大化提升了硬件的吞吐量。

尽管 NSA 是一个稀疏模型，它却能更好的拟合训练数据，达到了更低的损失，有力地证明了原生可训练设计的有效性。实验结果不哦表明，如果让模型从一开始就在稀疏的环境中去学习，不仅不会牺牲性能，反而可能因为更好地的过滤无关信息，从而实现了更优的收敛效果。

NAS 在涵盖知识推理、代码编程等 7 个主流基准评测任务上以更小的计算量，实现了超越了全量注意力模型的性能。在兼顾强大性能的同时， NSA 在效率上的同的提升也是革命性的。

丁宁:《强化学习驱动的推理模型：密集奖励、策略和自演化》

丁老师认为，模仿和学习的Scaling Law已经结束，但研究激励和探索的篇章才刚刚开始。计算量可以换来智能，计算量不仅包括了学习的计算量，还包括搜索的计算量。

监督学习是鼓励模仿，强化学习是鼓励探索。强化学习是当前最重要的技术，是典型的训推一体的架构，理论基础坚固。强化学习的目标是学习一个最优策略，最大化奖励。大模型的推理添加了泛化这一维度。

包括 DeepSeekR1 在内的很多大模型，用的都是结果奖励，没有使用过程奖励。而过程奖励永远是有用的，它很密集。然而，过程奖励的扩展是一个难题。RLHF 等方式由人来标注，不可扩展。蒙特卡洛树搜索在计算上也不可扩展。

为此，丁宁老师团队提出了免费的密集奖励方法“Implicit PRM”，相比于 MCTS 可以提升 38 倍的效率。

通过将奖励表示为策略模型的输出概率和参考模型的输出概率的对数似然之比，就能证明模型在理论上学习了一个 Q。通过将两个时刻的 Q 函数相减，就可以得到任意粒度的免费过程奖励。

在训练时，只使用结果奖励训练。推理时，可以用过程奖励推理，可以得到中间每一个 Token 的过程奖励，使密集奖励可扩展。Implicit PRM代表的密集奖励，代表的不是绝对的对与错，而是该动作相较于其它动作的优劣。

为了应用密集奖励。丁宁老师提出了PRIME，使用同一个模型初始化一个策略模型和一个免费的过程奖励模型（Implicit PRM），采样数据的输入和输出，对数据难度进行过滤从而保证有意义的更新，通过结果奖励在线更新 PRM，获得免费的过程奖励。PRIME 是一个通用算法，可提升现有强化学习模型的效率。

为了让模型在没有奖励时自己探索和进化，丁宁老师提出了测试时扩展的工作“TTRL”，在测试时估计一个靠谱的奖励，使用强化学习执行 Test Time Training，实现模型的“自进化”。

TTRL 采用了投票的方法，针对模型给出的 N 个进行投票，如果模型原始输出与投票结果一致则置为 1，否则为 0。这个方法的代码非常简单，但效果很好。在 AIME、AMC 和 MATH500 等任务上获得了很好的性能提升，具有很好的泛化性。其效果甚至和真实标签上训练的模型效果接近。

TTRL 之所以有效，可能是由于在多数投票的自监督框架下，即使标签估错，只要输出分散，奖励函数仍会“阴差阳错”地输出大量正确奖励，模型就能继续进步，TTRL 赋予了模型在错误中自我修正的能力。

在使用强化学习训练推理模型时，一般来说会发现两个现象：（1）策略熵往往会急剧下降（2）模型效果急剧上升饱和。其中，熵代表随机、探索和不确定性，奖励则代表确定性。模型训练过程中会出现“熵崩溃”现象。

无论用什么样的模型和数据训练，训练过程会拟合出一个曲线，体现出如下所示的数学规律，指出了确定性和不确定性的定量关系：

算法不会影响这一关系，而模型的大小、数据的难度会影响。我们甚至可以通过熵根据小模型预测大模型的系数。

为了通过控制熵打破模型上限，需要要分析熵的变化。对于使用 Softmax 策略的大语言模型，连续两步间的熵变化正比于对数概率与对应 logit 变化的协方差。对于策略梯度方法，Logits 的改变和动作的“优势”正相关，反映了模型对动作的自信程度。高概率高优势的动作会降低熵，低概率高优势的动作会提高熵。通过影响策略的熵的概率更新，就可以很好地控制熵。具体而言，可以将把这些Token裁剪掉，也可以用KL散度去约束它。

吴翼：《Areal：面向大模型的大规模强化学习系统》

强化学习算法框架下，智能体跟环境进行交互，执行动作，从环境中观测，不断通过自我进化、迭代和探索，来最大化奖励，最后得到一个比较好的策略。所有强化学习的算法核心是探索和利用。相较之下，大语言模型则是将所有正确的“答案”记忆下来。

随着大语言模型的发展，为了提升模型的指令遵循能力，研究者们尝试使用强化学习技术训练模型，奖励大语言模型的正确行为。此时，大模型便是强化学习框架下的智能体。

指令本身是环境和任务。动作是输出的所有文字。为了构造奖励，InstructGPT 采用人类反馈的强化学习，人工地为强化学习寻来呢提供奖励。由此衍生的 ChatGPT 成功地将强化学习和大模型结合在一起，火爆出圈。

然而，通过 RLHF 做后训练的范式其实并没有改变强化学习的 Scaling law。一般来说，RLHF 的迭代次数是很少的，并不会提升模型的能力。

为了通过强化学习提高 AGI 的智能，O1、R1 等模型推出了推理模型，让大模型像人一样思考，输出一些思考的 token，使其输出更准确，智能化水平更高。

在“有监督微调+强化学习”的推理模型训练范式下，需要定义奖励函数。我们并不关心大模型去探索的思考过程，只要最后的答案正确。训练的时间越久，测试时候思考的时间越久，模型的正确率往往越高。

然而，该场景下的强化学习往往需要耗费大量的计算资源，以 PPO 为例，其“Actor”、“Reference”、“Reward”、“Critic”都是包含大量参数的Transformer 模型，需要复杂的并行化计算。PPO 涉及的运算包含“训练”、“推理”、“生成”三大类，相互之间具有依赖性。

尽管以“共卡顺序执行”的方式实现并行化计算是一种容易实现的方案，具有低GPU等待时间，但是有大量的调度成本和通信开销。由于不同的大模型计算模式不一样，需要的并行策略和优化模式也不一样，运算会非常慢。

在 MLSys 2025 发表的“Real”系统在不同的任务阶段时间动态调用不同的计算资源，执行不同的策略，灵活调整并行、顺序执行任务的方式。Real 实现了低通信开销，较低的 GPU 等待时间，具有高训练吞吐量。

近期，吴翼老师团队针对基于强化学习的推理模型训练提出了“AReal”系统。相较于 RLHF 算法，推理 RL 的算法流程相对简单。然而，推理模型的输出长度远高于 RLHF 训练的模型的输出长度。随着训练的增加，输出的长度不断增长，占用的显存也会越来越多，极易出现“OOM”显存不足的情况。此外，对于同样模型的不同版本，输出长度的变化也十分显著，不同难度的题目的输出长度差别也较大。

在 RL 推理任务中，生成和训练阶段使用了超过 90% 的GPU 资源。针对 Batch 中输出长度各异的情况，吴翼老师团队提出了“动态 Batching”技术，通过贪心的方法将不同的输出“打包”，提升 GPU 的使用效率，减少了 Microbatch 的数量。

Areal抛弃了传统强化学习系统按批次交替进行训练和生成的模式，用了异步的训练方式。生成的模型不停工作，不存在等待时间。一旦生成了足够的数据，训练节点就开始工作。训练结束后，训练模型与生成模型同步模型的权重。

在异步RL中，陈旧度越大，效果越差。为此，Areal 用系统的机制控制生成的吞吐，允许生成模型适度的等待，用一个参数来控制允许的陈旧度程度。此外，吴翼老师团队改进了PPO算法，让PPO能容忍旧的数据。

俞扬：《LLM中的强化学习》

今天，一方面强化学习让大模型变得更好。另一方面，大模型也使得传统强化学习做得比较好，让专有模型变得更通用。

当强化学习的框架 4 个要素已经完备具备以后，用强化学习训练语言模型时不需要数据，智能体完全根据奖励自己探索。这一点对提升语言模型的泛化能力非常关键。2022 年 11 月，OpenAI 开放 ChatGPT 和 PPO 算法，当仍由于计算资源需求大、系统优化困难，难以复现。

2023年5月，斯坦福团队提出了“DPO”算法，认为监督学习算法和 RLHF 等价，可以代替强化学习方法。我们通常假设强化学习它的奖励模型是黑盒，但是在 RLHF 框架下，奖励模型是设定好目标后根据数据学习而来。所以，可以将设定的目标和强化学习目标融合。

然而，虽然二者从数学目标上是等价的，但实际实现的过程中，奖励的表征函数不一样，二者使用的数据分布也不同。DPO 隐式表示了奖励模型，强化学习需要显式地表达奖励模型。更重要的是，强化学习框架下，一旦所有的因素具备了以后，不需要训练数据。相较之下，监督学习方法只能利用有标注数据训练。

DPO会导致模型泛化性不好，存在各种性能缺陷。如今看来，除了性能上的区别，使用强化学习还会带来推理模型的进步。

为了减小 LLM RL 的训练开销，俞扬教授团队提出了“ReMax”方法，取消了Value 模型，让大模型自己输出一个生成的句子作为基线。可以减少一半的内存开销，训练时间也能缩小一半。只要基线选得好，就可以让语言模型训练稳定。

另一方面，奖励模型的训练仍然往往需要人的数据给出标记。2022年的时候，Anthropic 提出 RLAIF，将语言模型本身的反馈作为一个奖励信号，训练强化学习系统。俞扬老师团队在 ICLR 2024 上提出用AI模型自己的反馈提升自己，用它的评价能力来改进它的生成能力。未来，可以考虑如何把语言模型里要用到的奖励函数做得更好。

今天，用强化学习增加语言模型的推理能力，已经变成了一个增加语言模型能力的主要途径。如果在2023年时，业界跟着 DPO 的脚步往前走，就达到不了如今推理模型的高度。所以很多时候，热点技术也有可能把业界”往坑里带“。

刘鹏飞：《生成式AI第二幕：认知工程》

大语言模型驱动的生成式人工智能可以生成各种模态的内容，其生成能力有助于解决各种复杂任务。生成式人工智能最核心的技术包括：（1）生成式预训练。把数据以向量形式存起来。（2）提示工程。通过自然语言读取数据。

大语言模型是人类延伸的大脑，传统 AI 的功能是“降劳”，取代重复的体力劳动。生成式 AI 则是“增智”，取代的是重复的脑力劳动。

然而，现有的生成式 AI 技术并没有在推理和长链条任务上做出很好的结果。复杂推理任务对我们来讲非常重要，无论做数学推理、工具调用、做智能体，还是做更复杂的深度科学研究，都需要复杂推理的能力。OpenAI 的科学家指出：任何要完成的工作都会遇到障碍，而推理能力有助于绕过这些障碍。

如今，我们需要可以深度思考的模型，生成式 AI 进入了第二幕。在推理时扩展、测试时扩展、RL 扩展等技术出现后，大模型可以进行深度思考，思考的时长越长，解决的单个问题的价值也会更大。

大模型在学习的时候，本质上是在存储和记忆的层面建立一个思考模型。预训练中，记忆大量的知识点和概念，以及它们之间的关联。后训练本质上通过 SFT等技术更好地学习概念之间的关系边，测试时训练则进一步建立了距离较远、没有建立关系的节点之间的边。此时，由于概念的距离非常远，需要足够的时间思考。

生成式AI第二幕的核心是延长推理时间并学习人类认知。通过推理式扩展和认知学习，可以使大模型从知识管理工具进化为具备深度思考的认知管理工具。

刘鹏飞指出，认知工程是通过“测试时扩展”的范式系统性地发展 AI 思维能力，超越传统的预训练方法。它代表了人工智能系统中通过人类知识模式提炼和 AI 驱动发现可以培养深层认知。如今，知识基础的质变、测试时扩展基础的发展为实现“认知工程”提供了支撑。

大模型进入第二幕具有以下新特性：（1）极致的数据高效性。在2022年，刘鹏飞团队验证了非推理任务场景下可实现数据高效性，使用 1000 个样本在高参数的模型上去微调，实现了较好的指令遵循能力。而今天，即使是对于较难的数学、编程等推理任务，使用 811 个样本也可以将模型微调得很好。

对于 SFT 和 RL 微调技术，数据都需要具有极致的高效性。基础知识包含足够多的推理数据，后续只需进行思维的整合和策略的组合与训练。

通过构建高效的技术栈，前置构建大量的认知数据，接下来进行后训练和 RL 扩展的压力就会很小。

此外，认知数据的挖掘非常关键，需要考虑以下信息来源：（1）历史遗失的认知（2）现有资源（3）新型来源。

在生成式 AI 的第二幕，我们要解决的问题要全面走向真实世界，从“非证明数学奥赛”逐渐走向“科学发现”。真实世界中任务的复杂度会越来越高，推理链条的长度会越来越长，使用工具、交互的复杂度也会提升。

环境比奖励更重要。真正做智能体的 RL 训练时，大概率需要先构建一个环境，而构建环境的工程量非常巨大。

刘鹏飞老师提出了“交互即智能”的概念。未来解决一个复杂任务，需要很长时间思考。人机的交互是必须的，应该在关键节点上给出指导信号。每个时代都会有其技术边界需要的人机共创的接口。

窦志成：《推理模型驱动的深度信息获取》

现代搜索引擎包含离线和在线部分，在线部分最重要的是检索排序。根据用户的搜索内容，反馈给用户若干链接。用户想得到答案，需要自己浏览网页。

这种搜索方式的优点在于：如果需求简单，可以毫秒级返回结果。然而，对于复杂信息的查询，则无法满足用户的需求，需要进一步进行加工和处理。

ChatGPT 为人们提供了一种新的信息获取的方式。这种方式的优点在于：可以处理用户以自然语言形式描述的复杂信息需求，可以一步到位生成答案，可以理解搜索之外的信息筛选和处理指令。

那么，大模型是不是能够代替传统的搜索引擎，成为主要的信息获取方式？窦志成认为，答案是否定的。

既然获取的是信息，信息一定要准确才会有效。现在的大模型有以下缺陷：（1）存在幻觉（2）缺乏时效性（3）无法访问私域数据。

因此，大模型本身无法直接取代搜索引擎。对于用户而言，正确的信息才是有用的，虚假信息会带来恶性后果，内容溯源也很重要。

窦志成指出，应该将搜索和大模型结合为“AI 搜索”。发挥各自的优势，实现以大推理模型驱动的搜索方式。

“AI 搜索”最直接的呈现方式是 RAG，但是此类方法仍然无法胜任复杂信息获取任务，其回答往往不完整、不准确。相较之下，人类会拆解搜索任务，再有针对性地进行搜索。

他指出，应该在深度推理模型的支撑下做深度搜索。语言模型和推理模型主要完成的是任务和意图的理解、任务分解和信息合成。而底层的基础搜索则完成信息的获取。

目前，现有的开源方法多次调用相同的模型，很难让模型连贯、顺畅、统一地去思考问题，没有充分把深度推理的优势发挥出来。为此，窦志成团队提出了“WebThinker”基于深度推理模型，直接在推理过程完成对问题的拆解、思考，在必要的时候调用搜索、网页浏览，激活写作检查、润色功能，最后合并信息获取结果。这些工作都在一个推理链上完成。

Web Thinker 是一个边思考、边搜索、边写作的模型。在思考时需要搜索时就激活搜索模块，弥补了RAG传统方法无法准确判断知识边界的问题。整个过程是端到端的推理链。

就模型训练而言，通过强化学习提升推理模型的工具调用能力。通过手机大规模的困难推理数据集，让 WebThinker 对每个问题采样 N 条序列，根据能否正确高效调用工具选择推理轨迹的正负例数据对。模型训练采用迭代式的在线 DPO，不断用训练好的模型进行新一轮的数据筛选，让模型与环境交互。

张志强：《Pretrain and test-time scaling of ling models》

张志强团队针对 Scaling law 的研究分为三个阶段：（1）超参数的 Scaling Law。探讨影响模型训练效果的超参数的变化趋势，预估最优的参数（2）FLOPs2Loss 曲线。基于最优超参数拟合出来的结果，进行小的模型训练，拟合出一条 FLOPs 与损失函数之间的关联曲线。（3）Loss/Bmk 的外推预测。不需要训练的情况下，通过若干小模型，用2%到3%的计算量，换取大尺寸模型的性能，监控训练进度。

对于密集型模型而言，比较重要的超参数是 batch size 和学习率。

张志强团队发现最优的batch size 和学习率跟模型的计算量，呈现出对数线性关系。越大的模型，越大的数据，就需要用更小的学习率让它稳定地训练。

第二，对于密集型模型，改变这个模型的规模，不会影响超参数的 scaling law 趋势。当小幅度去调整数据配比，也不会影响 scaling law。做大幅度数据调整时，则会影响 scaling law。

基于最优的学习率，张志强团队训练了一批小模型，拟合出了IsoFLOPs 的曲线，可以以此判断数据的好坏或模型架构的好坏。对于更好的数据，模型倾向于把FLOPs分配给更大的模型、更小的数据。口蹄疫通过对数反比关系，去拟合Loss外推精度。

对于MoE的模型，无论是专家的设置、稀疏度的选择，还是专家均衡的选择，都会对Loss有很大的影响。

通过对 MoE 架构做类似的batch size 和学习率的scaling law的推导，发现它的函数形态跟Dense模型蕾丝，都可以得到对数线性关系的拟合。用不同的专家均衡策略，最优的batch size 和学习率是基本一致的。

MoE结构的最优 BS/LR 只跟具体的激活的FLOPs相关，和架构、均衡、数据的关联性并不大。

张志强团队提出效率杠杆的概念：Loss相同时，不同架构的激活的FLOPs比值作为这两个架构之间的杠杆。该团队提出的第一代摸MoE架构与密集型模型的杠杆效率是2.8倍到4倍之间。随着FLOPs增加，MoE杠杆效率在扩大。

何俊贤《通过强化学习提升推理模型的性能和效率》

何俊贤老师首先基于数学推理任务，探究了基于规则和模型的验证器存在哪些不足。

基于规则的验证器在数学推理任务上的局限性在于现在的基于规则的验证器没有办法正确判断一些概念是等价的（例如，0.5和1/2）。而数学之外的场景会更加复杂。对于不同的策略模型，随着模型越来越大，生成会更加多样，召回率会越来越低，验证会更困难。相较之下，在静态验证中，基于模型的验证器在长程 CoT 和生成式任务上的性能要好得多。除了在分类任务上好很多，在这种场景下，RL效果也可以得到提升。

在自己训练验证器时，很容易出现 Reward Hacking。非常刻意构建越来越强的基于模型的验证器，就会越来越容易被 Hack。

相较之下，分类模型则很难被Hack，它没有COT，也没有推理。

随着策略模型越来越强，就有能力去利用越来越多的被Hack的模式，得到一个高的奖励，出现 Reward Hacking 的风险就会越来越大。如果训练小模型，此类风险就会低一些。

针对 RL 扩展中的数据合成问题，何俊贤团队提出了“SynLogic”，可以兼顾数据的多样性和合成效率为逻辑推理合成训练数据。该方法可以根据任务的需要，通过难度可控的方式合成训练数据，并且容易进行验证。

在同样的训练步数相同的情况下，消耗相同的算力，并不会减弱其数学推理、编程能力。在消耗同样的数学数据的情况下，通过混入逻辑推理，可以提升数据利用效率。

何俊贤老师从基于长度的奖励调整的角度出发，探究了自适应地提升推理效率的问题。

何俊贤老师发现，在做 RL 扩展时，将输出长度上限截断为特定值，可以在几乎不损失准确率的情况下，将生成长度缩减50%以上。

如上图所示，蓝色的线表示正确响应的奖励，红色的表示错误响应的奖励。只要长度超过某一个阈值，就把它当成错误响应截断它。这种奖励调整方法是个阶梯函数。

阶梯函数中间的突变点不可微，两边的梯度是 0。在RL场景下，这种奖励更加鲁棒，不太容易被Hack。阶梯参数中间突变点的位置是一个超参数，可以自行调整。这个超参数可以自己调。对于不同的任务，该超参数需要动态变化。

【圆桌环节】

圆桌讨论嘉宾：

俞扬丨南京大学人工智能学院教授

丁宁｜清华大学助理教授

刘鹏飞｜上海交通大学副教授

窦志成丨中国人民大学高瓴人工智能学院副院长

张志强丨蚂蚁集团基础智能部技术总监

何俊贤丨香港科技大学助理教授

赵鑫丨中国人民大学教授丨主持人

Q1 赵鑫：深度推理模型是怎么诞生的？各位在此方面的研究经历了哪些阶段？

~~俞扬：在很早以前就有研究者尝试通过蒙特卡洛树搜索等方式增强语言模型的推理能力，只不过没有去尝试用强化学习来训练推理模型。~~

~~赵鑫：推理模型的理论基础发展如何？~~

俞扬：强化学习的理论发展较为完善，算法的收敛性、实验的复杂度都有相应的分析方法，语言模型的理论基础（例如，自然语言的语义）仍有很大的探索空间。

丁宁：我们从 Strawberry 开始涉足强化学习研究，这也是我第一次如此喜欢科研。强化学习可以带来显著的推理能力提升，我们在整个课题组都在做推理模型以及相关的研究。它的理论基础很坚固，与大模型的结合特别值得探索。

~~赵鑫：丁老师团队最近工作的灵感是怎么诞生的？~~

~~丁宁：唯熟而已。我们做了很多实验，观测到了“熵崩溃”等现象，进一步借鉴现有的理论就推导出了我们的一系列工作。~~

刘鹏飞：OpenAI 的 O1 刚出来时，我试着揣测他们的研究动机、团队构成、交互方式、模型结构等因素。大家重点思考两个问题：（1）应该基于怎样的底层的动机，寻找下一个 Scaling Law（2）RL Scaling 可行，如何尽快复现。

~~赵鑫：你们很早发表了深度推理模型的技术报告，最早是如何开展工作的?~~

刘鹏飞：O1 刚发布时，我在中秋假期里一直在思考这方面的问题，看了很多论文，做了很多 PPT，团队立刻开展了相关研究。我给同学们讲，伟大的创新一定有很强的机动性。尽管学术界的认知往往落后于工业界。但新范式来临时，学术界还是有机会的。

窦志成：深度推理和强化学习并不完全等价。有些问题还没有讨论清楚。当时赵老师特别关注 Strawberry 模型，语言任务上很难找到一个确定的任务。我仍然有几个困惑的地方：（1）强化学习是不是实现推理的主要方法，未来还有没有新的方法？（2）如果去除一系列附加的依赖，从头研发，能做到什么程度？（3）在通用的语言任务上，是否有更好的奖励模型？

~~赵鑫：您之前还做了RAG的相关研究，是什么时候考虑加入推理模型？~~

窦志成：我们之前有一个方向就是针对整体 RAG 展开研究，利用自我反思的机制，实现端到端的优化。推理模型为深度搜索打开了一个新的窗口，搜索这么多年没有一次变革，这是唯一一次机会，以后的搜索会变成深度模型推动的深度搜索。

张志强：我最大的感受就是多问为什么，多看更细致的训练过程监控。我们做预训练会有很多自动分析的脚本去看问题。有时是看到了某个现象，再反过来寻找中间的问题。

~~赵鑫：能不能分享做预训练级别的大项目的经验？~~

~~张志强：数据决定模型的上限，模型架构训练的基础能力决定了成本。组织大规模的数据清洗、系统建设、标准建设工作是很庞大的工程。~~

~~何俊贤：从很细微的现象中，挖掘出关键的模式很重要。~~

Q2 赵鑫：O3 已出现了，不知道 R2 何时到来。现在深度推理模型有很多遗留问题，下一步，什么问题比较重要？

~~俞扬：强化学习的探索不够。~~

~~丁宁：需要讨论推理模型的泛化性，如何通过模型自身的奖励自进化。对于拿不到正信号的问题，如何估算更新方向。~~

~~刘鹏飞：如何补充更充分的思考，如何补充更全面的知识。~~

~~窦志成：探究通用的奖励学习技术。如何通过用户反馈汇聚大量数据。~~

~~张志强：如何提升 RL 的运行效率，提升训练速度，研发更适合做 RL 实验的基础模型架构。针对具体领域，提出更好的对比评测基准。~~

~~何俊贤：要思考最近与 RL 推理相关的研究工作，究竟有多少结论具有泛化性和迁移能力。~~

Q3 赵鑫：在一年以内，在哪些场景可以实现推理模型的落地？

~~何俊贤：通过推理模型实现工具的调用。~~

~~张志强：对于有答案、有明确规则的任务，更适合用推理模型做。~~

~~窦志成：搜索智能体很有可能是深度搜索领域第一个能落地的应用。~~

~~刘鹏飞：我更愿意把推理模型称为思考伙伴，它们可以和人类配合解决很复杂的任务。~~

~~丁宁：只要不是高并发、不能忍受等待时间的任务，我都会用推理模型。~~

俞扬：我每天都会用大模型，我觉得目前没有任何推理模型对我是有用的。我们会发现对于日常生活，绝大部分工作不需要做太多的推理。如果推理模型可以不需要人类“兜底”，完全自动地处理任务，它才是一个不可缺少的应用。

~~- 往期推荐 -~~

Meta、MIT、人大、腾讯、字节、Luma AI、Sand.ai：他们正重新定义多模态 | 智源大会·多模态论坛精彩回顾

~~本文版权归智源社区所有~~

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Make RL Great Again：大语言模型时代的强化学习推理丨记深度推理模型论坛

吴翼：《Areal：面向大模型的大规模强化学习系统》

俞扬：《LLM中的强化学习》

刘鹏飞：《生成式AI第二幕：认知工程》

何俊贤《通过强化学习提升推理模型的性能和效率》

何俊贤老师首先基于数学推理任务，探究了基于规则和模型的验证器存在哪些不足。

Meta、MIT、人大、腾讯、字节、Luma AI、Sand.ai：他们正重新定义多模态 | 智源大会·多模态论坛精彩回顾

评论

Make RL Great Again：大语言模型时代的强化学习推理丨记深度推理模型论坛

吴翼：《Areal：面向大模型的大规模强化学习系统》

俞扬：《LLM中的强化学习》

刘鹏飞：《生成式AI第二幕：认知工程》

何俊贤《通过强化学习提升推理模型的性能和效率》何俊贤老师首先基于数学推理任务，探究了基于规则和模型的验证器存在哪些不足。

Meta、MIT、人大、腾讯、字节、Luma AI、Sand.ai：他们正重新定义多模态 | 智源大会·多模态论坛精彩回顾

评论

何俊贤《通过强化学习提升推理模型的性能和效率》

何俊贤老师首先基于数学推理任务，探究了基于规则和模型的验证器存在哪些不足。