新智元报道  

编辑:LRST
【新智元导读】大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标,让模型在每一步预测时兼顾未来token分布,从而提升整体推理能力。

Next-Token Prediction(NTP)无疑是一个英雄,它与Transformer一起,开启了大模型时代。每一步只预测一个 token,看似「盲人摸象」,却让模型学会了语言规律,吸收了海量世界知识,也提供了一个稳定、可扩展的训练范式。

可以说,没有NTP,就没有今天的 LLM。

但问题在于,昨日的英雄,往往也最容易成为今日的枷锁

作为一种本质上「短视」的训练目标,NTP 与人类的思考存在着微妙却深刻的错位。我们不妨想一个有点荒诞的场景:

你在下棋,对手已经布好了一个明显的陷阱。而你却只盯着:「下一步这颗子下哪最顺手?「

你不看未来走向,不看对方意图,只求当前一步「最合理」。这像不像今天很多大模型?

局部极其自信:「这一步,我非常确定」;但下一步、下下步,整个链条却可能跑偏。稍加追问,又收敛为谨慎甚至回避的姿态。

局部很流畅,全局却常常离谱。这种「自信而短视」的特征,尤其是在数学推理、代码生成、多步规划等依赖长程一致性的任务中,往往成为大模型表现的瓶颈。那么,问题到底出在哪里?

华东师范大学与复旦大学团队在 ICLR 2026 的工作中给出了他们的回答:大模型未必不会「想远一点」,它只是被长期训练成了「只能看下一步」

换句话说,问题或许不在大模型能力本身,而在于我们究竟如何去「教」它。作者提出了一个耐人寻味的视角:与其执着于 Next-Token,不如尝试 Next-ToBE — Next Token-Bag Exploitation。

论文链接:https://openreview.net/pdf?id=T8IJojfaOh

图 1:Next-ToBE的整体研究框架

这个名字本身就很有意味。它不再要求模型只盯着「下一个词」,而是同时感知「将要成为(to be)」的内容。

工作沿着清晰的链条(如图1)展开:

①大模型是否已具备潜在的前瞻能力? 

②如果有,这种能力为什么被压制?

③又该如何用优雅轻量的方式将其「激活」? 

④这些改变是否能够转化为更高的推理能力?

这一切背后,还有更深的问题 — 当模型不再把全部确定性押在当下,而开始为未来分配概率时,置信度与推理之间的博弈,能否重新达成一种更有利于智能涌现的平衡?


原来大模型当前预测里
已经暗藏未来

实际推理中,大模型作为一个高维概率系统,每一步输出并不是一个点,而是一整个概率分布。作者发现,这个分布早已隐含了大模型对未来若干token的预判。

为了刻画这种「前瞻性」,论文提出了一个简单而直观的指标:Future-tokens Hit Rate(FtHR)。具体来说,在当前时刻t,取模型输出分布中概率最高的L个token,观察它们是否能够覆盖未来窗口[t, t+k]中真实出现的 token。

图 2:左)当前一步的输出分布也已经覆盖了相当比例的未来 token;右 )未来 token 在当前预测中的排名越高,后续被正确生成的概率越大。

实验结果(图 2)揭示了两个关键现象:

  1. 当前一步的预测分布中,确实已经覆盖了相当一部分未来 token;

  2. 一个未来 token 在当前分布中排名越靠前,它在后续生成中被正确输出的概率也越高。

LLM的前瞻能力不仅客观存在,而且非常容易量化,并且与生成质量直接相关。

既然「看得更远」意味着「生成更准」,为什么不优化这一目标,让模型在每一步的预测中,不仅关注当前 token,也对未来若干步形成更合理的布局?

症结恰恰是NTP范式中one-hot 的目标分布:它太霸道,将全部概率质量集中在唯一token,压制了其他潜在路径。这让模型在表达上变得「非此即彼」,也使其变得短视,难以形成连续的长程规划。

当然,已有工作尝试突破这一限制。如Multi-Token Prediction(MTP)通过引入多个预测头(Medusa并行头),一次预测多步未来token。从本质上看,这类方法仍然是在并行地拟合多个one-hot分布,并没有真正改变刚性的目标分布,和「单步最优」的训练逻辑。


Next-ToBE
唤醒大语言模型的前瞻基因

Next-ToBE的做法非常简单 — 它不改变模型结构,直接修改训练目标。

它将传统NTP中单一正确答案的one-hot分布,替换为一个覆盖未来窗口的软目标分布: 与其让模型把 100% 的概率都压在下一个token上,不如分出一小部分「注意力」去覆盖未来k个token,让模型在当前就开始形成对后续多步内容的感知。这正是Next Token-Bag Exploitation的核心 — 不是学习「下一个token」,而是学习「下一段token(token bag)的分布」。

图 3:Next-ToBE 架构。损失函数由「下一 token」主项与「未来窗口 token」软目标项辅助而成;后者的权重由模型自身的前瞻偏好(α)和 token 间的时间-语义关系(β,通过随机游走得到)共同决定。

构造「未来token分布」所遵循的原则(如图 3所示):

  1. 当前 token 仍然是主要目标。Next-ToBE 并没有放弃 NTP,而是将「预测下一个 token」作为损失函数的主项保留下来;在此基础上,引入未来窗口内的个 token 作为辅助监督,并通过系数  控制两者权重。这样既保证了局部生成的稳定性,也让模型对更远处的内容保持敏感。

  2. 未来 token 进行时空结构化加权。未来k-1个token 的权重由两类信号共同决定:一是模型当前对该token的预测概率(即「模型本来就觉得它可能出现」),保留预训练阶段形成的先验;二是未来 token 与当前token之间的时序和语义关联—越接近当前、语义关联越强的 token,权重越高(通过交替随机游走建模);最后融合成

  1. 目标分布的归一化。对于未来k-1个 token,其权重经归一化后构成目标分布;同时,对模型在这些 token 上的预测概率进行相应归一化,并最小化两者之间的分布差异(如 KL 散度或交叉熵)。

与 Multi-Token Prediction(MTP)不同,Next-ToBE不增加预测头,不修改模型,推理仍是标准的单步自回归。如果说MTP是「给模型多长几个脑袋」,Next-ToBE 做的,则是告诉模型:「下一步最重要,但你也得留点余光看未来「—就像高手下棋,子落之处,目光已在三步之外。


前瞻能力能否转化为推理收益?

作者围绕三个问题展开实验:(1)Next-ToBE 是否真的提升了模型对未来 token 的提前感知?(2)这种前瞻能力能否进一步转化为更准确的后续生成?(3)这种提升最终是否会反映到复杂推理任务上?图 4 给出了前两个问题的答案。

图 4:经 Next-ToBE 微调后,(a)未来 token 命中率显著提升;(b)自回归下未来 k 步生成准确率同步上升;(c)下一 token 置信度略有下降(0.87 → 0.81),即模型变得不那么「一锤定音」。

最关键的是第三个问题:前瞻能力能否落实到下游任务。为回答这一问题,作者基于三个基座模型(Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Llama3.1-8B-Instruct)和三类任务(数学推理、代码生成、常识推理)通过微调训练共开展了 36 组对比实验。实验结果显示,经过Next-ToBE微调后的模型 在 35 组实验中均取得最优结果(表1)。

表 1:数学推理,代码生成与常识问答共36组实验中,Next-ToBE在35组中表现最优。

除此之外,Next-ToBE 在训练开销上也有明显优势,相较于MTP 类方法,显存和训练时间都有明显的降低。作者还验证了 Next-ToBE 在预训练场景下的有效性 — 这说明前瞻能力并非大模型预训练后的偶然产物,而是可以被训练目标主动「塑造」出来的。


置信度与推理能力的深层博弈

Next-ToBE 在更大的尺度上实现了对确定性分配的系统性调节。随着超参λ增大,模型不再把全部注意力压在「下一个 token」上,而是逐渐将一小部分概率质量分配到更远的 token 上。这一变化直接带来的结果是:下一 token 的预测置信度持续下降,如图5(左)所示。

图 5:越大,下一 token 置信度越低(左);但推理准确率随,置信度呈先升后降(中、右)

然而,最有意思的地方在于,随着模型预测下一 token 的置信度下降,推理准确率反而先上升,然后下降,呈现一个漂亮的A形 (图5中、右)。换言之,模型在「适度不确定」的状态下,反而表现出更强的推理。

相比之下,传统 Next Token Prediction(NTP)可视为 的极端情形,即将全部概率质量压缩于当前一步,追求极致的局部确定性。这种「短视的自信」并未带来整体推理最优解,反而限制了对长程依赖与潜在路径的探索能力。

可见,有效的长程推理,往往来自于对确定性的克制与其追求极致的笃定,不如为未来保留空间。Next-ToBE最聪明的地方恰恰在于用当下一点点不确定性的让渡,来换取更长远的收益。


写在最后

大模型诞生至今,有一件事很少被质疑或重构:让模型在每一步,都押注于一个确定的答案。我们以为,确定性是智慧的必然。而事实上,模型从来不是只顾当下——即使披着one-hot得枷锁,它的预测里仍然藏着对更远未来的感知。

Next-ToBE只做了一件事:卸下枷锁,让大模型骨子里的前瞻性得以自由生长。

这或许也是给我们自己的启发:真正的智慧,从不是每一步都绝对正确的僵化,而是那份在流动与开放中与不确定性共舞的觉知,带我们抵达更远处的必然。

参考资料:
https://openreview.net/pdf?id=T8IJojfaOh

秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!


内容中包含的图片若涉及版权问题,请及时与我们联系删除