导读:在线推广中的自动出价与预算平滑可建模为序列决策问题,但面临核心挑战:决策以细粒度时间尺度进行,而可靠的反馈信号(如转化)仅在粗粒度尺度上可观测,导致稀疏奖励延迟反馈问题。阿里妈妈外投和品牌推广算法团队提出轨迹自回归模型(Trajectory Auto-Regressive Model, TAR),通过多时间尺度建模有效缓解这一"粒度不匹配"问题。

TAR 包含三项关键技术:

  1. 由粗到细的轨迹生成机制:先在粗粒度层面规划整体轨迹,再逐步细化至精细动作;
  2. 基于多尺度向量量化变分自编码器(VQ-VAE)的潜在空间压缩:统一处理异构特征并自动学习跨尺度表示;
  3. 状态 - 动作融合架构:将历史动作直接嵌入状态表征,无需辅助逆模型即可捕获长期依赖关系。

实验在稀疏奖励与延迟反馈场景下开展,涵盖离线仿真与线上部署。结果表明,TAR 显著优于现有强基线方法,线上部署CTR 提升超 12%,同时显著改善预算平滑性与投放稳定性。该文章收录于SIGIR 2026。

论文标题:TAR: Generative Auto-Bidding and Budget Pacing via Multi-Scale Trajectory Modeling

一、引言:在线推广投放的统一序列决策视角

在线推广的本质是一个大规模实时资源分配问题。平台需要将源源不断的用户曝光机会分配给不同的商家,每位商家有各自的合约义务或效果目标。这一分配过程可以分为两大类别:竞价推广(Bidding-based)中,推广位通过实时拍卖分配,自动出价算法为每次曝光计算最优出价以最大化商家 ROI;合约推广(Contract-based)中,平台需要满足预先签订的"保量投放"协议,预算平滑机制负责调控消耗节奏,确保合约期内流量平滑交付、避免预算提前耗尽。

尽管两类任务的业务目标不同,但它们可以被统一建模为序列决策问题(Sequential Decision-Making):投放智能体在每个时间步观测当前环境状态(剩余预算、市场竞争强度、库存水平等),输出控制动作(调整出价乘子λ或曝光概率α),基于反馈信号优化长期投放轨迹。

近年来,强化学习(RL)方法被广泛应用于该问题,将投放过程建模为马尔可夫决策过程(MDP)。但多项研究指出这类任务具有内在的非马尔可夫性——未来结果依赖于超出当前状态的长期历史。这一认知推动了生成式模型的引入:DiffBid 通过扩散模型直接生成以目标性能为条件的最优状态轨迹;Decision Transformer 将序列决策重构为序列建模,通过捕获历史状态和未来决策间的依赖关系进行规划。

然而,上述所有方法都面临一个更深层的结构性挑战。

二、核心问题:粒度不匹配(Granularity Mismatch)

这篇论文最重要的理论贡献之一,是将在线推广投放中两个看似独立的难题——稀疏奖励和延迟反馈——统一归因为同一个底层问题:决策粒度与反馈粒度之间的结构性错位。

设决策间隔为 ,可靠反馈的有效观测间隔为 ,在实际系统中 。这一不等式是一切问题的根源。

稀疏奖励信号。在展示推广场景中,转化事件天然稀有。以 NeurIPS 2024 AIGB 竞赛数据集为例,系统需要在每个时间步做出出价决策(48 步/天),但大部分步骤的转化数为零。这意味着在  尺度上测量的奖励  具有极高方差和大量零值,信噪比极低,导致策略优化难以获得有效梯度方向,信用分配更是无从着手。论文通过变异系数(CV)进行了可视化验证:细粒度反馈的 CV 极高,而当聚合到粗粒度窗口后 CV 大幅下降——奖励变得更加稠密且统计可靠。

延迟反馈。预加载(Preloading)是展示推广中确保低延迟展示的通用策略。当平台选中一个推广时,推广被缓存到用户设备上,但实际展示取决于用户后续行为——可能立刻发生、延迟若干个决策窗口、甚至完全不发生。这种"决策 - 展示解耦"意味着一次分配决策的完整反馈散布在  区间内,其中  可跨越多个 。在细粒度观测下,智能体看到的只是不完整的、随机到达的部分信号。

论文由此得出关键洞察:在粗粒度时间窗口上聚合时,稀疏奖励自然变稠密(多步转化累积),延迟反馈的散射效应也会收敛(绝大多数延迟都被收纳进同一窗口)。但纯粹在粗粒度上操作会牺牲控制精度。因此,正确的解决路径是多时间尺度建模——利用粗粒度信号的稳定性,同时保留细粒度决策的灵活性。

三、TAR 方法详解

3.1 条件生成式建模的基础框架

TAR 遵循 AIGB 范式,将序列决策转化为条件生成建模问题,通过最大似然估计(MLE)优化:

其中  是轨迹中的状态序列, 是轨迹级别属性(如竞价场景中的总转化价值、约束满足情况;平滑场景中的合约曝光量、整体 CTR), 是已知历史。模型学习的是:给定目标属性和历史观测,生成完整状态序列的条件概率。

3.2 由粗到细的多尺度轨迹生成

这是 TAR 最核心的架构创新。定义  个时间尺度,从最粗  到最细 (原始轨迹长度)。TAR 将联合分布分解为跨尺度的自回归乘积:

每个尺度  的生成以所有已生成的更粗尺度为条件。直觉上, 时模型先建立一个"粗粒度蓝图",描绘整体投放轨迹的大趋势(如预算消耗曲线的整体形状);随后逐层添加中等粒度的修正(如小时级别的波动);最终在  时填充逐步的精细动作。

这一设计的妙处在于:粗尺度生成利用了聚合信号的统计稳定性(粒度不匹配问题在此尺度上已被大幅缓解),而细尺度生成则受到粗尺度"蓝图"的约束引导,不会因为局部噪声信号偏离全局最优方向。这类似于人类规划的自然方式——先定大方向,再填细节

3.3 多尺度 VQ-VAE:统一潜空间中的自适应压缩

由粗到细生成要求一个"压缩函数"将原始轨迹映射为不同分辨率的表示。但推广轨迹包含异构特征:累计转化数需要跨步求和、剩余预算应取窗口首步值、转化率滑动平均需要更复杂的加权……不同特征类型要求截然不同的聚合策略。手工设计这些规则既繁琐又难以保证最优性。

TAR 引入多尺度向量量化变分自编码器(VQ-VAE)在统一潜空间中自动学习压缩。完整流程如下:

  • 编码阶段:Transformer 编码器将原始轨迹  映射为连续潜变量序列 
  • 多尺度残差量化:初始化残差 和累积量化表示。对每个尺度依次执行:(1) 将残差线性插值到目标长度;(2) 对每个位置在可学习的 Codebook中查找最近邻,获得离散索引;(3) 取回对应码向量,上采样回原始长度,通过可学习自注意力层精化得到增量;(4) 更新累积量化,更新残差
  • 解码阶段:Transformer 解码器从最终累积表示  重建轨迹。

训练损失结合重建误差和标准 VQ-VAE 损失:

这一设计的深层优势在于:模型通过端到端训练自动学习了不同特征在不同尺度上的最优聚合方式。无需人工区分"求和型特征"与"快照型特征"——编码器会自动将它们映射到合适的潜空间位置,量化过程自然实现了跨尺度的信息压缩与保留。

此外,残差量化的等价性保证了:生成  等价于在已知  的条件下生成增量 (即 Codebook 索引 )。TAR 正是利用这一等价性,将多尺度生成转化为对离散索引序列的自回归预测。

3.4 状态 - 动作融合与位置偏移

现有生成式方法(DiffBid、Diffuser 等)通常采用"先生成状态轨迹,再用逆动力学模型推断动作"的解耦策略:。这一设计存在三个根本局限:

  • 非端到端:状态生成与动作推断分离,忽略了动作对状态演化的直接影响,可能产生"不可达状态"——预测了一个状态转移,但不存在任何动作能实现该转移。
  • 无法跨尺度学习动作:逆动力学仅在最细时间分辨率上工作,无法利用粗尺度表示的稳定性来引导动作决策。
  • 缺乏多步感知:在延迟反馈场景中,当前动作的效果跨越多个未来步骤,仅基于下一步状态预测动作是短视的。

TAR 的解决方案优雅而直接——位置偏移的状态 - 动作融合。将上一步动作拼接到当前状态中,构造增广状态:。模型生成的是增广轨迹 ,其中  为零向量、 为哑终止状态。推理时直接从生成的  中提取所需动作。

这一设计的精巧之处在于:动作序列作为状态轨迹的"一阶差分信息"被嵌入生成目标本身,使得从粗到细的轨迹生成天然包含了从粗到细的动作规划。模型在生成粗尺度蓝图时已经隐式规划了粗粒度的动作趋势,细尺度生成时在此基础上细化——真正实现了多尺度一体化的动作学习。

3.5 Scale-Level Causal Transformer

TAR 的骨干网络采用尺度级因果 Transformer。生成第 个尺度时,输入为可学习参数(最粗尺度的初始化 sketch)和前序各尺度的插值表示。通过尺度级三角注意力掩码确保因果性——第尺度只能注意到自身,严格遵循自回归分解的条件独立性。条件信息 通过 AdaLN 和 Cross-Attention 融入。模型输出每个位置上的 Codebook 索引 logits,训练时用交叉熵对齐 VQ-VAE 的 ground-truth 索引,推理时用 top-p 采样生成。

TAR的推理流程:

四、实验分析

4.1 离线仿真:稀疏奖励场景

在 AuctionNet-Sparse(NeurIPS AIGB 竞赛数据集,7 个投放周期,48 步/天,约 50 万训练轨迹)上进行评测。该数据集模拟低转化率场景,每步转化数常为零。评价指标为 penalty×value,其中 penalty 惩罚 CPA 约束违反,value 为总转化价值。

TAR 在全部 4 个预算水平(50%/75%/100%/125%)上均取得最优,相比次优方法提升 2.7%~13.5%。值得深入分析的是提升幅度的分布模式:在低预算(50%、75%)时提升最为显著(8.4%、13.5%),这是因为低预算下可赢得的曝光更少、转化更稀疏,粒度不匹配问题最严重,TAR 的多尺度机制优势最为突出;高预算(125%)时提升收窄至2.7%,因为充裕预算部分缓解了稀疏性。

4.2 离线仿真:延迟反馈场景

论文自建了 DelaySim 仿真环境(基于真实品牌推广平台日志构建,14 个保量投放活动,288 步/天即 5 分钟间隔,约 20 万训练轨迹)。该环境精确模拟了预加载导致的延迟曝光动态——对每个分配 PV 记录其 pCTR 和经验延迟分布,仿真时按分布采样曝光时机。评价指标为 penalty×avg_pCTR,同时衡量保量满足度和曝光质量。

TAR 在全部预算水平取得10.1%~17.3%的提升,且提升幅度明显高于稀疏奖励场景。这验证了论文的核心论点:多尺度生成在"反馈时间错位"场景中的价值更大——因为延迟反馈的本质就是信息在时间轴上的弥散,粗尺度观测天然"收纳"了这种弥散。

需要注意的是,DiffBid 在 DelaySim 上表现不佳(在部分预算水平上低于 RL 基线),论文分析其根因是逆动力学模型仅条件于有限的过去状态窗口和紧邻的下一步状态,无法捕获延迟反馈场景所需的长程依赖。

4.3 消融实验

三个组件的消融结果揭示了各自的作用域:

  • 去除 CTF(由粗到细生成):在 DelaySim 上退化最严重(得分从 3.93 降至 2.30,-41%),因为延迟反馈场景下不同尺度间的信息层次差异最大,仅用单一尺度无法同时获取全局稳定信号和局部精细控制。
  • 去除 VQ-VAE(替换为线性插值):在 AuctionNet-Sparse 上影响最大(50% 预算时从 17.9 降至 10.4,-42%),因为该数据集包含滑动窗口平均等复杂异构特征,简单线性插值无法自适应地处理不同特征类型的聚合。
  • 去除 SAI(替换为逆动力学模型):在 DelaySim 上影响显著(部分设置下降超 30%),验证了多步感知对延迟反馈场景的必要性。

4.4 推理效率

单步推理时间对比:DT 2.6ms、TAR 16.7ms、DiffBid 234.4ms。TAR 比 DiffBid快约 14 倍,与 DT 同一数量级。效率优势源于 TAR 的自回归离散 token 生成(K=4 个尺度,每个尺度一次前向),避免了扩散模型所需的多步迭代去噪。这对于实时出价系统(通常要求<100ms 响应)至关重要。

4.5 线上 A/B 测试

在线上部署 8 天,对比 PPO-based RL 策略。

  • CTR 优化场景:TAR vs RL 提升 CTR 10%;
  • CVR 优化场景:TAR vs RL 提升 CVR 5%;

五、技术启示与展望

TAR 这项工作的贡献可从多个层面解读:

方法论层面,TAR 首次将"粒度不匹配"明确提炼为在线推广投放的核心技术挑战,并给出了理论上自洽的解决路径——通过多时间尺度建模将规划分辨率与反馈动态对齐。这一抽象不仅适用于推广,任何"决策频率 >> 反馈频率"的工业优化问题(如库存调度、动态定价、网络流量调度)都可能从中受益。

工程落地层面,TAR 在保持与 DT 同一量级推理延迟的前提下,实现了远超 DiffBid 的效果提升和数量级的推理加速。这表明"由粗到细的离散 token 生成"可能是比"迭代扩散去噪"更适合在线决策系统的生成范式。

统一建模层面,TAR 将自动出价与预算平滑——此前通常由不同团队用不同技术栈独立优化的两类任务——统一在同一个生成式框架内,为推广投放系统的架构简化提供了新思路。

论文提到的未来方向同样值得关注:引入引导式生成(Guided Generation)在推理时动态调控轨迹属性、加入置信度估计头实现自适应决策、通过 DPO 微调对齐投放偏好、以及模型规模的进一步扩展。此外,论文还承诺开源 DelaySim 数据集与仿真环境,填补了延迟反馈预算平滑研究长期缺乏公开基准的空白,有望推动该方向的后续研究。

🏷️关于我们

外投和品牌推广算法团队阿里妈妈核心算法团队之一,服务于阿里妈妈最具有创新性和增长性的业务。依托于淘天集团庞大而真实的营销数据,以 AI 技术驱动实现客户在站外进行效果营销和在站内外进行品牌推广营销的能力。我们持续探索深度学习、联邦学习、运筹优化和博弈论在外投效果推广和品牌推广中的应用。团队近些年也在 WWWKDDSIGIR 等知名会议上发表过多篇论文,也有联邦学习和图学习等多个开源框架。欢迎加入我们,一起成长。


END
图片

 也许你还想看

ACL’26 Oral|补齐LLM的“社交短板”!新框架首次将图数据作为监督信号,宏观微观全面对齐
让大模型自己学会拍卖!LLM-Auction将营销内容分配与自然回答生成合二为一
WWW’26 Oral | DARA:面向在线推广的小样本预算分配双阶段RL‑LLM框架
CVPR 2026 | 无需训练,推理速度提升4.87倍!"淘宝法象"用一招路径规划破解扩散模型加速难题


关注「阿里妈妈技术」了解更多~




内容中包含的图片若涉及版权问题,请及时与我们联系删除