速递：阿里妈妈展示推广联合厦门大学团队开展「级联延迟反馈建模」研究，聚焦净转化率（NetCVR）预估、点击后商品交易总额（post-click GMV）两项后链路预估任务，分别提出流式级联延迟反馈建模框架TESLA与READER，并发布相应公开基准数据集填补领域空白，两项成果录用于WWW 2026。

一、摘要

不同于点击率预估中反馈的实时性，转化率（CVR）与交易总额（GMV）等后链路指标的预估深受延迟反馈现象的困扰。用户从点击到最终下单往往存在显著的时间差，导致模型训练存在严重的标签观测偏差，这一挑战在涉及多阶段级联延迟反馈的净转化率（NetCVR）与GMV预估场景中尤为凸显。

为此，阿里妈妈展示推广Rank团队联合厦门大学林琛教授团队，立足于NetCVR与GMV预估任务，进行了从工业级Benchmark开源到级联延迟反馈建模框架设计的系统性探索：

数据建设：开源了首个NetCVR预估公开数据集CASCADE与首个post-click GMV预估公开数据集TRACE，填补了这两项任务公开基准数据的空白，为相关问题研究奠定了数据基础；
算法创新：针对NetCVR与GMV预估的任务特性，创新性地提出流式延迟反馈建模TESLA与READER，显著提升了预估准度，为级联延迟反馈建模提供了卓有成效的建模范式参考。

基于该工作的两篇研究论文已被国际顶会ACM Web Conference (WWW) 2026录用，欢迎参阅交流。

NetCVR预估

论文：Modeling Cascaded Delay Feedback for Online Net Conversion Rate Prediction: Benchmark, Insights and Solutions https://arxiv.org/abs/2601.19965

作者：Mingxuan Luo*, Guipeng Xv*, Sishuo Chen, Xinyu Li, Li Zhang, Zhangming Chan, Xiang-Rong Sheng, Han Zhu, Jian Xu, Bo Zheng, Chen Lin (*Equal Contribution)

数据集与代码开源：

CASCADE数据集：https://huggingface.co/datasets/alimamaTech/CASCADE

TESLA模型：https://github.com/alimama-tech/NetCVR

点击后GMV预估

论文：Delayed Feedback Modeling for Post-Click Gross Merchandise Volume Prediction: Benchmark, Insights and Approaches https://arxiv.org/abs/2601.20307

作者：Xinyu Li*, Sishuo Chen*, Guipeng Xv, Li Zhang, Mingxuan Luo, Zhangming Chan, Xiang-Rong Sheng, Han Zhu, Jian Xu, Chen Lin (*Equal Contribution)

数据集与代码开源：

TRACE数据集：https://huggingface.co/datasets/alimamaTech/TRACE

READER模型：https://github.com/alimama-tech/OnlineGMV

作者：思烁、墨归、明言、珞家（展示推广 Rank 团队）

二、背景：后链路预估面临的级联延迟反馈问题

级联延迟反馈建模（Delayed Deedack Modeling）是转化率（CVR）预估问题中备受关注的核心问题。为缓解用户转化行为晚于点击事件带来的标签观测偏差，学术界与工业界提出了包含观测窗口设计、样本回流策略与样本权重纠偏等技术的一系列解决方案，如Criteo的DFM ^[1]与阿里妈妈的DEFER ^[2]、DEFUSE ^[3]。

NetCVR预估面临“点击-成交”、“成交-退款”两阶段的级联延迟反馈

不同于 CVR 预估中较为成熟的“点击-成交”单阶段延迟反馈建模，随着流量价值建模的精细化，新出现的NetCVR与GMV等后链路预估任务面临着更为复杂的级联延迟反馈（Cascaded Delayed Feedback）挑战。现有的单阶段纠偏方案无法胜任多阶段耦合的级联延迟反馈建模，而且相关基准数据集的缺乏也制约了学术界的研究基站。具体挑战如下：

NetCVR（净转化率）预估面临着“点击-成交”、“成交-退款”两阶段的级联延迟反馈（如上图所示），为CVR预估任务设计的DEFUSE、DEFER等模型难以胜任，而唯一已知为NetCVR预估任务设计的模型ECAD ^[4]仅支持天级离线训练，亟待研发时效性更强的流式级联延迟反馈建模方案；
Post-Click GMV (点击后商品交易总额)预估面临着多次购买带来的级联延迟反馈（如下图所示），而且预估目标为连续的数值（成交金额），为CVR二分类目标设计的延迟反馈纠偏方案无法迁移，需要为GMV预估这一回归任务针对性地设计级联延迟反馈建模方案。

三、TESLA：面向净转化率预估的流式级联建模框架

Takeaway：我们发布了首个面向在线净转化率（NetCVR）预估的大规模开源数据集CASCADE，并针对多阶段级联延迟反馈特性，设计了一种新型建模方法TESLA。该方法通过CVR与退款率（RFR）的级联建模结构、分阶段纠偏机制及延迟感知排序损失函数，实现高效精准的NetCVR预估，为在线延迟反馈下的NetCVR建模提供了新范式。

论文：Modeling Cascaded Delay Feedback for Online Net Conversion Rate Prediction: Benchmark, Insights and Solutions https://arxiv.org/pdf/2601.19965

CASCADE数据集：https://huggingface.co/datasets/alimamaTech/CASCADE

TESLA模型：https://github.com/alimama-tech/NetCVR

3.1 NetCVR预估：问题定义与和新挑战

点击后转化率（Post-click Conversion Rate, 简称CVR），即用户点击商品后完成转化的概率，长期作为推荐系统中流量分配与定价的核心指标。随着业务向精细化运营转型，为更准确地衡量流量价值，不仅需关注商品转化是否发生，还需考察该转化是否被保留（即是否发生退款）。故催生了净转化率（Net Conversion Rate,简称 NetCVR）预估的需求，即用户完成购买且后续未申请退款的概率。

转化率（CVR）与净转化率（NetCVR）预估延迟反馈示意图

相较于传统CVR预估，净转化率（NetCVR）预估面临两大挑战：

缺乏公开数据集与实验基准：现有Criteo、Tencent等公开数据集仅包含“点击->转化”信号，缺乏后续“转化->退款”行为的标注。
退款行为带来的级联延迟反馈：传统CVR预估仅涉及“点击->转化”单阶段的延迟反馈，而NetCVR预估需建模“点击->转化->退款”两阶段的级联延迟反馈过程。在缺乏大规模数据分析的前提下，级联目标的相互影响、延迟时间蕴含的统计特征等规律尚未被充分研究。此外，级联延迟反馈结构不仅显著增加获取完整、真实训练标签的难度，更使得现有针对单阶段延迟反馈（如点击->转化）设计的建模方法难以直接适用于NetCVR预测任务。

3.2 数据资源：首个面向NetCVR预估的开源数据集CASCADE

现有数据集（如 Criteo和 Tencent）仅提供点击与转化数据，均未包含购买后的行为信号（例如购买是否被保留或发生退款），因而无法支持对 NetCVR 的建模。因此，本研究从淘宝信息流数据采样并开源了首个面向净转化率预测的开源数据集CASCADE（CAscadal Sequences of Conversion And Delayed rEfund）。该数据集包含约 4100万点击、370万转化及 200万退款记录，并记录了从点击 -> 转化 -> 退款的精确时间戳，支持以 15 分钟为步长的流式训练评估，能够完美模拟真实工业环境下模型处理延迟反馈的动态过程。该数据集已于Huggingface网站开源*，统计信息如下，欢迎从事后链路预估的同行研究者试用。

*说明：CASCADE数据集经过有偏采样构造，不代表真实业务情况与商业指标。

鉴于 NetCVR 预估领域尚缺乏成熟方法，为深入理解其特性，我们对CASCADE数据集进行了深入数据分析，得到了三项关键的洞见：

第一， CVR与NetCVR标签天内波动明显揭示了在线流式学习的必要性。如图所示，CVR与NetCVR呈现出明显的小时级波动，且在深夜时段（00:00-04:00）指标呈显著下降趋势，因此离线天级更新模型难以捕捉此类细粒度时序变化，凸显了采用在线流式学习的必要性。

CVR与NetCVR小时级波动曲线

第二，转化与退款行为存在相关性的同时，亦呈现出各自独立的内在特性。如图所示，可观察到以下现象：（1）左图：CVR 越高的商品 RFR 越低，但在最高 CVR 区间（0.8, 1] 中，RFR 反而上升。这说明转化与退款行为存在相关性，但仍保留各自独特的内在特性。（2）右图：CVR 较高的商品通常具有更高的 NetCVR，表明CVR与NetCVR二者可能存在正相关性。

第三，延迟反馈时间与 CVR 和 RFR 均密切相关，是 NetCVR 预测的关键特征。通过CVR与RFR对用户进行分组，统计转化及退款的延迟反馈时间均值与方差，结果如图所示，（1）左图：高转化用户的支付延迟更短且方差更小，表明高转化用户具有更强的购买意图（2）右图：相较于低退款用户，高退款用户的退款行为平均延迟更短且方差更小。延迟反馈时间与转化和退款行为密切相关，应在级联延迟反馈建模中予以充分考虑。

3.3 模型结构：基于级联建模的NetCVR预估模型

基于对数据深入分析发现，“转化与退款行为存在相关性的同时，亦呈现出各自独立的内在特性”特点，且直接建模NetCVR忽略了“转化-> 退款”这一动态过程，导致实际场景中性能较差。因此，TESLA模型采用部分参数共享的多任务架构，联合建模 CVR 与 RFR 的级联过程。其主体结构如下：

受 Progressive Layered Extraction（PLE）启发，TESLA模型采用共享-私有（shared-private）架构联合学习 CVR 与 RFR，以降低任务间干扰。

具体来说，TESLA模型使用共享编码模块（Shared）用于学习通用知识，CVR任务与RFR任务分别使用各自的模块建模转化与退款行为的个性化内在特性，并在最后对特征进行拼接预估，分别得到CVR预估值与RFR预估值，通过下式得到NetCVR预估值。

3.4 训练目标：两阶段纠偏与排序正则化约束

标签纠偏：分阶段重要性加权

由于NetCVR预估的级联延迟特征，会在结果中引入系统性偏差，进而影响预估准度。因此为获得无偏的NetCVR预估，本研究采用分阶段重要性加权的方式分别对CVR和RFR进行去偏。具体来说，模型通过先修正“点击 -> 转化”阶段的偏差，再修正“转化 -> 退款”阶段的延迟，通过两步走的策略确保在流式训练中获得渐进无偏的NetCVR预估。

标签不确定性：延迟感知排序损失和不确定性感知负采样

在线流式 CVR 和 NetCVR 模型通常采用逐点损失（pointwise loss）进行训练。然而，延迟反馈会导致标签不确定性，尤其是 NetCVR 预估中采用了多阶段级联的延迟反馈，甚至可能引发标签翻转（label flipping）。逐点损失难以有效捕捉这种不确定性，从而限制了其在现实场景中的效果。

延迟感知排序损失（DAR Loss）：将延迟时间从技术挑战转变为关键的训练信号，为“快速转化”和“快速退款”的样本分配更高的学习权重。这使模型能优先学习这些高置信度、意图明确的核心行为，从而缓解延迟回流导致的标签模糊问题。
不确定性感知负采样：利用模型预估概率进行采样，优先选取预估概率极低的样本作为“高可靠负例”，该方法显著提升了模型在流式训练中的稳定性。
TESLA整体框架图

3.5 实验效果与消融分析

通过在CASCADE数据集上进行流式评估，TESLA架构展现出了显著的性能优势，在CVR和NetCVR预估任务上均全面超越现有的延迟反馈模型。在核心任务净转化率（NetCVR）预测中，TESLA取得了12.41%的RI-AUC的绝对提升，以及14.94%的RI-PRAUC的提升。

四、READER：复购感知的双分支GMV预估模型

Takeaway：本研究发布了首个点击后GMV预估公开数据集TRACE，并针对该任务量身定制了复购感知的双分支预估模型READER。该模型通过预测用户的复购意向，对潜在转化次数不同的点击样本进行个性化路由；同时，针对GMV预估作为回归问题的特殊性，本文设计了一套标签纠偏算法用于校准模型训练目标。READER显著提升了点击后GMV的预估准度，为后链路价值建模提供了新范式。

论文：Delayed Feedback Modeling for Post-Click Gross Merchandise Volume Prediction: Benchmark, Insights and Approaches https://arxiv.org/abs/2601.20307

TRACE数据集：https://huggingface.co/datasets/alimamaTech/TRACE

READER模型：https://github.com/alimama-tech/OnlineGMV

4.1 GMV预估：问题定义与核心挑战

点击后商品交易总额（Post-Click Gross Merchadise Value，简称post-click GMV），即带来转化的点击引导的总成交金额，对基于价值的出价策略至关重要。具体而言，在MaxReturn等常见出价模式中，流量 $a$ 的ECPM（每千次展示收入）分数可以分解为：

\begin{align*} \text{ECPM}(a) &= \text{pCTR}(a) \times \text{bid}(a) \nonumber \\ &= \text{pCTR}(a)\times \lambda \times \text{pCVR}(a)\times \text{pGMV}(a), \end{align*}

其中 $\text{pCTR}(a)$ 为预估点击率， $\text{pCVR}(a)$ 为预估转化率， $\text{pGMV}(a)$ 为post-click GMV预估值， $\lambda$ 为出价参数。相比于较为成熟的CTR与CVR预估，业界与学术界对GMV预估的研究尚处于起步阶段，缺乏公开基准数据集与成熟的延迟反馈建模方案。本研究指出，GMV预估的级联延迟反馈建模面临两大挑战：

a. 多次购买带来的级联延迟反馈：点击 $c$ 的GMV标签定义为 $\\text{GMV}_{c} = \sum_{i=1}^{N} p_i$ ，其中 $N$ 为购买次数， $p_i$ 为第 $i$ 次购买的成交价格。如下图所示，当 $N>1$ ，即多次购买（复购）发生时，单次点击的GMV标签面临多次连续累积的更新，传统的“点击-购买”单阶段级联延迟反馈建模方案无法适用。

b. 回归任务的独特性：GMV预估属于回归任务，预测目标为连续的金额，这一特性导致先前工作为CVR（二分类）任务设计的延迟反馈纠偏策略无法使用，亟需开发针对回归问题的标签纠偏方法。

4.2 数据资源：首个点击后GMV基准数据集TRACE

考虑到当前GMV预估基准数据集的缺失，本研究从淘宝信息流数据采样并开源了TRACE（TRAnsaCtion sEquences ），首个点击后GMV预估基准数据集。在该数据集中，每个样本对应一次点击，其标签包括该点击引发的转化事件与对应支付金额，并为点击 → 首次转化 → 复购的延迟反馈全过程各事件提供精确的时间戳，以支持在线连续学习。该数据集已于Huggingface网站开源*，统计信息如下，欢迎从事后链路预估的同行研究者试用。

*说明：TRACE数据集经过有偏采样构造，不代表真实业务情况与商业指标。

为了支撑后续建模方案的设计，在TRACE数据集上对GMV预估的数据范式进行了深入分析，得到了两项关键的洞见：

第一，GMV标签的快速变化揭示了在在线流式学习范式下进行延迟反馈建模的必要性。如下图左所示，GMV标签的均值在天内变化显著，分别在午夜、早晨与晚间达到峰值，说明了在线流式训练的必要性；如下图右所示，点击后即时发生的购买对应GMV仅占到7天内总GMV的40%，有必要进行流式学习下的延迟反馈建模，以平衡标签的时效性和准确性。

第二，单次购买样本和复购样本的分布存在显著差异，说明复购感知的差异化建模富有潜力。如下图所示，单次购买样本（蓝色）与复购样本（红色）的GMV标签分布差异显著，说明使用单一模型统一建模两类样本难度较大，对两者进行差异化建模富有潜力。在前期探索中，已实现区分单次购买样本和复购样本的路由模块，其AUC值达到80%以上，说明根据样本类型进行差异化建模是可行的。

4.3 模型结构：复购感知的双分支差异化建模

为了实现单次购买样本和复购样本的差异化建模，本研究设计了复购感知的双分支预估模型READER（RepurchasE-Aware Dual-branch prEdictoR），其主体结构如下图所示：输入特征经过共享的embedding层的MLP encoder层，根据样本类型分别进入拥有独立参数的单次购买塔（Single-Purchase Tower）和复购样本塔（Repurchase Power），得到GMV预估值 $\hat{y}^s、\hat{y}^r$ 。

考虑到模型流式训练时样本类型未知，本研究训练了预测给定点击是否带来多次购买的路由模块（router），该模块为拥有独立参数的MLP模型，在预训练阶段离线训练后冻结。路由模块与模型主体输入相同的特征，输出 $r\in(0,1)$ 表示发生复购的概率。最终，模型结根据以下路由机制做出最终预测：

\begin{equation*} \hat{y} = \begin{cases} \hat{y}^s , & \text{if } r \leq \tau_1 \quad \text{(single-purchase)} \\ (1-r)\hat{y}^s + r\hat{y}^r & \text{if } \tau_1 < r < \tau_2 \quad \text{(hybrid)} \\ \hat{y}^r & \text{if } r \geq \tau_2 \quad \text{(repurchase)} \end{cases} \end{equation*}

上式中， $\hat{y}$ 为最终GMV预估值， $\tau_1=0.1, \tau_2=0.9$ 为阈值超参数。当路由模块预测置信度较高（ $r \leq \tau_1$ 或 $r \geq \tau_2$ ）时，模型取相应塔的预估值作为最终输出；当路由模块预测置信度较低时，模型则对两个专家塔的预估值进行加权平均得到最终预估值，缓解硬路由带来的误差。

4.4 标签纠偏：回归目标校准与有偏标签遗忘

除了为复购问题针对性设计的双分支结构READER，本研究还为GMV这一回归问题设计了一系列标签纠偏策略，以减缓流式训练中观测到的有偏标签（observed parital label）带来的影响。具体而言，引入了三项纠偏策略：

回归目标校准Calib：引入预训练的calibrator建模观察标签与最终真实标签的偏差，在流式训练中以calibrator校准后的标签为目标训练模型中复购分支；

真实标签对齐GRA：归因周期结束后，以完整的真实标签为目标再次更新模型；

有偏标签遗忘PLU：考虑到归因周期结束前最后一次校准的目标错误地放大了标签，对该有偏标签进行unlearning（梯度上升）。

考虑到篇幅限制，此处仅阐述主要思想，严谨的形式化定义请参见原论文。

4.5 实验效果与消融分析

如下图所示，相比于不区分复购情况的单塔基线模型与天级离线训练的基线模型，READER模块显著提升了GMV预估准度，AUC序准度指标相比最优基线提升0.86%，准确率ACC（相对误差值在20%以内则认为准确）提升2.19%，对数绝对误差ALPR降低6.88%。此外，消融分析展现了双分支结构、混合路由机制与各项纠偏策略的显著作用，说明了该方法设计的合理性。

五、总结与展望

NetCVR与GMV等新型后链路预估任务面临多阶段的级联延迟反馈带来的挑战，亟需公开基准数据集对社区研究的支持与相应建模方案的探索。为此，本项目立足于真实业务场景，深入钻研了级联延迟反馈问题，为NetCVR、GMV预估中的延迟反馈研究奠定了数据基础，并提供了包含模型结构设计与多阶段纠偏策略的系统性解决方案。未来，拟计划结合机器遗忘（Machine Unlearning）与大模型推理等技术，进一步探索级联延迟反馈建模的新范式，包括但不限于以下方向：

CVR预估中的partial label unlearning：在延迟正样本回流时，通过unlearning策略消除之前错误负样本更新产生的残余偏差，进一步提升模型在流式训练下的稳定性；

大模型复购推理：使用具备世界知识的大模型升级GMV预估中复购预测路由模块，提升复购预测的准确性，从而进一步提升GMV预估准度

Reference

[1] Chapelle, Olivier. "Modeling delayed feedback in display advertising." Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014.

[2] Gu, Siyu, et al. "Real negatives matter: Continuous training with real negatives for delayed feedback modeling." Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021.

[3] Chen, Yu, et al. "Asymptotically unbiased estimation for delayed feedback modeling via label correction." Proceedings of the ACM Web Conference 2022. 2022.

[4] Zhao, Yunfeng, et al. "Entire space cascade delayed feedback modeling for effective conversion rate prediction." Proceedings of the 32nd ACM International Conference on Information and Knowledge Management. 2023.

END