KDD'25 | Bid2X：基于基础模型视角的广告竞价环境建模

摘要

广告自动出价服务会为广告主自动生成出价，是在线广告投放的关键能力。现有研究虽然在竞价环境建模上投入很多，但大多只针对某一种场景设计，换到其他场景效果往往下降，泛化能力不足。

为解决这一问题，我们提出用统一模型来建模竞价的通用规律：在给定出价时，广告可能产生的效果是多少，例如预算消耗、GMV、PV 等。基于这一想法，我们提出竞价环境基础模型 Bid2X，从多场景数据中学习这一竞价规律。

在模型设计上，Bid2X 先把不同来源、不同类型的竞价数据编码成统一的序列表征。为捕捉竞价数据中复杂的变量间依赖关系和动态时间依赖性，我们提出了两种注意力机制，分别将不同变量的嵌入和不同时间步的嵌入作为注意力Token进行表征学习。在学得的变量和时间表征基础上，采用变量感知融合模块进行自适应竞价结果预测。

我们的模型已在全球最大电子商务平台之一的淘宝广告平台上部署。在八个大规模真实数据集上的离线评估表明，Bid2X 相较于多种基线方法具有优越性，并在不同场景间展现出良好的通用性。在实际应用中，Bid2X 在线 A/B 测试使GMV提升了 4.65%，ROI提高了 2.44%，为计算广告领域的竞价环境基础模型开辟了道路。

基于本工作的论文已被KDD'25 ADS Track接收，欢迎阅读交流。

论文：Bid2X: Revealing Dynamics of Bidding Environment in Online Advertising from A Foundation Model Lens

作者： Jiahao Ji, Tianyu Wang, Yeshu Li, Yusen Huo, Zhilin Zhang, Chuan Yu, Jian Xu, Bo Zheng

下载：https://dl.acm.org/doi/epdf/10.1145/3711896.3737197

一、引言

随着在线广告平台自动化程度的不断提高，自动出价服务已成为广告主在各种广告场景中实现广告效果目标不可或缺的工具。目前主流的自动出价算法通常隐式地对竞价环境进行建模，但在全面理解竞价环境和跨环境泛化方面存在局限。例如，线性规划基于历史竞价环境计算给定出价下可获取曝光的总价值最大值。基于比例-积分-微分控制器的方法描绘给定出价下可能的成本^[1]。基于强化学习的方法通常采用环境模型来学习出价与成本或奖励之间的关系^[1]^[2]。这些环境建模过程可以总结为一个统一的环境函数，其中 Y 涉及目标变量，如成本、奖励和获胜曝光次数，t 表示时间戳。

为克服这些问题，我们提出训练一个竞价环境基础模型（Bidding Foundation Model，BFM），其定义为"一个在大量竞价环境数据上训练的大型深度学习模型，使其能够适用于各种竞价场景"。由于存在独立于特定竞价环境的通用原理，BFM能够跨多种场景通用。例如，更具成本效益的曝光能带来更好的广告效果，竞价环境存在时间邻近性和周期性，出价与其结果遵循边际收益递减规律。

然而，如何为工业级电商广告构建基础模型，对学术界和工业界而言仍是一个开放性问题。我们认为此方向存在三个挑战：

异构竞价数据。从不同竞价场景收集的数据缺乏统一性，主要包括无时间信息的点数据、时间序列数据，以及离散数据和连续数据。每种数据类型都有其自身特点，目前尚无统一方法对所有数据进行编码。
复杂动态的数据依赖。真实世界竞价环境是一个高度动态的多智能体博弈过程，导致竞价数据中控制变量与目标变量之间存在复杂依赖关系。此外，这些依赖关系随时间演变，例如，相同出价在夜间可能比工作时间带来更多收益，因为人们更可能在下班后在线购物。现有方法主要学习变量间的依赖关系，但未能考虑时间动态性。
独特的数据分布。由于参与竞价过程并不保证能赢得曝光，竞价数据常包含许多零值，形成零膨胀分布。这种独特分布违背了现有神经网络模型对正态数据分布的假设，导致次优性能。

为应对这些挑战，我们提出了名为 Bid2X 的竞价环境基础模型，它利用带条件的下一Token预测方法，从跨场景的多样化竞价数据中学习通用原理。我们的贡献主要有四个方面：

引入了基础模型的新概念用于竞价环境建模，这一范式创新超越了传统特定场景模型的局限，提供了能够泛化到各种竞价环境的解决方案。
首次识别了竞价环境建模问题的三个独特挑战，这些挑战对于开发竞价环境基础模型和提升计算广告系统能力至关重要。
提出了竞价环境基础模型 Bid2X，能够将异构竞价数据统一为序列嵌入，并学习复杂动态的依赖关系以实现跨环境泛化。我们从理论上确保模型能够收敛到零膨胀数据分布。
在八个真实世界数据集上的大量实验证明了 Bid2X 在各种场景中相较于多种基线方法的优越泛化能力。在大型电商公司淘宝的在线结果进一步验证了我们模型的有效性。

二、预备知识

本节我们首先定义一些基本概念，然后介绍本文研究的问题。

自动竞价与竞价环境建模：计算广告中的自动竞价技术是近年来的研究热点，基于强化学习的方法因其有效处理竞价过程序列的能力而被广泛使用。例如，Cai 等人^[2]设计了一个竞价环境来学习最优竞价策略，Zhang 等人^[3]采用强化学习框架进行自动竞价。此外，预测每个广告拍卖市场价格概率分布的 Landscape forecasting 方法^[4]也可被视为竞价环境建模方法。然而，这些方法通常为特定场景设计，无法很好地泛化到各种竞价场景。

基础模型：基础模型是支持多样化场景的通用技术^[5]。通常，它们是在广泛海量数据上训练的大型深度学习模型。该技术目前已在多种模态中得到发展，如文本、视觉、图、时间序列，甚至机器人和自动驾驶。然而，计算广告中的基础模型尚未得到充分探索。

广告活动：广告活动 C 是广告主为寻求产品推广而创建的订单，受预算、产品类别、广告主类别和投放开始/结束时间约束。它还涉及一些上下文信息，如历史总点击量、历史总成本、历史总成本效益等。在线广告平台中，广告活动通常在每个交易日结束时进行结算和重置。因此，我们将第 τ 天的第 i 个广告活动记为。

竞价轨迹：竞价轨迹是在广告活动执行过程中生成的一系列竞价记录，记为，其中 m 是竞价记录的数量。每条记录，其中 b 是出价，c、r 和 ct 分别表示从时间戳 t 到出价调整时段的累计成本、奖励和获胜曝光次数。当相应广告活动完成时，我们称该竞价轨迹是完整的，否则是不完整的。

竞价环境建模问题：给定历史竞价数据截至时间段 t 的今日竞价数据以及下一个时间段 t+1 的出价信息 ，竞价环境建模问题旨在通过函数预测相应结果：

其中输出包括第 (t+1) 个时间段的成本、奖励和次数，即

我们利用数据的时间特性，将竞价环境建模问题构建为一个自监督任务，即基于先前的竞价记录预测下一个时间步最可能的结果，即带条件的下一Token预测。我们的问题表述不需要人工标注，因为输入和目标天然存在于数据中，类似于语言数据。这种新颖的自监督问题表述方法有助于有效捕捉竞价环境的时间动态性，并为该领域的基础模型铺平道路。

三、方法

本节我们详细介绍提出的 Bid2X 基础模型，其整体架构如图 2 所示。首先，我们在第 1 节提供针对异构竞价数据的统一数据嵌入方法。然后，在第 2 节详细阐述用于变量和时间依赖建模的竞价 Transformer。最后，在第 3 节详细说明针对竞价数据独特分布的零膨胀投影，并引入一个自监督辅助任务以从全局视角补充信息。

1. 统一数据嵌入

本部分旨在通过定制的嵌入方法将异构竞价数据转换为统一序列嵌入。由于历史数据和当天数据用于建模不同类型的依赖关系，我们通过独立模块对它们进行嵌入。

历史数据嵌入

历史数据用于变量间相关性建模，因此我们提出将每个变量序列转换为独立的嵌入。

具体而言，给定轨迹的成本序列，其长度为，我们通过下式将其编码为：

其中是可学习参数。由于不同竞价轨迹长度不同，我们将所有轨迹填充到最大长度 T。

当天数据嵌入

当天数据用于时间依赖性建模，因此我们将一个时间段的所有值视为一个Token，并将其编码为 D 维嵌入。在深入嵌入层之前，我们对竞价轨迹进行预处理，以避免信息泄露并便于建模。

具体而言，给定截至当前时间段 t 的竞价轨迹：，我们沿变量维度将其拆分为两部分：包含控制变量，包含目标变量。

为避免信息泄露，我们将目标序列右移，并使用零向量作为起始Token，使得

同时，我们在控制序列末尾包含未来出价信息，使得

然后，我们将这两个序列堆叠回原始格式，得到。

为了计算方便，我们进一步沿时间维度 t+1 将其填充到最大长度 T，因为不同竞价轨迹长度不同，导致输入形状为。

基于预处理后的竞价轨迹，我们将第 t' 个Token 转换为：

其中。

通过对所有时间段应用此变换，我们可以获得嵌入。该嵌入通过控制变量中的可学习时间嵌入包含了全局时间戳，但序列中Token的局部位置信息未被保留。

为此，我们向添加位置编码，使用固定的位置嵌入矩阵 P，其定义为和。

通过对广告活动数据 C^{(τ)} 重复与历史数据嵌入模块相同的过程，我们可以得到上下文表示。在此基础上，我们生成当天数据嵌入如下：。

2. Transformer

本部分旨在通过两种注意力机制，将复杂的变量间相关性注入历史嵌入，将动态时间依赖性注入今日嵌入。然后，我们通过变量感知融合模块融合和，以全面理解竞价环境。

2.1 基于变量注意力的编码器

我们首先使用变量注意力机制建模不同变量之间的复杂相关性，该机制将每个变量视为一个Token，并学习变量间的成对关系。具体而言，给定历史嵌入，我们通过三个线性投影将其映射到。令分别表示中的第 m 行和第 n 行。我们可以通过下式计算第 m 个和第 n 个变量之间的相关性：

其中 λ 是比例因子，设为 √D。通过计算所有 ,n，我们可以得到一个变量相关图，它展示了成对变量之间的多元相关性。

因此，高度相关的变量在下一步与的表征交互中将被赋予更高权重。

该交互公式为：，其中 LN 表示层归一化。之后，所有变量的表征由共享的前馈网络独立处理，旨在描绘每个变量的内在属性，如幅度和趋势。以上模块构成了一个基于变量的注意力块。通过堆叠个这样的块，我们得到输出表征，它充分捕捉了变量间相关性。

2.2 基于时间注意力的解码器

除了变量间相关性，随时间演变的时间依赖性也是竞价环境的一个重要视角。我们使用因果注意力机制沿时间维度捕捉这种动态依赖性，该机制将每个时间段视为一个Token，并且只关注过去的Token。

具体而言，给定今日嵌入，我们生成查询、键和值用于注意力计算。时间注意力图随后通过下式计算：

其中，是因果掩码矩阵，是全一下三角矩阵，是全 -∞ 严格上三角矩阵。掩码矩阵导致 B 成为一个下三角矩阵，其中主对角线上方的所有条目均为零。这确保了在时间依赖性学习过程中没有信息泄露，因为我们的模型只关注过去信息，无法看到未来信息。在学到的时间注意力图基础上，其余操作与基于变量的注意力模块相同。经过这些操作，我们可以得到输出表征，它捕捉了竞价轨迹中的动态时间依赖性。

2.3 变量感知融合

为使模型更好地理解复杂的竞价环境，我们融合了来自变量和时间视角的表征。由于不同变量从不同视角描述竞价环境，我们提出了变量感知融合方法以保持环境多样性并增强模型的鲁棒性。

具体而言，给定变量表征矩阵 H^(var)，我们提取目标变量的表征作为，并迭代使用每一行生成融合表征。令表示第 i 个目标变量的表征。我们通过下式将其与时间表征矩阵融合：

其中, ⊙ 表示逐元素 Hadamard 积。Sigmoid 门控制哪些输入与预测第 i 个目标变量的未来状态相关。其输入由下式产生：，其中 MLP 是一个两层全连接网络，Concat 表示带广播的拼接操作。

3. 零膨胀投影与辅助任务

3.2 累积预测

为使我们的模型具备对竞价环境的全局视角，我们提出了一个自监督辅助任务，该任务使用目标变量表征预测未来累积信息，如图 2 左上部分所示。

具体而言，给定第 i 个目标变量的表征，我们预测从当前时间段到广告活动结束的目标变量累积值：

其中是预测结果。根据其真实值，我们可以通过均方误差损失优化此任务：

3.3 模型训练

基于零膨胀投影损失和累积预测损失，我们可以得到整体优化目标如下：

四、实验

1. 实验设置

数据集与基线。为评估 Bid2X 的性能，我们在八个广告竞价数据集上进行了大量实验，这些数据集包含来自全球最大电子商务平台之一淘宝广告平台的1亿条竞价轨迹和3百万条竞价记录。这些数据集涵盖多种类型的竞价策略，跨越了具有不同预算和投放周期的各类广告主。

我们选择平均绝对误差和均方根误差进行性能评估。指标值越低表示性能越好。为公平比较，我们还以基础模型的方式为所有数据集训练了 Informer，记为 Informer(fm)。

2. Bid2X 的进一步分析

2.1 消融研究

为验证我们的模型设计，我们对以下变体进行了消融实验：

1）r/p va 用时间注意力替换变量注意力。

2）w/o va 移除变量注意力编码器。

3）w/o ta 通过将解码器输入的目标条目填充为零来禁用时间注意力建模。

4）w/o zip 通过禁用分类相关部分来移除零膨胀投影。

5）w/o cfp 不使用累积未来预测任务。

所有数据集的 MAE 结果如下表所示。我们可以观察到所有组件都对模型的整体性能有所贡献。具体而言，变体 w/o va 和 w/o ta 显示出较大的性能下降，表明我们提出的变量和时间注意力对于有效且全面地建模竞价环境是不可或缺的。

此外，与其它数据集相比，移除这些组件对 BL 数据集性能的影响更为显著，因为其数据具有更复杂的关系并且对环境建模更敏感。

2.2 可扩展性

可扩展性是基础模型的关键特征，因此，我们探索了我们的 Bid2X 关于数据集大小 D 和模型大小 N 的扩展行为。如图 4(a) 和 (b) 所示，我们观察到随着 N 和 D 的增加，模型性能以可预测的方式提升，趋势跨越超过四个数量级。具体而言，模型性能 L 与两个尺度因子 N 和 D 分别存在幂律关系。此外，如图 4(c) 所示，增加模型参数规模加速了训练损失的收敛。

带菱形末端的紫色水平线表明，大模型比小模型具有更高的样本效率，并且用更少的Token处理数达到相同水平的性能。这些观察表明 Bid2X 已经展现出可扩展性行为，其中更大的模型通常表现出改进的性能。

3. 在线 A/B 测试性能

除了离线评估，我们还在全球最大电子商务平台之一的淘宝真实在线广告环境中部署了我们的模型。该平台基于营销价值和广告主施加的多个约束，为每个传入请求在实时拍卖系统中调整出价。大约一百万条由广告主设置的广告活动被抽样用于实验，指标包括：页面浏览量、消耗的预算、在周期内赢得的曝光机会次数、商品交易总额和投资回报率。如下表所示，我们的模型在总消耗预算以及所有其他指标（包括为广告主最大化商品交易总额的目标）方面均优于基于模型的强化学习。

五、参考文献

[1] Daisuke Moriwaki, Yuta Hayakawa, Akira Matsui, Yuta Saito, Isshu Munemasa, and Masashi Shibata. 2021. A real-world implementation of unbiased lift-based bidding system. In 2021 IEEE International Conference on Big Data (Big Data). IEEE, 1877–1888.

[2] Han Cai, Kan Ren, Weinan Zhang, Kleanthis Malialis, Jun Wang, Yong Yu, and Defeng Guo. 2017. Real-time bidding by reinforcement learning in display advertising. In Proceedings of the 10th ACM International Conference on Web Search and Data Mining. 661–670.

[3] Zhiyu Mou, Yusen Huo, Rongquan Bai, Mingzhou Xie, Chuan Yu, Jian Xu, and Bo Zheng. 2022. Sustainable online reinforcement learning for auto-bidding. Advances in Neural Information Processing Systems, 2651–2663.

[4] Xu Li, Michelle Ma Zhang, Zhenya Wang, and Youjun Tong. 2022. Arbitrary distribution modeling with censorship in real-time bidding advertising. In Proceedings of the 28th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 3250–3258.

[5] Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al. 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258 (2021).

💡 关于我们

决策智能平台团队在业务上负责阿里妈妈的核心产品“新享”和“营销托管”。其中，“新享”是淘系最大的由商家出资的权益发放产品；“营销托管”则是业界首个将权益与广告联合进行营销的产品，业务正处于快速增长阶段。在技术方面，团队主要聚焦于决策智能算法的研发，包括自动出价、权益与广告的分配与投放、Uplift 模型预估等方向。我们的技术处于业界前沿，代表性成果包括：AIGB（业界首个生成式自动出价模型）、Bid2X（通用竞价环境建模框架）、RL-based Bidding（Offline RL、Iterative RL等）、Neural Auction（工业界首个智能拍卖机制）等，相关工作已发表在 KDD、NeurIPS、WWW 等国际顶级学术会议上，并引发广泛关注。此外，我们还发起了全球首个自动出价竞赛，并开源了大规模自动出价仿真环境 AuctionNet。团队与高校保持紧密合作，承担了多项学术合作项目，并荣获集团“优秀合作项目”奖项。

欢迎聪明、靠谱的小伙伴加入我们！（社招、校招、实习生、高校合作、访问学者等均开放）

📮 简历投递邮箱：zhangzhilin.pt@alibaba-inc.com

END