▐ 摘要
大规模博弈环境中的决策智能是人工智能领域内的重要研究方向,对实际应用具有深远影响。然而,由于缺乏全面且真实的博弈环境及相关数据集,这一领域的进展受到了限制。为了解决这一问题,本文提出了一种基于在线广告行业的自动出价决策问题的Benchmark,并命名为AuctionNet。AuctionNet包括一个大规模广告竞拍环境、基于该环境预生成的数据集以及几种基础出价决策算法的效果评估。广告竞拍环境通过深度生成式模型生成广告流量数据,旨在缩小仿真环境与现实问题之间的差距,同时避免敏感数据暴露的风险。数据集中包含了48个不同出价智能体相互竞价的日志,可帮助出价模型更好的训练。这个数据集共有5亿条记录,共计80GB。AuctionNet已应用于NeurIPS 2024竞赛,为1500支队伍提供了近万次准确、公正的算法效果评估,并帮助选手研发更多元、创新性的解决方案。 AuctionNet不仅适用于广告拍卖中的出价决策算法研究,也适用于大型博弈场景的决策智能算法研究。 论文 :AuctionNet: A Novel Benchmark for Decision-Making in Large-Scale Games作者 :Kefan Su, Yusen Huo, Zhilin Zhang, Shuai Dou, Chuan Yu, Jian Xu, Zongqing Lu, Bo Zheng发表会议 :NeurIPS 2024 Datasets and Benchmarks Track(Spotlight)论文下载 :https://arxiv.org/abs/2412.10798代码地址 :https://github.com/alimama-tech/AuctionNet 在人工智能领域,大规模博弈中的决策问题是一个基础性的研究方向。在大规模博弈中,智能体需要在竞争环境下,在特定约束条件下做出正确的决策以实现其目标。智能决策的研究进展对广泛的现实应用产生了深远影响。在线广告是其中一种代表性的应用。其市场规模在2023年超过6000亿美元。这一领域需要在大规模博弈中运用复杂的决策技术。具体来说,在线广告系统主要通过流量拍卖的方式实现广告投放。而自动出价技术是衍生于这一场景的一项重要技术。如图1所示,自动出价的智能体代表广告主对大量持续到来的广告流量进行出价,目标是在满足特定约束条件(如投资回报率ROI)的前提下实现效益最大化。 图1:大规模在线广告平台总体架构 大规模广告拍卖中的出价决策是大规模博弈决策的一个典型例子。然而,研究人员通常只能有限地访问到真实的大规模广告竞拍环境,这一现状会对该领域的研究造成阻碍。尽管业界已经有了部分工作旨在为研究者提供一个仿真环境,但此类仿真环境大都无法对广告系统中的复杂的流量分布及博弈行为进行很好的描述,且可扩展性不足,无法很好支持研究者对问题进行广泛的研究。 在本文中,我们提出了AuctionNet——源自真实在线广告平台的大规模广告出价决策基准。 AuctionNet由三个部分组成: 广告竞拍环境、基于该环境的预生成数据集以及对几种基线出价决策算法的性能评估。 具体来说,该环境通过多个模块的交互,有效地复制了真实世界广告竞价的完整性和复杂性: 广告流量生成模块基于深度生成式模型。 这种方法可以缩小模拟数据和真实世界数据之间的差距,同时降低敏感数据暴露的风险; 出价模块实现了使用不同决策算法训练的多样化; 拍卖机制模块基于广义二价(GSP)拍卖机制,同时也允许根据需要定制拍卖机制。 为了促进研究并提供对博弈 环境的深入了解,我们还基于该环境预生成了一个大型数据集。 该数据集包含48个不同的智能体相互竞争的轨迹,总计超过5亿条记录,大小达80GB。 作为AuctionNet的一部分,我们还提供了线性规划、强化学习和生成式模型等基线算法在出价决策方面的性能评估。 在本文中,我们使用部分可观测随机博弈(POSG)来构建这个问题。在POSG中, = 表示一个元组,其中 表示所有智能体的集合, 为时间范围,即一个周期所对应的时间步数, 表示状态空间, 为动作空间, 为转移概率, 表示折扣因子, 表示观测空间, 表示对每个智能体 从状态到观测的映射, 是所有智能体的联合奖励函数, 是每个智能体 的个体奖励函数,其中 是所有智能体的联合动作。 具体来说,在一个时间步内的交互过程如下:状态 由预算 、广告流量特征 、广告主特征 (如行业类别)以及相应的价值矩阵 组成,其中 表示广告流量 对智能体 的价值。智能体 的观察值 仅包含状态 中的部分信息,即智能体 可能不知道其他智能体的预算。基于自动出价领域的已有结论,智能体 对流量的出价可以被表示为一个出价系数 与流量价值 的乘积。因此,在这个时间步内智能体 对所有广告流量的出价为 ,其中 是这个时间步长内的广告流量数量。给定所有智能体的出价,根据拍卖机制的决定,智能体 将收到拍卖结果 ,其中当且仅当智能体 赢得流量 时, 。智能体只会从赢得的流量中获得奖励并付出成本,即奖励 以及成本 。因此下一个时间步的预算 ,其中 是展示 对智能体 的成本。 以典型的自动出价场景为例,根据上述定义,从智能体 的角度来看,优化目标如下: 对于更复杂的场景,我们可以添加CPA约束以确保预算的有效利用。上述决策制定公式可以轻松扩展到各种现实场景中。 为了全面展示真实世界在线广告平台中的大规模博弈,我们开发了一个广告竞拍环境。为了规范自动出价过程,我们将一段时期内的广告流量划分为 个决策时间步。根据目标,自动出价智能体在每个时间步依次进行出价,利用第 步的结果和之前的历史信息来改进第 步的策略。这种设计理念使智能体能够持续优化其出价策略,以适应不断变化的环境。在每个时间步内,所有广告流量都是独立且并行执行的。完成竞价后,环境会为智能体计算出最终得分。 这个环境通过广告流量生成模块、竞价模块和广告拍卖模块的相互作用,有效地复现了真实世界中广告拍卖的完整性和复杂性。为了更好地模拟现实中的大规模拍卖,环境中输入了大量的广告流量,并配置了数十个出价智能体。这些广告流量是通过深度生成式模型产生的,以此减少模拟环境与现实之间的差距,同时避免敏感数据泄露的风险。这些代理配备了多样化且复杂的自动竞价算法。 广告流量生成模块的目标是生成与真实在线广告数据相似的多样化广告流量。如图2所示,该模块的核心是深度生成式模型。我们使用了潜在扩散模型(LDM)的方法来生成广告流量。LDM在潜在空间中添加噪声并使用扩散模型进行去噪,然后通过编码器和解码器从潜在空间生成数据。具体来说,LDM在训练过程中使用编码器将广告流量特征 映射到潜在向量 ,并使用解码器重构这个特征。在生成时,LDM从正态分布中采样一个随机潜在向量,然后基于这个向量生成广告流量特征。令 为广告流量特征数据 的空间,其中 是原始数据的维度, 是广告流量的数量。令 为潜在空间( )。编码器和解码器分别表示为 和 ,其中 和 是参数。编码器 的功能是获取原始数据的潜在表征,即 ,其中 且 是潜在表征。在实践中,应用重参数化技巧以确保该操作在反向传播期间是可微的。 图2:广告流量生成流程 给定潜在表征 ,解码器负责从 重构原始数据,即 。除了重构之外,潜在分布 需要逼近标准高斯分布 。因此,编码器和解码器的损失函数如下: LDM在潜在空间中使用扩散模型来生成潜在变量。扩散模型背后的思想是向原始数据添加高斯噪声以获得服从 的变量,并从 开始去噪来进行生成。 给定一个潜在变量 ,我们将其经过 次迭代后的噪声版本表示为 。扩散模型包含一个用于预测噪声的网络 ,其损失函数可以表示为: 其中 , 是 的潜在空间嵌入, 是从集合 中均匀采样得到的。网络 是扩散模型中唯一可学习的组件,它通过基本操作实现了添加噪声和去噪的过程。 对于给定的广告流量特征 ,我们还需要确定这个广告流量与对应广告主类别信息 和时间信息 相结合的价值,其中 是与 相关联的真实数据中的广告主信息。我们使用多头注意力机制(Multi-head Attention, MHA)作为信息整合的网络架构。让 表示价值预测模块, 表示在特定时间步骤下,针对特定广告主的广告流量特征 的预测价值。价值预测模型的损失函数如下: 出价模块复现了广告主之间的动态竞争。每个广告主都有不同的广告目标,并使用独立的自动出价智能体,同时对其竞争对手的策略并不了解。研究人员可以控制环境中的部分智能体,而其他智能体则保持不受控制。这种设置可以更好地反映现实世界在线广告中复杂且动态的博弈过程。 广告拍卖模块的任务是根据智能体对广告流量的所有出价来确定赢家和中标价格。根据不同的拍卖规则,智能体的成本会有所不同。基于常见的GSP拍卖,获胜者会以第二高的出价而非最高出价来支付。为了方便研究人员进行研究,拍卖模块内部支持包括GSP在内的多种主流拍卖规则。此外,研究人员 可以使用拍卖模块的接口设计特定的拍卖规则以满足他们的研究目的。 此外,环境中实现了多坑的属性。多坑源于工业应用,意味着单个广告流量可能有多个广告坑位用于展示。具有较高曝光率的广告坑位对广告主来说更有价值。假设广告位数量为 ,那么拍卖模块将把 个广告位分配给出价最高的 个出价者,这些出价者将根据广告位不同的曝光率获得不同的价值。总的来说,多广告位特性增加了最优出价策略的复杂性,因为曝光率作为折扣因子同时影响成本和价值。 为了更好地证明生成的数据能够反映真实世界数据的特性,我们对广告流量生成模块本身的有效性进行了验证。广告流量生成模块包含两个组成部分:特征生成式模型和价值预测模型。我们进行了实验来验证这些模型的有效性。 我们随机抽样了10万个真实世界在线广告数据点,并与10万个生成的数据点进行比较。首先,我们使用PCA(主成分分析)来可视化真实数据和生成数据之间的相似性。3D PCA结果如图3所示。为了更好地展示,我们在3D空间中使用了六个不同的视角。我们观察到生成的数据在3D空间中与原始数据重叠。此外,生成的数据点在3D空间中形成了四个主要的独立簇,这与真实世界的数据点类似。这些可视化结果表明,生成的数据总体上与真实世界的数据相似。 图3:10万条生成数据和10万条真实数据的三维主成分分析(PCA)结果 为了进一步比较这两个数据集,我们研究了两个数据集中身份信息和消费行为信息的数值分布。实证结果如图4所示。对比真实数据和生成数据中个人信息相关特征的取值分布:可以发现在年龄、会员等级、偏好的手机价格区间等具体的特征上,生成数据的分布和真实数据的分布虽然略有差异,但在大体上仍是相似的。 图4:用户身份信息分布 在图5中,我们对比了真实数据和生成数据中消费行为相关特征的取值分布:在统计消费行为的相关特征上,我们可以发现生成数据和真实数据都呈现出“长尾分布”,即绝大部分消费者的消费行为都比较稀疏,而存在小部分的消费者消费行为较为频繁,这也符合相关行业观察到的现实规律。 图5:消费行为信息分布 该数据集源自博弈环境中生成的数据,其中多个自动出价智能体相互竞争。我们已经预先生成了大规模的博弈数据,以帮助研究人员更深入地了解竞价系统。这些数据可用于对环境建模和有效训练自动出价智能体。 数据集包含21个广告投放周期,每个周期包含超过500,000个广告流量,并被分为48个步骤。每个流量都包含出价最高的前48个智能体(注:真实世界的数据表明,48个智能体可以确保自动出价智能体训练时的竞争压力)。 数据集包含超过5亿条记录,总计80GB大小。每条记录包含预测价值、出价、拍卖和展示结果等信息。 在实验部分,论文评估了多种基线算法在AuctionNet环境中的性能,包括PID Controller、Online LP、IQL、BC和Decision Transformer。值得注意的是,我们使用了论文中的原始算法,并没有在自动出价任务对这些方法做特殊的优化。实验结果如图6所示。为了更好地说明问题,我们将所有基线方法的性能用启发式基线Abid的平均周期奖励进行归一化。因此,在基础任务中,Abid的平均相对性能为 。Online LP取得了最佳性能,这可能是因为它相对稳健,无需为自动出价任务进行特殊适应就能取得良好效果。虽然IQL、BC等方法的表现不如Online LP,但我们观察业界有在这些算法基础上针对自动出价问题提出了一些新的解法(如AIGB)并有显著效果提升,证明了这类方法具有巨大的优化潜力。此外,在目标CPA任务中所有基线方法的奖励下降是由于超出约束而产生的CPA惩罚所致。 图6:基线算法在基本任务和目标CPA任务上的实验结果 我们将这个benchmark的代码开源出来,希望能加速这个领域的技术突破。
AuctionNet环境仍然存在一定的局限性,包括生成数据与真实数据之间的偏差并没有完全得到解决,以及AuctionNet环境的计算速度仍然偏慢,有待进一步优化。尽管如此,AuctionNet环境和数据集仍然为大规模博弈决策的研究提供了一个有价值的工具。这不仅为研究人员提供了在大规模拍卖中研究自动出价算法的机会,也可以帮助博弈论、强化学习、生成模型、运筹学等领域的研究人员和实践者解决各种决策研究问题。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢