隐私集合运算(PSO)是大数据时代保护用户隐私的关键技术,是一类支持多方在隐私保护前提下进行集合运算的专用安全多方计算协议。其核心协议包括隐私集合求交,隐私集合交集计算与隐私集合求并,通常通过公钥密码学、混淆电路及OT技术等密码机制实现,并在计算效率、通信开销及通用性上各有优势。阿里妈妈SDH已集成多种PSO核心能力于广告场景服务中。
随着大数据时代的发展,用户在互联网上的点击、停留、分享与购买等行为被实时转化为可计算的数据流。数据规模的指数级增长与算法能力的突破,不仅为企业带来精细化运营能力,更重构了传统营销模式。数字广告在近十年间实现了高效增长,其持续扩张的核心动力在于广告生态链通过数据实现"精准人群+黄金时段+适配场景"的三维触达,这依赖于生态体系中三大核心参与者:
广告主(Brand / Advertiser),掌握自有 CRM 或 App 用户数据 媒体与流量平台(Publisher / Ad Network),拥有庞大的受众访问面 第三方数据服务商(MMP / CMP),负责投放效果评估与反作弊

数据流会频繁进行交集去重、并集扩量、交集计数等集合类运算,以实现人群匹配、频次控制和 ROI 归因等关键功能。在隐私法规趋严与浏览器淘汰第三方 Cookie、移动端限制 IDFA 的背景下,传统“明文对接”模式已难以为继,如何在数据共享同时,保护用户数据隐私成为当前的重点问题,隐私集合运算成为破解数字广告数据协同瓶颈的关键技术。
隐私集合运算(Private Set Operations, PSO)允许多方在保护各自输入集合隐私的前提下,共同完成各类集合运算,常用于隐私数据库查询[1]。按照参与方数量,PSO 可分多两方和多方隐私集合运算。在两方场景中,参与方通常分为一个接收方R和一个发送方S,接收方指得到协议输出结果的一方。
根据不同的功能性,主流PSO协议可分为以下三类:
1) 隐私集合求交(Private Set Intersection, PSI):用于计算集合交集
2) 隐私集合交集计算(Private Computation on Set Intersection, PCSI):用于对交集元素进行细粒度的隐私计算
主要包括以下两类:
隐私集合求交集势(Private Set Intersection Cardinality, PSI-Card):用于计算交集的势 隐私集合求交集势与和(Private Set Intersection Sum With Cardinality, PSI-Card-Sum):用于计算交集的势与和
3) 隐私集合求并(Private Set Union, PSU):用于计算集合并集
考虑两方场景的PSI协议,接收方和发送方分别持有集合X,Y,两方输入本方集合X,Y执行隐私集合求交协议,输出交集 给接收方[2]。在此过程中,双方均无法得到除交集外对方集合的任何信息。PSI 是在保障隐私的前提下实现数据库安全内连接(Inner Join)的关键技术,被广泛应用于广告、保险、医疗等多个行业。

随着应用场景的不断丰富,发展出了多种PSI变体以支撑更加多样化的场景:多方PSI支持三方及以上参与方的隐私求交,可应用于多机构科研与金融协作;非平衡PSI优化了数据量悬殊情况下的计算效率,适用于广告归因中海量曝光与少量转化等场景;代理PSI借助云端代理降低终端负担,适用于物联网协同或分布式系统;门限PSI仅输出交集是否达预设阈值,满足风控场景的异常关联判断需求,避免敏感数据泄露。
这些衍生协议不断扩展了 PSI 的功能边界,也为隐私计算领域带来了新的理论与工程挑战。目前,实现各类 PSI 及其变体所依赖的底层密码学框架大体可归纳为三条路线:

【基于公钥密码体制】
基于公钥密码体制的PSI的研究可追溯到1986年,Meadows提出首个基于Diffie-Hellman的两方协议,将“明文元素比对”巧妙地转化为“会话密钥比对”。2004年,Freedman等人引入同态加密与多项式拟合,给出首个可证明安全的 PSI 方案,为该领域奠定了严谨的理论基础。随后,学术界相继提出多种基于同态加密的改进协议,但高计算开销导致其在大规模应用中存在性能瓶颈。2022年,Vos等人实现了集合元素的安全“与”运算,基于椭圆曲线密码学(ECC)的高性能与群运算交换性优势,提出了迄今针对大规模数据集效率最高的多方 PSI 协议。

【基于混淆电路】
混淆电路(Garbled Circuit, GC)能把任何函数转换为布尔电路,天然适用于“多功能” PSI(求交、求并、门限、势等)的实现。自 2012 年 Huang 等人用 Yao 电路提出首个半诚实 GC-PSI 协议以来,围绕“如何把电路做小、做浅”,2019 年Pinkas利用可编程 OPRF(OPPRF)把通信复杂度压缩到与集合大小线性。GC-PSI 的优势在于通用性强、可支持多种交集派生操作,但因电路设计复杂导致其实际性能较差。

【基于不经意传输】
不经意传输(Oblivious Transfer, OT)是安全多方计算技术中最基础的协议之一:接收方选择一个比特 ,发送方提供两个元素 ,协议结束后接收方获得 ,而发送方无法得知 的具体值。Ishai等人在2003年提出了OT扩展,显著提高了大量不经意传输的计算性能。2013年,Dong人首次提出了基于布隆过滤器和OT的PSI协议,2016年,Kolesnikov等人引入伪随机函数,利用OT扩展对伪随机函数进行实例化以构造高效的PSI协议。相较于基于公钥和混淆电路,OT在计算开销和通信开销达到平衡。

以基于公钥密码体制-ECC方案为例,阿里妈妈营销隐私计算平台 Secure Data Hub(SDH)实现了基于椭圆曲线 ECC 的 Diffie-Hellman 的 PSI 协议,具体协议流程如下:
接收方 R 和发送方 S 协商一个椭圆曲线群 及 hash_to_curve 算法,并各自生成私钥 。 R 和 S 将本方元素 和 通过 hash_to_curve 算法映射为椭圆曲线上的点 和 。 R 和 S 分别使用本方私钥 和 对本方元素映射的 和 进行加密,即分别计算椭圆曲线上的标量乘法 和 。 R 发送 并发送给 S。 S 对 使用本方私钥进行二次加密,即计算 ,并发送 给 R。 R 对 使用本方私钥进行二次加密,即计算 。 R 对 和 中的每个元素进行比较,得到 ,从而计算交集 输出。

作为PSO领域的重要技术分支,PSI技术已广泛应用于实际业务。然而,单纯获取交集难以满足更复杂的场景需求,例如交集上的统计分析和加权计算、并集计算等。因为学术界与工业界延伸出两大技术方向:隐私集合交集计算与隐私集合求并,拓展了PSO技术的应用边界。
【基础介绍】
以两方场景的PCSI协议为例,接收方R与发送方S分别持有集合 ,并共同约定了集合上的目标函数 ,两方分别输入本方集合 ,协议输出 [3]。协议过程中保证除结果 外,R和S均不能得到对方集合的其他任何信息,包括交集元素 。
根据执行的目标函数 的不同,PCSI协议中有两种常用的协议PSI-Card和PSI-Card-Sum。PSI-Card仅输出交集的势 ,被广泛应用于广告去重计费、客户重叠度评估等场景。PSI-Card-Sum在求得 的同时,对交集元素携带的数值标签进行安全求和,应用于广告 ROI 统计、联合授信风险敞口计算等场景。

相较于传统的PSI协议,这种定制化的协议仅输出关于交集的统计量而不泄露交集,更符合数据使用中强调的“最小化原则”。
【相关工作】
PCSI协议从交集计数逐步扩展至任意函数隐私计算:2005年,Vaidya等人提出首个计算交集大小的PSI-Card协议;2006年,Hohenberger等人将复杂度降至亚二次级。2020年,Miao等人基于分布式OPRF与同态加密提出首个恶意模型安全的PSI-Sum协议,但计算开销大。2021年,Garimella引入OT设计了一个PSO框架,在只泄露交集势的前提下支持任意函数隐私计算。目前,PCSI协议已支持交集上的多功能计算,并持续向高效方向演进。
【基础介绍】
隐私集合求并协议允许参与方在不泄露原始集合元素的前提下完成并集计算。以两方场景的PSU协议为例,接收方S和发送方R分别输入集合 和 ,输出并集 [4]。

与PSI、PCSI适用于隐私数据库内连接不同,PSU是隐私数据库全连接(Full Join)的核心组件,对扩充隐私数据库的功能性具有巨大价值。与PSI技术相比,PSU发展较为滞后,尽管PSU与PSI在功能逻辑上高度相似,但计算性能上PSU与PSI存在数量级差距,因此制约了其实际的落地应用。近年来,随着OKVS、OPRF等技术变革,PSU技术开始进入快速发展阶段,研究路线大致分为两条:
基于公钥密码学:主要采用同态加密,通信量小,但算力开销大,适合带宽受限、算力充裕的场景 基于OT协议:通过OT扩展减少数据批量处理的计算开销,缺点是会带来额外带宽消耗
【相关工作】
PSU协议发展经历了三个关键节点:2005年Kissner等提出首个基于同态加密与拉格朗日插值的PSU方案,但性能受限于同态加密;2017年Davidson团队引入布隆过滤器与Paillier加密,将计算/通信复杂度首次降至线性;2019年Kolesnikov首次引入OT协议,构造“RPMT+OT”框架,计算效率显著提升。后续工作基本沿用了此框架,并围绕RPMT协议的性能优化展开。2023年,Zhang等提出首个基于OT的线性复杂度协议,进一步推动PSU技术成熟。


为了提升PSO领域内上述协议的通用性与可部署性,Chen 等人提出了一种统一的构造框架[5],将多种协议的实现整合到一个系统化结构内,通过引入多查询反向成员测试(multi-query Reverse Private Membership Test, mq-RPMT)的新型基础协议,同时使用OT协议实现协同计算,支持快速构建 PSI-Card、PSI-Card-Sum以及 PSU 等协议。尽管该框架具有很强的通用性,但在性能上与前沿的PSI协议仍存在一定差距。
mq-RPMT协议输入为接收方S和发送方R分别输入本方的集合 和 ,输出并集一个特征向量 给接收方,该特征向量满足 ,用于表示对方元素是否属于交集。在 mq-RPMT 协议中,Reverse含义在于接收方得到的表示对方对应位置元素是否属于交集的特征向量,而R得不到对方元素,因此不能通过此特征向量判断出交集,进而保证了交集的安全性。

接收方通过RPMT协议得到反向的特征向量 后,在此之上:
统计 中 "1" 的个数可直接实现 PSI-Card 对对方集合中 中"1"对应的元素加和即可实现 PSI-Card-Sum 得到对方集合中 中"0"对应的元素即可实现 PSU
隐私集合运算技术重塑了数据协作的边界,已被广泛应用于多个行业,以下简单列举几个典型行业下的应用场景和技术适配方案:
金融风控:通过集合交集计算+差分隐私,银行与电商平台协同识别关联账户,共享欺诈黑名单,提升金融反欺诈能力 医疗领域:利用集合交集+并集计算,支持医院、科研机构在保护患者隐私的基础上进行病例数据归因和基因关联性分析,助力精准药物研发 数字广告:依托交集去重+频次控制,广告主与平台协作实现用户群体的精准匹配和冷启动优化,避免重复投放,优化营销效果 政务治理:基于交集计算+数据差集归因,税务、公安、民政等部门高效实现跨部门身份认证、信息共享与风险防控,提升公共服务效率
隐私集合运算技术通过多种密码技术的融合,在数字广告、金融风控与医疗研究等领域实现了跨机构数据“可用不可见”的安全协作。在SDH中,PSO被深度整合为数据协作的“安全基座”,已实现PSI、PCSI、PSU三大核心能力:
PSI:基于椭圆曲线密码学提供高效实现,支持两种曲线选型—Curve25519(通用性最佳)与FourQ(性能最优),适配不同场景需求 PCSI:在ECDH-PSI方案中引入置换技术混淆交集元素位置,在保障交集元素保密性的同时完成交集计数 PSU:自研基于OPRF的高效保序加密算法,并在此基础上实现了多方元素的安全合并
目前,SDH已将上述PSO技术能力集成于一方人群上翻追投、全域消费者洞察分析、跨域投放效果衡量、全域消费者流转分析、全域投放频控等多个营销应用场景,实现跨域数据的高效流通和隐私安全运算,为广告主提供跨域安全一致的数据决策能力。
随着隐私计算技术的持续演进,PSO将在更广泛的领域释放潜能。一方面,轻量化协议设计与硬件加速(如专用加密芯片)将进一步降低计算成本,推动PSO向实时场景渗透;另一方面,PSO与联邦学习的融合,对AI领域的发展具有重大的意义。当数据孤岛被安全技术打破,人类将首次有机会在保护隐私的前提下,释放数据的全部价值,而这正是隐私计算时代赋予我们的全新可能。
Garimella G, Mohassel P, Rosulek M, et al. Private set operations from oblivious switching[C]//IACR International Conference on Public-Key Cryptography. Springer, 2021: 591-617. Freedman M J, Nissim K, Pinkas B. Efficient private matching and set intersection[C]//International conference on the theory and applications of cryptographic techniques. Springer, 2004: 1-19. Vaidya J, Clifton C. Secure set intersection cardinality with application to association rule mining[J]. Journal of Computer Security, 2005, 13(4): 593-622. Kissner L, Song D. Privacy-preserving set operations[C]//Advances in Cryptology-CRYPTO 2005: 25th Annual International Cryptology Conference. Springer, 2005: 241-257. Chen Y, Zhang M, Zhang C, et al. Private set operations from multi-query reverse private membership test[C]//IACR International Conference on Public-Key Cryptography. Springer, 2024: 387-416.

💡 关于我们
阿里妈妈SDS(Strategic Data Solutions)团队 致力于用数据让商家和平台的增长战略更加科学有效。我们为阿里妈妈全线广告客户提供营销洞察、营销策略、价值量化、效果归因、隐私计算的技术服务。我们将持续在营销场景下的数据隐私安全和解决方案方向进行探索和落地,欢迎各业务方关注与合作。
📮联系邮箱:alimama_tech@service.alibaba.com
也许你还想看
隐私增强技术(PETs)综述 | 一文了解隐私计算技术发展脉络
广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH
AI生成存储基座:自研超大规模向量数据库 Dolphin VectorDB
关注「阿里妈妈技术」,了解更多~
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢