隐私计算跨平台互联互通研究与实践

姚明 何浩 李博 | 洞见科技

傅杰 葛明嵩 焦惠芸 | 招商银行

当前,数据对全球经济和社会发展的影响已发生由“量” 到“质”的演进。2020 年《关于构建更加完善的要素市场化配置体制机制的意见》正式发布,数据成为继土地、劳动力、资本、技术之后的第五大生产要素。但随着数据安全事件的频发,也亟须为基于数据的新兴产业构建良性有序的发展模式。2018年欧盟出台《一般数据保护条例》,剑指个人数据安全隐私保护新挑战;我国出台的《网络安全法》《数据安全法》和《个人信息保护法》,构成了数据安全与隐私保护的“三驾马车”;让大数据应用从无序的“野蛮生长”时代,进入了合法合规应用的有序时代。目前,以安全多方计算、联邦学习和可信执行环境为主要技术路径的隐私计算技术,成为既保护数据隐私安全,又能合法合规促进数据流通的最佳技术解决方案。
隐私计算行业迅速兴起,不仅出现大量专精型隐私计算创业公司,一些互联网企业、区块链公司等,也纷纷入局隐私计算业务。隐私计算从2020年的概念确立元年,迅速进入2021年的商业化应用年。现在已有诸多数据提供机构、数据应用机构部署了不同企业的开源或闭源隐私计算平台产品。
然而,各家隐私计算厂商的隐私计算平台基于不同的技术架构和算法协议,难以实现跨平台互联互通。在应用过程中这些闭源异构平台之间难以协同的问题开始凸显,已接入的数据源只能在特定项目、特定平台下使用,使隐私计算连接的“数据孤岛”又转变成“计算孤岛”。例如,某数据应用方部署A隐私计算平台,某数据提供方部署B隐私计算平台,若要实现跨平台协同,数据应用方还要部署B平台,造成系统重复建设和运维成本增加。
隐私计算平台间难以互联互通,成为数据要素流通和数据价值释放的阻碍,但也加速了隐私计算行业朝向平台互联、生态互通的2.0时代跃进。跨平台互联互通逐步成为行业新共识,也巩固了隐私计算发展的标准性和安全性,有助于从局部数据智能走向全局数据智能。本文将对隐私计算跨平台互联互通的多种实现方式进行梳理研究,以及解析互联互通在金融业的落地实践案例。
图片

表 1 相关政策文件陆续落地

隐私计算行业 2.0——互联互通
 
国际知名咨询机构 Gartner 在《2021年主要战略技术趋势》报告中,认为“隐私增强计算”是未来科技发展的九大趋势之一,同时该机构认为,全球由隐私保护产生的数据保护与数据合规技术的花费,到2024年会突破150亿美元,即达到千亿人民币的市场量级;毕马威也作出预测,中国隐私计算技术服务营收将在2024年后最高触达200亿人民币。
隐私计算未来具有广阔的发展空间。据中国信息通信研究院测算,截至2021年6月,我国数据总量达9ZB,通过隐私计算技术进行流通的数据为2PB,可见数据安全流通量不足数据总量的1/10。此外,近年来围绕隐私计算领域的政策颁布,也为我国深耕该领域奠定了良好基础。庞大的隐私计算市场意味着丰富的市场机遇,2016年我国开始出现隐私计算商业项目,到 2020年隐私计算迎来爆发式发展,技术理论照进现实,2021年隐私计算进入商业化元年,大量隐私计算产品进入部署阶段,成为数据智能流通的基础设施。
当前,隐私计算主要分为三大技术流派。一是可信执行环境,核心思想是通过可信的、抗篡改的软硬件系统构建一个特殊计算环境,数据在该环境中由可信的程序进行处理,主要指通过CPU专属区域为数据和代码执行提供更安全的空间;二是安全多方计算,核心思想是用密码学协议对信息加密计算,指的是多方共同参与在无可信第三方的情况下,安全完成某种协同计算;三是联邦学习,核心思想是采用分布式交互计算架构实现联合机器学习,指的是多个参与方在原始数据不出私域的前提下,共同协作完成某项机器学习任务的机器学习模式。由于每种技术均有各自特性与原生局限,在实际业务场景应用中,融合计算引擎逐渐成为技术共识。
隐私计算行业1.0时代,是隐私计算平台广泛部署,成为数据流通底座的时代。然而因为技术应用差异,导致各大企业的隐私计算平台相互之间难以实现互联互通,部署在每个数据应用或数据需求机构的不同隐私计算平台,像是一座座无法互相通讯的“计算孤岛”。若要“计算孤岛”实现连接通讯,需耗费更多的重复建设成本,再次搭建同一家隐私计算企业的平台,才能进行数据协同计算和价值挖掘。
隐私计算平台间难以互联互通已成为行业前进阻碍,影响着数据全局智能流通网络的形成。因此,既要达成全局性数据智能,又要保持计算平台的异构自治,互联互通是“技术最优解”。隐私计算行业加速迈进平台互联、生态互通的 2.0 时代。

图片

隐私计算互联互通定义与实现方式
2.1 隐私计算平台互联互通的含义
“互联互通”是指让不同隐私计算平台通过统一规范的系统接口、算法协议、操作流程等,实现数据资源和计算能力的交互与协同。多方使用同一套互联互通标准,有助于监管部门统一管理,提升隐私计算发展的安全性和规范性,破除异构隐私计算平台间的数据智能流通壁垒。
2.2 互联互通基础原则上的三个实现层次
在中国信息通信研究院的牵头组织下,由洞见科技等多家隐私计算厂商参与编写的《隐私计算 跨平台互联互通 第1部分:总体框架》标准已经发布。其中提出的互联互通基础原则为:保证各隐私计算技术平台的独立性、完整性和安全性。下文将基于洞见科技在行业首次实现“算法协议层”互联互通的实践原理,从隐私计算平台系统架构由上至下的视角、技术产品化落地由易到难的次序,分析隐私计算平台互联互通的三个层次。
图片

图 2 隐私计算跨平台互联互通实现层次

应用层:管理系统互联互通
不同隐私计算平台在应用层完成系统的管理功能互通,其中包含证书认证、资源授权、服务监控、节点发现、资源管理等协议族,继而实现不同平台之间业务层的互联互通。而各平台基于各自的算法原理和系统设计实现,其原生无法完成信息的交互,因此需要先约定各方的通信规范,在此基础上定义报文格式、参数内容等,才能完成后续的消息内容交互、协作指令执行等流程。
算法层:算法协议互通
不同隐私计算平台会针对算法的基本信息、输入、输出进行规范定义。比如采用统一的通信协议、加密组件、资源定义、任务调度、模型格式、节点管理、授权管理,完成功能组件的标准化规范,使算法得以通过插件化的形式集成到合作参与方的隐私计算平台,实现同构化的算法插件之间的互联互通。
原语层:计算原语互通
异构隐私计算平台虽然采用不同的算法或协议实现方式,但是可将算法或协议进行最小粒度的计算原语分解。以安全多方计算采用的ABY3秘密分享协议为例,互通参与方需要参照该协议原理的流程定义,进行原始数据的密文化拆分,在密文基础上进行加密计算算子的实现。
所以该层次的核心目标,是将算法插件底层需要的各种基础组件独立封装为原语的实现,不同的平台在底层功能组件上实现互通,在上层以组件组合的方式来实现算法协议的协同执行,最终完成平台的互联互通。

图片

图 3 算法协议互联互通的实现方法

2.3 “算法协议互通”的主要实现方式分析
当前阶段,受到业界重视和应用的主要是“算法协议互通”。其实现过程包含:算法协议的流程设计(简称“流程”),算法协议的代码实现(简称“代码”)。由于流程与代码均源于不同厂商的实现,所以“算法协议互通”实现方式的差异性也源于对流程和代码的彼此开放程度。“算法协议互通”目前具有三种实现方式,本文将通过“软件测试方法”中白盒、灰盒与黑盒的模式理念进行类比分析。
白盒实现方式
流程和代码均向其他参与方公开。假设有平台A和平台B需共同完成联邦学习逻辑回归模型的训练,期间A方提供label和feature,而B方仅提供feature。两方选择一种公开的逻辑回归联邦算法或参考论文,根据该算法公开的交互流程分别在自身平台实现该算法,期间采用公开流程中已约定的加密算法、数据定义、压缩方式、本地算法逻辑实现、损失函数计算方式等,依照相同设计进行开发实现,形成了A平台与B平台上各自的算法插件。两个插件虽基于不同的平台完成开发,但基于联邦逻辑回归算法,参照了相同算法原理而实现,完成了互通、协同完成逻辑回归联邦算法训练,也即达成了算法协议互通。
由于算法原理公开,实现代码也得以公开,算法插件可以达到从原理到工程实现均为“白盒”的透明方式。其缺点在于互通过程需要逐个算法进行开发实现,且平台A和平台B均需开发实现,期间支持的算法越多,其开发工作量相应越大,并且是多方分别按照目标算法需求进行对应开发,即三方互通需要三方开发,四方互通需要四方开发。
黑盒实现方式
流程和代码均不向其他参与方公开。现实场景中,不同隐私计算厂商针对不同算法具有独特的设计或优化点,带有自主知识产权属性的关键内容,一般无法将该部分原理和工程实现的内容进行公开,所以需要“黑盒”实现方式。比如,由平台B完成逻辑回归插件的编写,插件内包含的内容有:算法流程的逻辑实现,算法插件之间通信模块的封装,支撑任务管理接口的服务封装实现等。此过程完成后,平台B将算法插件发送至平台A,即类似“绿色软件”的可独立运行的算法插件实现,令相同插件部署于不同的平台,继而协同完成逻辑回归算法的训练。
其优点是不需要公开算法流程,也不需每一方都进行算法插件开发,而是让开发完成的一方部署到对方平台上执行,接受算法协议互通中任务管理相关接口的调度和执行。
灰盒实现方式
流程向其他参与方公开,代码不向其他参与方公开。对比于黑盒实现方式,其公开了算法插件的实现原理,此举便于让参与方理解交互流程,并进行针对性的测试与认证,快速建立合作的信任关系;对比于白盒的实现方式,其算法插件仍保持非源码公开,可通过授权应用的方式对后续商业化利益进行保障。
图片

图 4 三种互联互通实现方案的类比图

跨平台互联互通具有广阔的进阶空间
隐私计算主流的技术方案涵盖多种具体算法,底层的数据加密、数据计算逻辑、数据交互流程各不相同,所以在协议的连接或混用上会出现互联互通挑战;另一方面,为让隐私计算协议应用于生产场景,技术厂商需开发对应的通信模块与加密组件,以及数据、任务、模型等众多功能组件,而组件之间的差异性,将导致互联互通有所障碍,甚至增加部署成本。
图片

图 5 互联互通主要实现方式优缺点

图片

跨平台互联互通实践案例分析
3.1 金融领域首个多方异构隐私计算平台互联互通
隐私计算平台应用过程中,产生了实际的平台互联互通需求。在隐私计算平台大规模落地的金融领域,银行既是数据提供方也是数据需求方,需要广泛对接运营商、征信机构、政务机构等数据源方,提升信贷风控、精准营销、银企融资对接等业务。但是银行、运营商、征信机构等部署的异构隐私计算平台,导致作为数据应用方的银行无法同时接入多个数据源,进行联合建模计算。因此,在破除隐私计算互联互通壁垒的道路上,金融机构走在了前列,推动隐私计算行业进入生态互联的 2.0 时代。
招商银行率先联合洞见科技等四家头部隐私计算厂商,进行互联互通实践,成为金融行业多方互联互通实践先行者。
3.2 多方异构隐私计算平台互联互通方案
基于对隐私计算互联互通理论和技术探索,招商银行联合洞见科技等四家隐私计算厂商采用了组合化实施方案,简称“可插拔式平台框架+算法插件架构”解决方案。
即插即用,互联互通
首先,互联互通各方分别搭建可插拔式平台支持算法组件,用以实现“即插即用”,且在平台层面要使用同一套协议规范来进行互联互通。各方的可插拔式平台间对算法设计不做定义,而对算法的基本信息、输入输出协议进行规范定义,使算法得以通过算法组件的形式在平台上使用,同时也定义不同平台间的认证互联、存证互联等协议。最后,平台间分别使用同一套数据输出协议,获得算法模块的标准计算结果。在此基础上,招商银行落地了算法层面互通的两种方式,以实现实际场景的灵活选择。
两种算法组件的互联互通实现模式
首先是算法组件白盒模式的实现。如图6所示,机构A和机构B使用了经典逻辑回归算法,该算法实现具有公开属性,双方可对该模型算法步骤、计算公式、传输内容、变量格式等部分进行最小粒度约定并形成统一算法协议,之后双方再遵循该协议各自开发算法组件,分别放至一方平台使用,实现算法的互联互通。
为便于使用各平台自研算法模块,进一步设计了黑盒模式。如图6,自研核心算法作为一个黑盒,该算法组件仅由所有方独立开发,因事先约定了各自可插拔式平台对算法组件的输入输出协议规范,因此所有方算法组件可直接部署至双方平台上使用,又由于各方的算法组件是同一家厂商开发,所以算法组件之间可实现互联互通。
图片

图 6 算法层面互通的两种方式

多方隐私计算平台互联互通意义
首先是简化了技术对接流程,当数据、模型、场景得以跨平台共享后,更便于共同构建隐私计算生态网络,并且可支持平台越多,越容易扩展生态网络;其二是缩减了沟通与技术对接成本,对于有指定隐私平台的数据合作方可在不要求其必须本地部署行内平台的前提下快速落地业务场景,极大简化了业务流程;最后,是进一步为数据安全治理提供补充思路,各家隐私计算平台应用机构使用同一套互联互通标准有助于监管部门统一管理,提升隐私计算发展的规范性和安全性。

图片

结束语
隐私计算技术为数据安全流通、数据价值安全释放、数据安全制度落地提供了技术基础,而基于“求同存异”原则的跨平台互联互通将成为新的趋势,最终在安全与发展之间找到新的平衡点,促进数据要素价值安全释放。
此外,可以预见未来隐私计算技术发展将是更为开放的生态,基于不同厂商的隐私计算平台对接的商业化数据来源、政务数据来源、企业数据来源,将逐步构建数据与智能的计算网络,并通过预测模型、决策分析、客户画像等上层应用工具,进一步加速隐私计算落地于金融、政务、医疗等各类应用场景,构建一个由数据提供方、数据应用方、技术服务和运营方共同组成的全局数据智能网络生态。

作者简介:

● 姚明(1980—),男,北京,硕士,深圳市洞见智慧科技有限公司创始人、董事长,研究方向为隐私计算、区块链、大 数据征信、智能风控等。 

● 何浩(1979—),男,北京,硕士,深圳市洞见智慧科技有限公司CTO,研究方向为隐私计算、区块链、大数据征信等。 

● 李博(1985—),男,北京,硕士,深圳市洞见智慧科技有限公司合伙人、副总裁,高级工程师,研究方向为隐私计算、 大数据、人工智能等。 

● 傅杰(1990—),男,浙江,硕士,招商银行股份有限公司算法工程师,研究方向为隐私计算、智能风控。 

● 葛明嵩(1994—),男,浙江,硕士,招商银行股份有限公司算法工程师,研究方向为隐私计算。 

● 焦惠芸(1994—),女,浙江,硕士,招商银行股份有限公司算法工程师,研究方向为隐私计算、智能风控。

内容中包含的图片若涉及版权问题,请及时与我们联系删除