日前,由中国通信标准化协会指导,中国信息通信研究院,隐私计算联盟主办的2022隐私计算大会在北京召开。
会上,中国信通院云计算与大数据研究所所长何洪堡发布2022隐私计算产业发展十大观察。
观点:数据产权分离,隐私计算面临发展机遇。
作为平衡数据流通和安全的重要工具,最近几年来工信部,人民银行,发改委,中央网信办等部门的政策文件都提到要推进隐私计算相关技术的研究部署和应用,使得技术的关注度越来越高最近几天,中央全面深化改革委员会第二十六次会议审议通过了《关于建设数据基础体系更好发挥数据要素作用的意见》,建立数据资源持有权,数据处理权和数据产品经营权的产权运行机制,建立合规高效的数据要素流通交易体系等措施,为实现原始数据不出域,数据可用于隐形隐私计算提供了更加明确的指引
观点:技术体系拓展,隐私计算概念外延深化。
早在2016年,李风华教授等人就提出隐私计算是针对隐私信息全生命周期保护的计算理论和方法后来我们在数据流通场景中扩展了它的概念,将隐私计算的概念定义为,保证数据在流通和整合过程中不泄露原始数据隐形一系列技术,以多方安全计算,联邦学习和可信执行环境三种方法为代表如今,伴随着人们对隐私保护的日益重视,隐私计算也被称为隐私增强计算和隐私保护计算,其范围也在逐渐扩大例如,美国今年颁布的法案中定义的任何软件和硬件技术,以减轻数据处理带来的个人隐私风险因此,我们认为广义的隐私计算是覆盖隐私信息全生命周期的所有计算操作,包括任何在隐私保护前提下实现数据安全流通和共享的技术除了传统的多方安全计算,联邦学习和可信执行环境三种方法外,还包括数据限制释放,数据失真技术以及一些辅助技术未来伴随着技术的发展,还会包含一些新的技术内容,技术的外延会进一步扩大
观点:技术路线整合,优势互补,突破应用瓶颈。
隐私计算的三种主流路线各有其独特的优缺点,阻碍了隐私计算的应用。
A.基于多方安全计算的隐私计算具有很高的安全性,并且是可证明安全的。但由于协议本身需要大量的额外通信和计算,其计算效率较差,安全性假设较高的方案难以在真实场景中使用,
B.基于联邦学习的隐私计算对多方联合机器学习有很好的适应性,与MPC相比,可以在更合理的性能范围内完成联合机器学习任务可是,联邦学习的安全性参差不齐,难以设定安全基准和评估安全性,加重了用户对联邦学习的安全困扰
C.基于可信执行环境的隐私计算将密码技术与可信硬件相结合,可以通过可信认证,一致性验证,密文传输,计算隔离等一系列手段保护数据隐私,而不会有过多的性能损失可是,基于TEE的方法通常需要集中数据处理如果攻击者通过旁路攻击等手段破坏可信硬件的安全性,就可能导致明文数据的泄露
根据对市场上各个厂商和产品的调查,我们发现隐私计算的技术融合已经成为一个大趋势在某些场景下,技术融合往往可以产生1+1gt,2为解决隐私计算的各种技术瓶颈提供了新的思路
将MPC与FL相结合,实现更安全的联邦学习聚合算法,如通过秘密共享或同态加密在秘密环境下聚合模型参数。
将TEE与FL相结合,借助TEE的可靠性和隔离性,可以安全地采集模型参数,提高FL的安全性。
MPC与TEE相结合,将明文中的数据通过MPC转化为秘密后放入TEE中进行计算,防止因破坏TEE而泄露数据隐私借助TEE的隔离,保密,一致性等能力,将跨网络的MPC计算节点安全地放置在同一网络中,解决了MPC普遍存在的通信瓶颈问题,提高了性能
观点:兼顾安全性能,安全分类灵活适应场景。
一般来说,私有计算的安全性和性能是相互制约的当安全假设较弱时,其表现一般较强,反之,当安全假设强时,其表现一般较弱高安全性假设的方案将大大增加额外的通信和计算负担,导致不切实际的性能
根据中国信息通信技术研究院的可信隐私计算对于一些相关论文的特殊性能评估和分析,我们在图中用例子列出了三种安全假设下的平均性能当参与者半诚实且不存在合谋风险时,联合机器学习任务的计算时间可以达到明文的50—200倍在满足半诚实模型假设,恶意模型部分满足,存在少数不诚实方的前提下,计算时间提高到明文计算的100倍以上在最严格不诚实和最恶意模型的假设下,计算时间增加到了明文计算的近1000倍因此,在实际的业务场景中,很多情况下不需要考虑恶意参与者或共谋攻击等问题,盲目选择高安全性方案是不可取的应根据实际需要选择合适的安全级别,实现安全与性能的动态平衡,避免唯安全论/唯性能论
观点:支持产品落地,技术可用性会有一定提升。
隐私计算从去年的场景验证阶段进入今年的场景应用阶段除了安全性,隐私计算的可用性也引起了各方的高度关注这是可用性场景升级的主要起点可用性主要包括计算性能,系统稳定性,产品可用性和场景支持能力
性能方面,通过算法优化,并行计算或者加速卡,一体机来加快运算效率目前性能已经可以支持亿级数据的计算,高并发XGB算法的建模效率相比之前至少可以提升50%,另外,市面上很多厂商都推出了一体机产品,运算效率可以提升几十到几百
稳定性方面,主动待机,主动备用,自动容灾的能力在产品应用中也很明显例如,MPC产品稳定性案例在该批次测试中的通过率从去年的10%提高到了40%
在易用性和场景支持能力方面,通过拖拽,驾驶舱等交互界面的可视化,降低了用户的学习成本我们还观察到,超过90%的产品具备可视化操作,容器化部署等可用性能力与此同时,今年以来,金融,政务,医疗场景的案例明显改善对实时金融业务场景和海量数据高并发场景的支持能力也有了显著提升
观点:软硬件协同,一体机成为新的产品形态。
目前,利用硬件特性增强软件解决方案,提高私有计算的性能和安全性是主流方法一,多合一隐私计算一体机作为软硬件结合的特殊设备,具有安全性增强,性能加速,易用性增强三大优势,使得多合一隐私计算一体机在众多工程优化方案中脱颖而出,降低了用户的技术门槛和综合成本第二,基于硬件的实现并不独特,各种产品百花齐放可以基于可信硬件或硬件密码模块,也可以使用计算加速卡同时可以预装应用服务场景组件组合方案多样化,多硬件多角度的组合成为软硬结合的发展趋势据不完全统计,可以看出加速卡比较容易实现,所以在目前软硬结合的方案中占了很大的比重三合一机等软硬解决方案在金融,政务,医疗等场景不断涌现,并且因为产品形态多样,标准化需求迫切,国内外很多标准已经率先规范了技术研发和应用最后,能够突破应用瓶颈,扩大应用规模的不仅仅是一体机隐私计算机各种软硬件结合的落地方案仍需进一步探索,加快场景落地
观点七:应用落地加速,内外双向赋能数据流通
行业应用方面,根据2019—2022年政府公开招标项目,我们发现隐私计算在金融,通信,政务,医疗等行业的应用非常多在排序后的招标项目中,来自金融行业的项目占比最高,达到55%,主要包括银行,证券,保险,金融科技公司等其他通信行业占17%,主要是运营商,政务类占13%,主要来自政府机关,政府部门,事业单位等医疗行业占8%,主要来自医院和科研机构不同行业建设部署的目的不同我们用内部赋权,外部赋权,双向赋权这三个概念来做区分内部赋能是指招标人通过私有计算平台引入外部数据或能力,以提高内部业务效果,通常称为买数据,外部赋能是指招标方通过私有计算平台向外界输出数据或能力,通常称为卖数据,而双向赋能是同时进行的我们发现不同行业的赋能方向差异很大比如金融行业55%的项目都是以内部赋能为目的,主要是提高自身对于联合通信,互联网等金融机构的数据资源的风控和营销水平反过来,互联网,通信,医疗,能源行业的外部赋能占比都在50%以上,通过数据运营和数据服务输出自己的数据价值政务双向赋能占比较高一是通过政务数据内部共享,实现政务数据整合和协同共享,第二,对外开放政府数据,通过数据运营赋能外界,比如打通银行,政府,企业的信息孤岛推进普惠金融,通过通信数据提升反欺诈效果
观点:各方都在积极探索,迫切需要在合规路径上形成共识。
在合规性方面,我们认为,隐私计算的合规性在近两年已经有了积极的探索,但路径上的共识还需要进一步形成在中国目前的法律框架下,匿名和授权同意是数据处理的两个最重要的合规路径隐私计算合规性的关键争议在于隐私计算技术的数据处理效果能否满足法律不可恢复和不可识别的的匿名化要求
一方面,如果认为隐私计算完全符合匿名化要求,则不需要授权,而是现有法律中的匿名认为大部分应用场景下无法满足要求,监管层面也没有具体规则可以解释这样的观点很难接受
另一方面,如果我们认为隐私计算只能满足去身份化的要求,而达不到匿名的标准,那么数据处理的对象仍然是个人数据,仍然需要数据处理全过程的授权,这必然会降低隐私计算技术应用的吸引力。
因此,为了兼顾合规要求和应用效率,业界开始探索隐私计算的创新合规路径,即隐私计算可以在一定程度上满足匿名化要求,但对于不同场景下的关键问题,仍然需要获得授权和同意因此,需要拆解隐私计算的所有技术环节,明确需要注意的风险点和合规最佳实践,建立技术匿名规则同时,应尝试探索各种场景下侵害个人信息主体权益的环节和事项,并详细告知这些事项,以寻求权益保护与技术发展的平衡当然,这种做法的思路还处于初级阶段,还需要技术和法律同仁的共同努力,为隐私计算等技术的合规发展提供更清晰的指引
观点9:刺激技术创新,隐私计算积极拥抱开源。
说说开源作为数据流通基础设施的隐私计算也是如此除了开源的一般优势,因为整个数据过程的安全性非常重要,开放代码会让安全性更容易验证,开源社区内部的交流和反馈也将刺激技术创新,创造多种技术解决方案,满足不同场景的需求此外,目前大部分企业对隐私计算的技术解决方案不尽相同,导致相互之间难以沟通用户通常需要部署多种产品,隐私计算的开源会让用户更容易达成共识,也有利于隐私计算的互联互通
目前隐私计算的开源项目大致可以分为协议框架开源和产品开源协议框架的开源项目大多是针对某项技术的,比如MPC中的mp—spdz和OpenCheetah,侧重于安全性和性能的提升另外,还有产品平台的开源,更容易形成生态一般来说,优秀的底层开源协议可以嵌入平台并得到广泛应用,而私有计算产品的开源项目大多还处于起步阶段,只有开放代码,社区建设不完整
近三年来,越来越多的企业加入了隐私计算的开源团队,包括企业的底层技术协议和平台项目其主要特点包括易用,流程便捷,部署容易,用户可以快速上手可扩展性是指产品架构可以分为底层算法协议,运营商层和应用层等每层都可以独立开发,支持模块化,完整性意味着它可以支持多种功能,包括联合统计,隐私集交集,建模等每个函数也有满足不同性能和安全要求的算法,最后,兼容性可以为未来的互联互通做准备,架构设计可以兼容其他框架我们对未来隐私计算的开源技术和商业模式充满信心
观点10:共识持续加强,互联互通加速实践。
最后,互联的观察伴随着私有计算应用的逐渐普及,互联需求的共识进一步加强我们应该认识到,互联互通不仅是降低私有计算部署和应用成本的现实需求,而且可以促进技术产品接口和服务的标准化,为构建数据流通基础设施奠定坚实基础
一年多前,实践主要围绕互联互通的概念,内涵和标准框架展开从标准体系层面,中国信息通信研究院牵头的隐私计算联盟,大数据技术标准推进委员会,国家信息安全标准化技术委员会,北京金融科技产业联盟,IEEE等标准化组织和研究机构,都在推动相关技术标准的讨论和编制,去年7月出版的《隐私计算跨平台互联第1部分:总体框架》也得到了很多专家的认可
但是,我们也认识到,仅靠标准的,原则性的框架要求,很难指导实践的实施具体如何实现互联互通,每个技术提供者和应用需求者观望多于行动大家呼吁要有标杆性的,有影响力的,可复制的,可验证的实践案例作为参考今年年初宣布的招行与四家技术厂商的互联互通,在具体应用层面有了新的进展但是和很多之前公开的案例一样,可验证性,落地性,可复制性仍然不足因此,更多成熟的,具有示范性的案例将是推动互联互通实施的关键
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。