财新传媒 财新传媒

阅读:0
听报道

前几日与隐私上下游机构同事交流,发现普遍持有两种观点。时间所限没有深入辩论,在此展示出来一同探究其真实原理和答案。

观点一:线下、事前的模型训练阶段,没有必要应用隐私计算。具体理由是:在训练风控模型时,由于提供的仅是占据存量客户很小一部分的客户样本,因此可以通过常规加密方式传输样本信息进行线下建模,待模型建成部署后,再纳入隐私计算产品中运行。

观点二:模型或数据筛选策略一经训练完成后,可以部署在数据源侧,后续的查询或模型结果反馈均是标签化结果,不属于个人信息,因此没必要走隐私计算。

上述观点涉及到两个核心问题:一是是否进行了客户告知与单独授权,二是相比较传统加密方法,是否必要使用隐私计算产品。

客户告知的单独授权问题

个保法第二十三条规定“个人信息处理者向其他个人信息处理者提供其处理的个人信息的,应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意。接收方应当在上述处理目的、处理方式和个人信息的种类等范围内处理个人信息。接收方变更原先的处理目的、处理方式的,应当依照本法规定重新取得个人同意。”

无论是模型训练阶段,还是模型生效后运行阶段,都涉及到个人信息的对外交互,因此均需告知对方处理者的名称、联系方式、处理目的、方式、范围等一众信息。但是模型训练阶段不同于运行阶段,应额外注意以下操作:由于模型训练阶段是事先和静默的,临时取得客户单独同意难度较大,因此在选取样本时,要从事先已经取得授权(并明确告知对方处理者相关信息)的个人信息中进行挑选。这为金融机构风控模型样本选择工作提出了更高要求。

 

使用隐私计算的必要性问题

解决完单独授权问题,我们重点讨论“为何有必要使用隐私计算进行模型训练和生产运行”。

法律的相关要求

我国的隐私计算,是为解决个保法等法律对于隐私保护的要求应运而生的。讨论隐私计算的必要性和现实意义,首先要从相关法律中寻找依据。

网络安全法第四十二条规定:“网络运营者应当采取技术措施和其他必要措施,确保其收集的个人信息安全,防止信息泄露、毁损、丢失。"

数据安全法第二十七条规定:”开展数据处理活动应当依照法律、法规的规定,建立健全全流程数据安全管理制度,组织开展数据安全教育培训,采取相应的技术措施和其他必要措施,保障数据安全。”

个人信息保护法第五十一条规定:“个人信息处理者应当根据个人信息的处理目的、处理方式、个人信息的种类以及对个人权益的影响、可能存在的安全风险等,采取下列措施确保个人信息处理活动符合法律、行政法规的规定,并防止未经授权的访问以及个人信息泄露、篡改、丢失:……(三)采取相应的加密、去标识化等安全技术措施;”

个人信息保护法第六十九条规定:“处理个人信息侵害个人信息权益造成损害,个人信息处理者不能证明自己没有过错的,应当承担损害赔偿等侵权责任。

隐私计算的作用

结合对上述法律条文的解读,信通院在《隐私计算法律与合规研究白皮书(2021)》中总结归纳了隐私计算的作用:

  1. 隐私计算可被理解为是一种加强数据安全的技 术措施,有助于保障数据处理过程中各方的数据安全,有利于优化数据应用安全环境和维护相关数据主体的权益
  2. 由于绝对的匿名化并不存在,而是在一定条件下(例如在可实现的算力、合理时间范围内等)的相对匿名化——当一种技术方案能够实现还原部分原始数据所需要的时间、算力等成本远远超出使用该部分数据可能获得的价值时,我们认为这种技术方案已经实现了事实上的相对“匿名化”。多方安全计算、 同态加密、零知识证明和差分隐私等技术能够实现输入数据和输出数 据的隐私保护,是实现相对匿名化的有效手段,因此,隐私计算有助于实现一定条件下的匿名化。
  3. 由于隐私计算有助于实现一定条件下的匿名化,因此有助于减轻授权同意的合规隐患。

“最小必要”的驱动

笔者认为,隐私计算之所以优于传统加密方式的深层原因是其更符合“最小必要”原则。

通过深入解读个保法等条文我们知道,“最小必要”原则不仅表现在数据采集阶段围绕产品和服务目的的最小、最克制收集个人信息,还表现在个人信息处理者在使用与数据交互环节方面,尽可能确保其收集的个人信息安全,防止信息泄露、毁损、丢失

隐私计算技术与传统加密技术的核心区别在于:隐私计算技术(如差分隐私、同态加密、私密共享等)可以打造基于数据价值流通的安全通道,并且避免原始数据的传输。无论何种隐私计算技术路径,其设计理念均围绕着:即使开放银行业务在需要第三方参与计算时,第三方也不会获取到与计算相关的原始数据,这便显著降低了第三方违规留存数据以及数据滥用的风险。因此,相比较传统加密方式,隐私计算更符合“最小必要”合规要求,有效防止了数据滥用

但数据使用环节的“最小必要”要求则较难达到,同时也往往因缺乏事中、事后的监督与审计机制而难以对数据的后续失控流转追责。根据个保法第六十九条规定,如果处理者能够证明自己没有过错,则可以免于承担损害赔偿。而我们知道,差分隐私等隐私计算体系在隐私安全保护的可证明、可度量、可审计方面具有得天独厚的优势,因此,从这一角度讲,差分隐私等隐私计算模型体系将有助于个人信息处理者讲清楚自身责任,甚至实现免责。为何这么讲,下面会涉及。

隐私计算与“去标志化”的深层关系

个保法多次提到了“去标识化”和“匿名化”。关于“匿名化”,个保法明确规定:是指个人信息经过处理无法识别特定自然人且不能复原的过程。

何为“去标识化”?

《信息安全技术 个人信息去标识化指南》(国家标准GB/T 37964-2019,以下简称“指南”)中有明确规定:通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。

去标识化技术是降低数据集中信息和主体关联程度的技术,包含两层含义:

  • 对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或结合其他信息识别出原始个人信息主体,也即断开和个人信息主体的关联,将个人其他信息和标识信息分离。
  • 控制重标识的风险,通过选择何时的模型和技术,将重标识的风险控制在可接受范围内,确保重标识风险不会随着新数据发布而增加,确保数据接收方之间的潜在串通不会增加重标识的风险。

两层含义分别对应不同的去标识化技术和去标识化模型。

去标识化技术是指:降低数据集中信息和个人信息主体关联程度的技术。具体包括:统计技术、密码技术、抑制技术、假名化技术、泛化技术、随机化技术、数据合成技术。密码技术则包括:确定性加密、保序加密、保留格式加密、同态加密、同态秘密共享

去标识化模型是指:应用去标识化技术并能计算重标识(把去标识化的数据集重新关联到原始个人信息主体或一组个人信息主体的过程)风险的方法。具体包括:k-匿名模型和差分隐私模型等。

我们知道,构成隐私计算的四大底层技术分别为:同态加密、秘密分享、混淆电路、差分隐私。根据指南的划分,混淆电路应该属于去标识化技术中的随机化技术,同态加密、秘密分享(指南中成为同态秘密共享)则属于去标识化技术中较为“高级”、复杂的密码技术,因为“同态加密在理论上是可证安全的,在不具备访问私钥权限时,无法实现重标识攻击”。从这一角度讲,同态加密是最为接近“匿名化”的操作之一

差分隐私则是重要的去标识化模型在隐私水平的可证明、可度量方面优势明显:不仅针对数据访问和噪声添加是可行的,还可实现标准的统计分析以及基于此定制出适用于不同目的的隐私系统。

除此以外,指南还明确指出公开共享范围对去标识化操作的影响:不同公开共享范围对去标识化的要求和重标识的风险是不同的,按照开放程度从大到小依次排序为:完全公开共享、受控公开共享和领域公开共享,对信息公开共享范围越小,对去标识化的要求越来越低,重标识的风险越小。

笔者理解,可行执行环境(TEE)属于领域公开共享层面的控制技术。可信执行环境将数据公开共享范围限制在物理或虚拟的领地范围内,非可信第三人很难突破进入到该物理或虚拟范围内实施重标识动作,故而确保了个人信息安全。

指南告诉我们,去标识化是一个复杂过程,要根据去标识化目标制定适当的策略,选择适当的模型和技术,综合利用技术和管理两方面措施实现最佳效果。而我们知道,隐私计算概念包括多方安全计算、隐私增强联邦学习和可信执行环境,其操作原理是:综合运用同态加密等技术,实现“最小化”使用数据的前提下数据价值的最大化。因此,相比较当前简单加密的传统传输方式,隐私计算更符合个保法中“去标识化”的要求

有更符合国家标准和法律要求的去标识化手段在前,如果还使用简单、传统的加密方式,如何满足网安法和数安法“采取相应的技术措施和其他必要措施,保障数据安全”的要求?如何符合个保法中“采取相应的加密、去标识化等安全技术措施”的应尽义务?更无法解释、套用“证明没有过错,免于承担损害赔偿”的豁免责任。

 

———————————————————

笔者个人公众号:高声谈,Inter-FinanceCow

邮箱:gaoshengtan2021@yeah.net

欢迎读者多交流!

 

话题:



0

推荐

高声谈

高声谈

75篇文章 3分钟前更新

保险信贷人,现任职国有保险公司,长期关注信保业务和金融科技。

文章