财新传媒
位置:博客 > 高声谈 > 明文数据盛宴结束,隐私计算春天到来

明文数据盛宴结束,隐私计算春天到来

11月1日,《个人信息保护法》已正式实施,而其对于社会各行业的影响还在持续发酵中,首当其冲是数据生命周期相关行业,不仅要对照个保法对既有做法进行调整与整改,更要承担起提供行业基础设施,引领全社会数据行业创新发展,提供解决方案的重任。其中有挑战,更孕育着大量机遇。在此过程中不可忽视的一个技术领域就是隐私计算。

 隐私计算是数据“可用不可见”的唯一解决方案

《个人信息保护法》对个人信息在收集、存储、使用、加工、传输、提供、公开、删除的生命周期各环节提出了原则要求,在解释个人信息概念时提到“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。

我们据此可以理解,匿名化处理后的信息不属于个人信息,不需遵守个保法的相关规定。这令我们想起了数据在传输和使用环节“可用不可见”的指导思想,同样体现了匿名化的原则。

如何实现数据传输的“可用不可见”和匿名化?隐私计算是当前唯一的解决方案

何为隐私计算?

隐私计算是“隐私保护计算”(Privacy-preserving computation)的简称,根据“大数据联合国全球工作组”的定义,这是一类技术方案,是“在处理和分析计算数据的过程中能保持数据不透明、不泄露、无法被计算方以及其他非授权方获取”的一系列技术方案的统称。根据中国信息通信研究院云计算与大数据研究所的定义,隐私计算是在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”。

大数据联合国全球工作组成立于 2014 年,由 31 个成员国和 16 个国际组织组成。早在 2018 年,工作组就致力于促进各国多个统计局相互进行敏感大数据协作,是最早研究隐私计算的国际组织之一。2019 年,该工作组出台了《联合国隐私保护计算技术手册》,以方便各国统计局以安全适当方式访问新的 (敏感)大数据源。

隐私计算的技术方案或技术路径有很多:差分隐私、同态加密、多方安全计算、零知识证明、可执行环境、联邦学习等,Gartner公司将上述技术路径重新归纳为三类:

1.提供可信的环境来执行处理或分析;

2.在处理或分析之前转换数据和/或算法;——数据加密再处置;

3.在不公开数据的情况下执行数据本地处理或分析;——数据不动模型动;

这便是可信执行环境、安全多方计算和联邦学习三大技术路径的由来。

隐私计算的作用?

隐私计算市场将在承接原有三方大数据市场基础上,进一步激活全社会数据要素,实现“点到点”的“数据可用不可见”。因此,隐私计算承担起《个人信息保护法》要求下数据传输环节的基础设施或基础工具的职能角色,具有巨大发展前景。

当前,我国的个人信息数据主要掌握在行业垄断型企业、头部互联网平台、政府部委和各级政府委办局、数据代理商手中,个人并不实际掌握自己数据的使用权。由于无法控制上述机构创建和使用个人自有数据,个人的数据所有权也很难主张。某些非国有机构,将其收集的数据看作企业自身资产加以运营,使用方式肆无忌惮,未考虑个人隐私保护,出现了大量市场乱象。

《个人信息保护法》出台后,上述乱象方才有所收敛。但由于个人数据的使用主动权尚掌握在B端企业手中,导致数据利用主观动因存在“不愿”、“不敢”、“不便”的痛点与难点。

  •  不愿

数据明文传输方式下,数据源头企业担心丢失数据所有权,这对于不具备持续生产源数据能力的企业表现尤其明显。客户对一家企业的产品或服务的粘性越差,企业对于持续获取流量或数据的信心越发不足,越发担心流量或数据被它人清洗所用

除此以外,由于数据复制成本极低,一旦分享出去就容易失去了对数据的控制权,因此数据明文获取削弱了源头厂商的数据稀缺性和分享动力,导致出现数据价值递减风险。类似情况常发生在业务类型相近的同体量企业之间,例如头部的互联网企业之间数据交互非常少见。

  • 不敢

往往因互信不足导致,这类情况最为常见。合作双方或因合作目的不单纯,或不清楚对方数据来源及使用的合规程度,或是不想暴露自身客群画像等原因,缺乏合作诚意导致合作失败。再有大量企业因为担心数据安全事件或信息泄露而不敢交互数据。类似的情形常见于数据需求方(如银行)与三方数据公司、消费贷联合贷款合作双方、数据源头公司(如国资背景平台)与数据代理公司等。

  • 不便

在涉及高度涉密数据或敏感个人信息隐私数据时,企业往往拿不准数据输出尺度。更常见的是一些国有企业、事业单位手握大量数据,但因缺少专业认知、能力及相应激励,缺乏数据交流的主动性。如医疗研究机构很难从医院等医疗数据拥有方获取病患数据,再如基于个人客户地理位置的数据应用与交互等。

产生上述问题的根本原因是数据的明文传输,由于合作双方可通过明文数据推演出对方数据资产状态,获得客户触达方式和敏感隐私数据甚至攫取对方流量资产,由此引发的敌意、不信任、不放心会极大影响数据交互双方合作意愿,进而影响了数据要素的流通与价值的盘活。

如何解决数据信任问题

解决数据信任度问题其实有两个思路:一是寻找信任中介,二是用科技手段实现加密和保密

第一个思路与银行等信用中介的产生机理相同,既然数据交互双方相互不信任,那就找一个双方都信任的第三方代为处理数据,并将数据交互结果以不透露个人及合作双方隐私的方式返回征信牌照、大数据交易所就是这个思路

统一信任中介的实现方式需要大量的顶层设计以及制度和强制力的保障,但即便如此还是存在诸多缺陷。例如,如何解决数据提供方的激励问题,以更大程度激活散落各地的“数据孤岛”;再有,中心化一定意味着数据的标准化、统一化处理,由于每个行业或领域的数据结构的特殊性,需要建立多个行业或领域的数据统一标准,复制性差,现实可行性不高;其次,中心化的数据处理方式难以满足个性化业务需求,且交互效率往往较低,升级迭代和数据维护成本过高。

第二个思路可以统称为隐私计算,是利用技术手段实现数据不透明、不泄露和不可反推复原,可实现“点对点”的数据交互

针对匿名化问题,隐私计算由于可以控制原始数据不出本地,只输出切片、标签化、脱敏后的梯度和参数等信息,从而成为满足匿名化“不可识别、不可复原”。这个前提下,也自然满足“最小必要原则”,同时以匿名化为基础的联合建模也会大幅减轻参与双方获得用户重复授权带来的负担。

隐私计算原始数据不出域、只传递梯度等数据的特指也有助于满足《数据安全法》和《网络安全法》等要求的安全保护义务,也有助于控制数据泄露的风险,进而减轻数据主体的顾虑,充分挖掘数据的流通价值。

与中心化信任中介相比,隐私计算适配性高,通用性强,使用方式只因数据类型及交互目的的不同而不同,不受行业或场景限制(数据交互的目的可以抽象归纳为求交集、特征工程、联合统计分析、匿名查询、联合建模等少数几种)。“点对点”对接降低了数据互联互通成本,整体上有利于数据供给侧汇集的丰富度和覆盖度;同时,“点对点”的交互方式效率更高、支持个性化需求,如辅以较好的激励机制,更容易挖掘、盘活“碎片”数据资产,进一步激发、激活数据数据市场活力。

隐私计算与行业或区域数据信任中介的发展思路并不冲突,在明码交易导致数据泄露后果愈发严重的当下,数据信任中介也需要运用隐私计算技术解决自身安全问题。由于数据信任中介(如征信牌照或大数据交易所)只是数据的行业或地域集中,不同行业、地域之间同样存在不信任、不愿的负面因素,甚至信任中介主体股东背景、做法等多种因素会导致其客观中立身份存疑,也会影响数据供给方的接入意愿。

春天有多美?

从隐私计算应用领域看,目前主要应用在金融行业,并少量辐射地方政务数据和医疗行业。个人判断,未来1-2年,隐私计算将全面承接原有的三方大数据市场,成为该领域的基础设施。其中涉及金融行业中征信应用的部分,受《征信业务管理办法》影响,持牌机构将占领市场主导。对于非征信的数据应用,如客户识别、数据营销、精准运营、辅助催收等领域,基于隐私计算的“点对点”数据交互方案将具有较大市场空间。

至于市场空间,在腾讯银行和毕马威联合发布的《隐私计算行业研究报告》中预测,我国隐私计算系统的销售和服务收入规模在三年之内有望触达100-200亿元的市场空间。我们采用另外一个逻辑推算。仅以数字风控广泛应用的线上消费贷和信用卡贷款市场为例,2020年我国银行业信用卡放贷总额约为19万亿元,银行业个人消费贷款全年放款总额约6.5亿元(含互联网平台助贷和联合贷),合计25.5万亿元。按照数据及附加费用在放款额中占比千分之五的保守比例推算,隐私计算和数据费用加总收入可实现125亿元收入。我们假设隐私计算在其中收入分成为10%,仅个人线上消费信贷和信用卡两个领域,未来1-2年就会为隐私计算带来数十亿元的市场空间。

本人则对隐私计算的长远发展潜力更为看好,伴随数据这一生产要素在我国经济社会资源匹配中的作用的进一步发挥,作为基础设施和必选工具的隐私计算技术将深入渗透至政务、医疗医药、线上服务营销、辅助催收等行业,将会广泛应用于各行各业的线上数据交互环节。未来十年极有可能发展成为千亿级规模市场。

与此同时我们注意到,隐私计算技术很难形成一个独立市场,其一定是与数据源市场强绑定,还可能与区块链技术、边缘计算技术充分融合,发展形成一整套数据交互产品体系。至于未来发展路径及可能展现的合作形式,我们在下一篇文章《一段话读懂隐私计算》中进行讨论,欢迎大家关注。

———————————————————————— 

笔者个人公众号:高声谈,Inter-FinanceCow

邮箱:gaoshengtan2021@yeah.net

欢迎读者多交流!

 



推荐 1