数据去标识化及脱敏的主要技术方案是什么?

数据去标识化及脱敏的主要技术方案是什么?

最佳答案 匿名用户编辑于2022/11/23 09:23

以下是对数据去标识化及脱敏的主要技术方案的介绍。

1.总体介绍

脱敏技术一般常用于敏感数据的处理,将某些敏感信息通过 脱敏规则进行数据的变形,从而降低数据敏感度,减少敏感数据 被精确识别的风险,从而实现敏感数据的保护。数据脱敏在保留 一定的数据可用性、统计性等基础上,通过失真等变换降低数据敏感度,脱敏数据需要进行传输通信,而在传输过程中或者之后, 攻击者或数据获取方仍可通过特定的技术手段对脱敏后的数据 进行推理,进而获取部分乃至全部原始信息。

去标识化属于脱敏技术中的一种,一般是针对个人信息的脱 敏处理。通过去标识化计算,使其在不接触额外信息的情况下, 达到无法识别个人信息主体的效果。

两种技术所针对的数据范畴虽然不同,但是在实现时所采用 的技术方案基本是一致的,计算性能高,适用于大数据量处理, 但其可追溯性差,数据脱敏后的去向和使用难以从技术上有效控 制,只能作为隐私计算应用过程的辅助手段用来隐藏数据信息。

2.主要技术方案

主要的技术方案包括以下几大类:密码技术、假名技术、抑 制技术、泛化技术、随机化技术、统计技术、数据合成技术。

(1)密码技术。通过密码学的加密算法将数据进行加密, 以完成变形脱敏。采用密码技术脱敏后的数据是可以还原的。当 需要还原的时候,用相同的算法并输入密钥,即可完成还原。常 用于脱敏的加密算法可以分为确定性加密和随机性加密两类。确 定性加密的特点是相同的明文使用相同的密钥加密后都对应到 相同的密文,如常用的对称加密算法和非对称加密算法,又如对 密文格式有特殊要求的保序加密和保留格式加密;而随机性加密 的特点是,相同的明文会每次加密后都产生不同的密文,例如同态加密。

(2)假名技术。直接使用假名进行替换来完成脱敏。假名 化技术一般采用某种计算规则由原始数据参与计算后生成假名 数据,或直接随机生成假名数据。利用假名技术脱敏后的数据无 法直接进行还原,但是可以通过建立原始数据-假名数据的映射 表来实现假名数据的还原。如果遇到需要将多份假名化处理后的 数据进行关联的情况,则这几份数据需要采用相同的计算规则进 行假名化,或通过同一张映射表进行假名化,否则就会出现数据 无法打通的情况。假名技术最常用的计算规则就是各类散列算 法。但是,由于原始数据空间的可举性,攻击者可通过彩虹表的 攻击形式对假名化的结果进行反向还原。为应对这种攻击,可在 计算散列值时加入 salt,以提高破解难度。

(3)抑制技术。对需要脱敏的数据项进行删除或进行屏蔽。 抑制技术适合用于具有可识别性特征的属性字段的脱敏处理。这 类字段虽然不具有唯一可识别性,但是结合其他信息就能够具体 识别到某一特定的信息主体。抑制技术可以采取全部抑制,即删 除(清空)处理,也可以采用部分抑制技术,对字段中的部分信 息进行屏蔽或遮掩。采用抑制技术脱敏后的数据是无法还原的。

(4)泛化技术。通过降低数据集中所选属性粒度来实现脱 敏。泛化技术的目标是减少属性的唯一值,尽可能的消除原始数 据的唯一性,使原始数据中的多个数值都对应到泛化后的同一个 值上。常用的泛化技术有分层、取整等,采用泛化技术脱敏后的数据是无法还原的。

(5)随机化技术。通过随机化修改属性的数值以达到脱敏 效果。对于随机化后的数据集里的单条数据,其属性特征已发生 了改变,因此很难结合其他数据属性推断出特定的信息主体。常 用的随机化技术包括噪声添加、置换等。置换技术在不改变数值 的前提下,将数据集里所选属性的值进行重新排列,保持了数据 集的统计特性。在进行噪声添加时往往也会尽量保证数据集的统 计特性。采用随机化技术脱敏后的数据是无法还原的。

(6)统计技术。利用统计学的方法,将属性数据进行处理 来实现脱敏,同时又能够保留该数据集的统计学特性。常用的统 计技术有数据抽样和数据聚合。数据抽样是在数据集中选择具有 代表性的子集来对原始数据集进行分析和评估。数据聚合则是利 用统计值替代属性的具体数值,这样就无法反映出单条数据记录 的特征,但数据集整体的统计特性没有发生改变。采用统计技术 脱敏后的数据是无法还原的。

(7)数据合成技术。以人工的方式生成数据,使其符合该 属性的取值范围。数据合成的技术常用于测试数据的生成。往往 测试环境中需要一些数据进行系统测试和验证,而真实数据用于 测试环境可能会造成敏感数据泄漏。在此种场景下数据合成技术 可帮助解决此问题。

 

参考报告

金融科技-隐私计算技术金融应用研究报告.pdf

金融科技-隐私计算技术金融应用研究报告。2021年12月,中国人民银行发布《金融科技发展规划(2022—2025年)》(银发〔2021〕335号文印发)明确提出从强化数据能力建设、推动数据有序共享、深化数据综合应用、做好数据安全保护方面充分释放数据要素潜能,并陆续出台了金融数据安全相关标准。金融数据安全与共享应用的重视程度与日俱增。

查看详情
相关报告
我来回答