下面我来简单介绍一下数字广告数据要素流通保障平台实践探索。
一、基于可信密态技术的广告数据流通平台
1.平台设计思路
(1)流通模型 基于可信密态技术的广告数据流通平台数据流通链路中的主要 角色分为数据提供方、数据使用方、数据经营方、平台管理方: 数据提供方/数据持有方,简称“数据方”,是为数据流通提 供数据的一方。 数据使用方,简称“使用方”,是使用数据的一方。 平台管理方,简称“平台方”,是运营数据流通平台的一方。 数据经营方,简称“经营方”,是代替数据方进行数据经营的 一方。 与之相对应,数据流通平台也设计了三种权限:数据资源持有权、 数据加工使用权和数据产品经营权。 数据资源持有权,简称“持有权”,数据在数据流通平台中的 最高权限,可以决定其他方如何使用该数据。 数据加工使用权,简称“使用权”,加工使用数据的权力,能 够使用的范围是持有方决定的。
数据产品经营权,简称“经营权”,可以代数据方向其他方授 予使用权,但自身不包含持有权和使用权。 平台管理方不拥有上述数据权限,只能运行维护平台。 图 6 展示了在上述角色和权限的设计下,可以实施的几种流通模 式。 常规模式下,数据方直接向使用方授权,获得授权后的使用 方向平台发起请求。 代理授权模式下,数据方向经营方授予经营权,经营方向使 用方授予使用权。 代理请求模式下,数据方向经营方授予使用权,使用方将请 求发给经营方,由经营方代为发起请求。 场外流通模式下,经营方在场外撮合数据方和使用方,之后 按照常规模式运行。

(2)安全模型 由于数据具有独特性、可复制性、高价值等特征,在实际的数据 流通过程中的各参与方都有窃取他人数据的动机,在系统设计中应按 照其他方存在窃取的动机去设计,以适应更多的情况,一定程度上规 避风险。 情况稍微特殊的是平台的管理方,平台的管理方可以选择信誉度 高的机构承担。但即便如此,也可能因为被系统入侵、少量员工作恶 等,导致平台的管理方做出恶意行为。为此,在系统设计时,我们假 设平台管理方也可能是恶意的,这样可以在上述突发情况下依旧保障 数据方数据的安全。 为了支持丰富的功能,数据流通平台中包含了多个数据生命周期, 这些生命周期及生命周期之间的衔接都必须进行充分的安全保障。也 就是说,即使平台管理方是恶意的,以下安全性质也能够得到保障:
数据存储:存储数据的机密性和完整性不会被破坏。 数据属主:数据和属主的对应关系不会被破坏。 标识:标识(ID)与“其背后实体、实体关联的资源”的对 应关系不会被破坏。 鉴权和规则验证:无法绕过鉴权和规则验证,发起计算、结 果分发。 计算:无法通过计算过程窥探数据。 结果分发:不会将结果分发给非预期方。 上述功能要能够无缝地衔接在一起:无法通过干扰功能切换 间隙,进行攻击。
(3)计算引擎选型 在数据广告数据流通实际业务场景中,数据流通如果采用频繁跨 越公网的一些密码协议(如 MPC 方案),则可能在性能(如延时性、 QPS 等)和成本上无法满足诉求,因此,数据流通平台着重选择 TEE、 TECC 等集中式的数据流通技术。TEE 在隔离环境中进行明文运算, 隔离环境会防止来自外部的攻击,明文运算使得 TEE 能够提供更高 的性能;TECC 在隔离环境中运行密文运算,由于其内在性质,能够 抵御常见的密码协议攻击、典型硬件漏洞隐患,密文运算使得 TECC 安全性更高。TEE 和 TECC 相互配合能为用户提供更强的安全性和 更多的性能选择。 (4)跨域管控落地实践 数据流通平台的目标是成为大型的数据流通中心,既要确保数据 持有方对数据拥有管控力,也要具备数据开发行为的多样性能,挖掘 数据要素潜在价值。为此数据流通平台实践了前述的跨域管控技术。 图 7 是数据流通平台原理示意图:数据流通平台具有大量 TEE 组成的集群,便于数据方能够对整个集群进行验证以及集群不同节点 之间相互验证,平台中包含了一种专门提供验证服务的 TEE,称为“验 证服务 TEE”。每个 TEE 在启动时,会向“验证服务 TEE”注册自己 的代码哈希值和公钥,“验证服务 TEE”使用远程认证机制验证过该 消息真实性后,接受该消息;之后,数据方、其他 TEE 节点就可以利 用“验证服务 TEE”获得其他 TEE 的准确信息,验证服务本身也在 TEE 之中以防止外部篡改其内部信息。

数据方提供的信息包括三部分:数据密文、数据所属关系和数据 使用授权。 数据密文一般采用数据方认可的 TEE 的公钥加密,确保只有 该 TEE 能够解密。图 7 中采用信封加密,即公钥加密数据密钥,数 据密钥再加密数据。 数据所属关系用于证实“数据是谁的”,以免攻击者篡改存 储在平台中的数据和其所有者之间的关系。实践中,可以使用数据 密钥对数据和所有者公钥签名,因为“知道数据密钥的人,一定是 拥有数据的人”,所以数据密钥的签名可以代表数据所有者。 数据使用授权,即使用数据方私钥对“谁可以使用数据进行 什么运算”进行签名。需要注意的是,数据所属关系正是证实为什 么该私钥的签名是有效力的基础。 请求方对其要使用的数据 ID、运算进行签名。 真正发生计算的 TEE,首先验证请求方的请求的签名是否正确,然后解密数据,验证数据与其所有者之间的对应关系,再验证数据所 有者是否对上述请求进行授权,如果全部验证通过,则进行计算。计 算完成后,再将计算结果使用请求方公钥进行加密,返回;或者使用 TEE 专属的密钥,保存在数据流通平台。
2.平台技术架构
数据流通平台分为以下几个部分:存储层:数据流通平台的核心能力在“流通”上,存储是其可选 的功能,所以数据方本地建议保留存储能力。数据流通平台的存储能 力,是为了避免数据方反复上传同样的数据,浪费时间和资源。

计算环境层:数据流通平台使用 TEE、TPM 和全栈可信,为数据方提供一个能够抵御恶意人员攻击的域外运行环境。数据方在使用 该环境前,需要从远程验证该环境,以免将数据传入到虚假的安全环 境中。 框架层:其底层为基础的计算框架,包括集群管理、调度中心、 单个计算实例的基础环境,以及大数据计算的一些优化能力,比如任 务编排等。除此之外,还包括一些基础服务,比如密钥管理服务、协 助环境验证的服务、数据访问权限鉴别服务等。 安全计算引擎:安全计算引擎能够提供隔离的计算环境,在提供 计算能力的同时防止攻击者在计算环节获得敏感信息。安全计算引擎 提供多种计算引擎,使得用户可以根据不同场景选择合适的计算引擎, 包括受控匿名化、TECC、TEE、轻量级密态计算(适度放弃安全性换 取高性能的密态计算算法)。数据方本地也具有一定程度的密态化能 力,包括去标识、加噪、K 匿名等,与服务端的能力相互辅助。
数据流通层:数据流通层包含数据流通的生命周期过程。1)在 数据方本地,首先对数据进行管理(包括增加、删除等),然后对要 流通的数据按规定进行预处理,并进行加密传输;2)流通平台在接 收数据后,进行加密存储;3)流通平台在收到请求后,依次验证数 据与数据方的所属关系、数据方对使用方的授权、ID 与实体的绑定 关系等,验证完成后进行相应的计算;4)计算的结果可以加密留存 在数据流通平台,或者返回给数据使用方。因为数据的全生命周期流 动都使用跨域管控技术保障数据方对数据的全程可控,所以即使平台 方是恶意的也不破坏该可控性。
平台层:平台层包括机构管理(机构的注册、审核等)、项目管 理(项目的建立、成员准入等)以及任务管理(任务的配置、发起等)。 数据流通平台提供用户可操作的界面,为达到“平台管理方恶意的情 况下也能保证数据安全”,数据方不能完全信赖数据流通平台(服务 端)提供的界面服务,其本地也必须拥有界面访问服务。本地界面服 务作为可信的媒介,将能保证数据方的操作安全传导到其数据和密钥 上。
3.平台方案分析
数据流通平台基于数据生命周期,涵盖各类数据要素流通角色、 支撑多种安全性和具有性能差异的计算引擎、具有可弹性扩展的分布 式计算能力,为海量数据流通提供公共平台,非常适合大规模数据流 通,包括为业界大量机构提供数据流通的公共平台。 数据流通平台使用了多种技术,突破现有的安全性、性能等瓶颈, 使得数据流通适用场景大规模拓展: 受控匿名化技术突破了隐私保护和数据价值难以兼得的瓶 颈,使得用户个人隐私保护、数据价值无损失成为可能。 可信密态计算突破了安全性和性能难以兼顾的困境,使得高 安全、高性能的数据流通成为可能。 跨域管控技术使得数据方可以基于技术手段对域外的数据进 行管控,支持丰富的数据生命周期、灵活的性能扩展,有力地支撑 了大规模数据流通系统。
二、数据匿名化实施服务平台
1.平台设计思路
《中华人民共和国个人信息保护法》第四条规定:“个人信息是 以电子或者其他方式记录的与已识别或者可识别的自然人有关的各 种信息,不包括匿名化处理后的信息。” 从平衡保护与利用角度,由于数据处理环节多向多样,且其中潜 在的数据价值的发现和实现是在“共享”中达成的,但缺少用户交互 能力、机构与机构间的“共享”处理行为。因此,可利用匿名机制, 既保持数据的匿名化状态,也保证即使泄露也无法识别具体个人甚至 影响到个人。 国家标准 GB/T 35273-2020 《信息安全技术 个人信息安全规范》 和国家标准 GB/T 37964-2019《信息安全技术 个人信息去标识化指 南》中,去标识化作为一种技术,是以实现匿名化为目的的多种技术 或技术组合(如假名、加密、泛化等);在无其他影响因子的情况下, 以上适当的去标识化技术可以证明其所处理形成的静态的数据符合 匿名化要求。
但当数据进入流动利用的活动中,“活动中的数据”不仅有控制 人的变化、数据形态的变化(如隐私计算等加密形态),也会有数据 内容的变化(如添加随机标识、泛化标签)。对于活动(变化)中的数 据,技术已无法独立证明是否符合匿名化要求,需要配套相应的业务 法律边界(评估见证)和运营过程控制(分域监控)的服务控制体系, 通过对各种“数据活动”所构成的影响因子进行约束和控制,才能证明活动中的动态的数据是否继续符合匿名化要求。
数据匿名化实施基于有效的数据去标识化 (匿名 预处理 xID)技术,配套相应的业务法律边界评估见证的方法和运营 过程监控的管理控制体系 F(),最终能够使数据遵循控制者的意愿, 通过合法有序的方式实现社会化的充分利用。
2.平台技术架构
数据匿名化实施服务平台主要包含三个服务:匿名技术服务:选择适当的数据去标识化技术模式,构成数据的匿名。数据控制者对信息主体标识(符)处理得到 Token 标记,相同信 息主体标识(符)在不同数据控制者分域内生成的 Token 标记不可逆 且互不相识。并由本服务平台作为独立第三方,依据数据交换合约的 合规评估意见,管理分域密钥,开关控制分域 Token 标记间的关联。 采用的分域去标识化技术,可达到如下效果:不可逆推:保证预处理的数据(集)无法直接还原出个体标识 (符)等识别信息。 互不相识:保证预处理的数据(集)无法被他人间接还原出个体 标识(符)等识别信息。 关联受控:可遵循业务法律边界,禁止或控制所处理的数据与 特定个人的关联,具备防范滥用匿名化和无序使用数据的能力。 有效证明:技术本身应通过国密认证,技术执行可留存清晰的 记录以供评估监控审计等形成对应法律证据。

评估与存证备案服务:结合场景和条件的评估与备案机制,清晰 行为的边界,遵循 T/CCSA 424-2022 | T/CAAAD 004-2022《互联网广 告 匿名化实施指南》要求,通过合规自测、合约评估和备案公示, 提供以行业内数据交换合约为对象的合规性评估与存证备案服务。合 规自测通过对 200 多项的评估因子自动检测,帮助客户快速找到业务 场景中的合规风险点以及合规路径;合约评估由具有数据合规和安全 评估能力的独立第三方服务机构以及职业律师提供服务实施评估,形 成具有真实性、有效性、相关性的评估结论与法律意见书样本;备案 公示通过提供备案证明,证明已符合最佳实践。秩序监管服务:配套合约执行过程监控等运营措施,控制主体的 使用。
3.平台方案分析
数据匿名化实施服务平台具有轻量级、无需部署的优势,同时还 有专业服务团队作为支撑,能够便捷使用。该服务平台融合权威第三 方 xID 技术、知名律师事务所法律评估见证,以及行业组织的监督管 理,能够进行符合 T/CCSA 424-2022 | T/CAAAD 004-2022《互联网广 告 匿名化实施指南》要求的数据匿名化实施并有效存证。 打破传统的单一驱动模式,打通企业法务、业务和技术的 诉求,将企业内部的单向妥协(零和博弈)扭转为多赢局面。 提供“安全+合规+有序”的三位一体解决方案,增强互联网 广告行业竞争力,发挥数据要素的商业价值。