跨境数据流动现状及潜在风险分析

跨境数据流动现状及潜在风险分析

最佳答案 匿名用户编辑于2025/02/08 15:08

以下将从几个主要场景分析跨境数据流动的具体情况及其潜在风险。

1.跨境调用算力导致数据出境

算力调用成为 GAI 跨境数据流动的核心动因之一。GAI 跨境调用算力是指GAI 开发者或部署者基于特定目的,利用境外计算资源支持GAI 应用,例如模型训练、内容生成或其他复杂计算任务。[9]随着 GAI 模型的复杂度和计算需求的提升,国内算力资源难以完全满足大规模模型的训练需求,因此部分国内企业选择跨境调用境外的算力资源。具体来说,当本地计算资源无法满足运营需求或出于成本、性能等方面的考量时,GAI 开发者或部署者会选择境外更具优势的算力资源来满足运营需求,从而引发数据的跨境流动。

在上述例子中,数据和任务发起方位于中国,而计算资源位于美国,构成了典型的数据跨境流动。这种数据跨境流动贯穿多个环节:一是数据传输和通信,GAI 开发者或部署者需要将用于训练或生成内容的原始数据或模型参数等信息从本地传输到境外服务器。[10]二是数据预处理和特征工程。数据到达境外服务器后,需要进行数据清洗、格式转换、特征提取等预处理操作。[11]三是模型训练和调优,这是 GAI 最核心的环节,需要利用境外强大的算力资源对模型进行训练和优化,过程中模型会不断读取并调整数据参数。四是结果存储和调用,训练好的模型或生成的内容可能会存储在境外服务器上以便后续调用或提供服务。综上可知,数据是 GAI 的“原料”,而算力则是加工这些“原料”的“工厂”,要在境外的“工厂”进行高效生产,就必须把“原料”运输过去。

跨境调用境外算力资源的背后是复杂的产业发展现状和地缘政治因素的交织。一方面,国内 GAI 产业链的基础设施,尤其是芯片技术和云计算平台,与国际先进水平仍有差距。另一方面,美国近年来出台了一系列政策措施限制高性能 AI 芯片对华出口,例如 2022 年 10 月,美国商务部工业和安全局(BIS) 出台针对中国的先进芯片及芯片制造设备出口管制新规,严格限制了Nvidia A100、H100 等高性能 AI 芯片对华出口。[12]此外,美国还联合日本、荷兰等盟友,进一步加强对华芯片出口管制。这些政策措施无疑加剧了国内GAI 开发者或部署者面临的算力困境,促使我国企业更多地考虑跨境调用境外算力的可行性。然而,跨境调用境外算力并非解决 GAI 算力困境的“万全之策”,其本身蕴含数据泄露和滥用等风险。部分国家制定了一系列域外效力条款,试图将其国内法延伸适用于境外,赋予其政府机构未经其他国家授权的情况即可直接获取存储于境外服务器上的数据的权力,这将对我国数据安全构成严重威胁。

2.跨境调用 GAI 服务或产品导致数据出境

跨境调用 GAI 服务或产品是另一种常见的数据出境方式。跨境调用GAI 服务或产品是指 GAI 部署者通过网络调用位于其他国家或地区的GAI 内容审核、数据标注或模型资源等服务或产品,进行 GAI 大模型的部署和搭建。调用模型资源包括调用应用程序编程接口(API)、访问云服务平台、获取模型开源代码等。[13] GAI 部署者无论是将内容审核、数据标注等服务交付给其他国家或地区的GAI 服务支持者,抑或是在调用 API 接口或使用云服务平台进行GAI 模型训练或推理时,都涉及数据跨境流动问题。具体而言,进行内容审核、数据标注以及调用 API 接口,数据需传输至位于境外的 GAI 服务支持者进行处理,并在处理完成后回传至调用方;[14]在使用云服务平台的情况下,数据则需上传并存储至境外的云服务器上,并在其提供的 GAI 大模型上进行训练或推理。在这两种情形下,数据处理行为发生在境外服务器上,构成数据跨境流动。特别是在使用云服务平台的情况下,中国公司的数据可能会被存储在境外服务器上,即使数据处理完成后被删除,也依然存在数据跨境的风险,需遵守中国及数据接收地的相关法律法规,并采取必要措施保障数据安全。

3.通过境外开源代码或模型构建

GAI 导致的数据出境在通过境外开源代码或模型构建 GAI 的过程中,许多企业因使用开源资源而面临潜在的数据跨境流动合规性风险。全球范围内的开源平台(如GitHub、Hugging Face 等)提供了丰富的 GAI 模型和代码,帮助企业便捷地获取技术资源,加速本地化开发和部署。然而,开源代码和模型托管在境外服务器上,存在数据跨境传输的隐患,尤其是当模型需要数据回传或日志上传时,这种隐患更加明显。以大语言模型(如 GPT 系列模型)的使用为例,这类模型通常在训练和优化过程中需要持续获取用户输入的数据,以进行进一步的参数调整。某些开源项目会设计自动回传功能,使得用户的输入数据被定期上传到境外的服务器,以提升模型性能。例如,一些开源平台上的 GAI 工具会记录用户交互数据,以改进生成内容的质量。这种数据传输如果不加以管控,可能导致用户隐私数据或商业敏感信息被传送到国外服务器,增加了数据泄露和滥用的风险。

此外,国内企业在使用开源平台提供的 GAI 模型和代码时,可能因忽视数据收集功能而导致合规问题。例如,GitHub 等平台上开源的自动化文本生成模型可能包含内置的“数据日志回传”机制,企业如果未进行充分的代码审查和调试,可能在不知情的情况下触发数据出境。这一问题在数据隐私和安全法规较为严格的国家或地区(如欧洲)尤为严峻,尤其是在涉及GDPR 的背景下,数据跨境流动需要得到严格的授权和保护。假如企业未对开源代码中的数据回传机制进行充分审查,可能会导致用户数据未经同意便被传至欧洲境外,面临GDPR的高额罚款风险,最高可达全球营业额的 4%或 2000 万欧元,具体取较高者。[15] 为了规避这一风险,企业应在利用开源代码和模型时严格执行合规性审查流程。首先,企业可以对开源代码进行代码分析,以识别潜在的数据收集和回传功能。例如,利用代码审计工具(如 SonarQube、Snyk 等)检测代码中的API 调用和数据传输行为。其次,企业在部署 GAI 模型前应对代码的每一部分进行充分测试,并在数据回传机制上引入数据加密和匿名化处理。例如,可以通过本地化的数据存储替代境外存储方式,或在不影响模型性能的前提下,设置数据上传时的严格加密措施,确保数据在传输过程中不会被截获。此外,企业可以参考特定的开源项目合规标准,如开放链(OpenChain)规范,来识别和评估项目中的风险,以确保跨境数据流动的安全性。

4.跨境外包服务导致的数据出境

跨境外包服务也是数据跨境流动的重要场景之一,尤其是在GAI 应用开发中,数据清洗、模型训练、数据标注等环节时常外包给境外的第三方服务商。这种模式固然能降低企业的开发成本,但也增加了数据流动的合规性挑战。以近年来的一些数据泄露事件为例,印度、菲律宾等国家曾多次发生因外包服务商缺乏完善的数据安全措施,导致大量敏感信息泄露的情况。例如,2022 年在印度发生的一起案件中,某外包服务商在处理客户数据时未采取适当的保护措施,导致数百万用户的个人信息被泄露。[16]这一事件不仅引发了印度政府的监管关注,也促使多国安全部门联手追踪泄露源头,最终揭示了跨境外包中数据保护的漏洞。以数据清洗和标注服务为例,通常涉及大量用户数据或商业敏感信息的传输。某些外包商可能将数据存储在不具备严格安全标准的境外服务器上,数据未经充分保护,可能因法律法规不完善而被不当获取或利用。如果企业未能与外包方签订清晰的数据保护协议(DPA),一旦数据在外包过程中泄露,企业将面临法律风险和声誉损失。因此,国内 GAI 企业在选择跨境外包服务时,应优先选择具有较高数据保护能力的供应商,并确保外包协议中包含数据保护条款。

企业还可采取数据加密与脱敏技术,确保数据在传输与处理过程中的安全性。数据加密是一种将敏感信息转化为密文的技术手段,可防止数据在未经授权的情况下被读取。数据脱敏则通过掩盖或替换关键数据,使得即便数据被截获也难以利用。通过这样的方式,企业可以有效减少外包服务过程中数据泄露的风险。此外,企业还可以参考 ISO/IEC 27001 等国际数据安全标准,建立健全的数据保护体系,以提升跨境数据处理的合规性和安全性。

参考报告

生成式人工智能数据跨境流通风险与治理白皮书.pdf

生成式人工智能数据跨境流通风险与治理白皮书。生成式人工智能(GenerativeArtificialIntelligence,以下简称“GAI”)的训练、研发与应用离不开大规模、多样化且实时更新的数据支持。随着云计算、物联网等数字技术的持续发展,数据密集型跨境活动已成为GAI产业发展的核心驱动力。近年来,以ChatGPT等大型语言模型为代表的GAI技术迅速崛起,进一步揭示了跨境数据流动在全球人工智能产业格局中的深刻影响与重要性。GAI数据跨境流动具有重要经济价值和社会意义。全球范围内,各国已逐渐认识到数据跨境流动在人工智能发展中的重要性,并达成共识。2023年9月,中国...

查看详情
我来回答