企业可以通过数据经纪人从境外合法购买训练数据,其通常包括个人数据、行为数据、市 场数据等多种类型,可用于人工智能模型的训练和优化。
一、不同跨境数据获取方式的合规性考量
在人工智能大模型的训练与开发过程中,获取高质量、多样化的数据集至关重要,而跨境 数据的获取更是为模型的全球适用性提供了关键支撑。然而,面对各国日益严格的数据保护 法规和数据主权要求,企业在获取和使用境外数据时需要谨慎行事,权衡效率与合规。通常, 企业可以通过以下几种主要方式获取跨境数据:从境外数据经纪人购买、从境外网站爬取数 据、利用境外开源网站的数据集,以及直接从境外用户收集数据。上述方法各有特点,也面临 着不同的法律风险和合规挑战。
1.从境外数据经纪人购买
企业可以通过数据经纪人从境外合法购买训练数据,其通常包括个人数据、行为数据、市 场数据等多种类型,可用于人工智能模型的训练和优化。然而,这种方式存在多重风险,主要 涉及隐私与数据保护、数据合法性与来源合规性,以及数据质量与适用性等方面。例如,在处 理欧盟公民数据时,企业必须严格遵守《通用数据保护条例》(General Data Protection Regulation,GDPR)的要求,确保数据主体的知情同意、数据最小化、存储限制等原则。违反 GDPR可能导致高达2000万欧元或全球年营业额4%(以较高者为准)的罚款。 针对此种数据获取方式,企业应选择声誉良好、具有相关资质的数据经纪人,并应与其签 署详细的数据处理协议,明确数据的来源、使用范围和责任划分。与此同时,企业需要进行尽 职调查,确保数据的收集和处理符合原始数据所在地的法律要求,以确保购买的数据符合企 业的合规标准和质量要求。
2.从境外网站爬取数据
通过爬虫技术从境外网站或平台自动抓取公开数据是一种常见的做法,特别是对于需要 大量非结构化数据(如文本、图片和视频)的人工智能模型训练。但这种方式面临着多方面的 法律风险,包括违反相关法律法规、侵犯知识产权,以及违反网站使用政策等。在美国,未经 授权的数据爬取可能违反《计算机欺诈和滥用法》(Computer Fraud and Abuse Act, CFAA)。虽然2021年的Van Buren v. United States案例在某种程度上限制了CFAA的适用 范围,但企业仍需谨慎行事。在欧盟,如果爬取的数据包含个人信息,可能违反GDPR的规 定。此外,爬取的数据可能涉及第三方的版权或数据库权利,特别是在欧盟,《数据库指令》 (Directive 96/9/EC on the Legal Protection of Databases,Database Directive)为数据库的 创建者提供了特殊的法律保护。
为了合规地进行数据爬取,企业应仔细研究目标网站的使用条款和robots.txt文件,尊重 网站的爬虫政策。考虑与数据源网站建立正式的数据共享协议也是一个可行的选择,这可以 大大降低法律风险。在技术层面,实施措施控制爬取速率,以减少对目标网站的负面影响。 对爬取的数据进行严格的筛选和处理也是必要的,确保不包含个人隐私信息或受版权保护的 内容。
3.从境外开源网站获取数据
从GitHub、Kaggle等开源平台获取数据集是一种便捷且广泛使用的方式。这些数据通 常在开放许可(如MIT、Apache、CC-BY等)的基础上提供给开发者和研究人员使用。然而, 使用开源数据仍然存在一些潜在风险,主要涉及开源许可的合规性、隐私风险,以及数据质量 和责任问题。不同的开源许可对数据的使用有不同的限制,某些许可可能要求在使用数据的 产品中包含原始许可文本,或者限制商业使用。尽管开源数据集通常经过处理,但仍可能包 含未经适当匿名化的个人信息,使用这些数据可能无意中违反隐私保护法规。此外,开源数 据的质量可能参差不齐,且数据提供者通常不对数据的准确性或合法性负责。 因此,企业需要自行承担使用这些数据带来的风险。为了安全合规地使用开源数据,企 业可以建立专门的开源合规团队,负责审核和管理所使用的开源数据集,并创建开源数据使 用清单,详细记录每个数据集的来源、许可类型和使用范围。这可以帮助企业更好地管理合 规风险。
4.直接从境外用户收集数据
直接从境外用户收集数据可以获得高质量、定制化的训练语料,但也面临着最复杂的隐 私保护法规挑战。这些挑战主要涉及隐私与数据保护法律、跨境数据传输,以及数据安全等 方面。不同国家和地区的数据保护法规要求各不相同,例如,GDPR要求企业必须有明确的 法律基础来处理个人数据,并赋予用户多项权利,如访问权、删除权、数据可携带权等。在美 国,除了联邦法律,还需要考虑各州的隐私法规,如《加州消费者隐私法案》(California Consumer Privacy Act,CCPA)和《弗吉尼亚消费者数据保护法》(Virginia Consumer Data Protection Act,VCDPA)。许多国家对个人数据的跨境传输有严格限制,例如,GDPR要求将数 据传输到欧盟以外的国家时,必须确保该国具有“充分的数据保护水平”,或采取适当的保障 措施,如标准合同条款(SCCs)。此外,跨境收集和传输数据增加了数据泄露的风险,一旦发 生数据泄露,企业可能面临多个司法管辖区的处罚和诉讼。
为此,企业需要制定全面的隐私政策,清晰说明数据收集的目的、使用方式和用户权利, 实施用户同意管理系统,确保获得用户的明确同意,并允许用户随时撤回同意。在欧盟等地 区,采用隐私设计(Privacy by Design)原则,在产品设计初期就考虑隐私保护,可以大大降低 后期的合规风险。在成本允许的情况下,考虑在不同地区部署本地化的数据中心,以满足数 据本地化要求,也是一种有效的合规策略。
二、大模型开源的合规性考量
1.模型开源的阶段划分
人工智能系统的开源与传统软件开源存在显著差异。人工智能系统由多个组成部分构 成,包括推理代码、训练代码、模型权重和训练数据。这种复杂性使得人工智能系统的开源程 度可以划分为多个层次,从完全开放到完全封闭,形成了一个连续的谱系。目前,业界普遍将 人工智能系统的开放程度划分为七个不同的级别: (1)完全开放:代码(包括推理代码和训练代码)、模型权重和训练数据均对外开放且无使 用限制。例如,EleutherAI的GPT-NeoX模型就采用了这种完全开放的方式。 (2)开放但有限制:代码、模型权重和训练数据均对外开放,但附带一定的使用限制。 BigScience的BLOOM模型就属于这一类型。 (3)仅开放模型权重:只公开模型权重,而不公开代码和训练数据。Stability AI的Stable Diffusion模型和Meta的Llama 2模型采用了这种策略。
(4)API开放且可微调:通过API提供模型服务,并允许用户进行微调。OpenAI的GPT3.5模型就采用了这种方式。 (5)API开放但不可微调:通过API提供模型服务,但不允许用户进行微调。OpenAI的 GPT-4模型属于这一类型。 (6)网页访问:仅通过网站页面提供模型服务。Inflection AI的Pi模型就采用了这种方 式。 (7)完全封闭:除开发人员外,外部人员无法获取或使用模型。Google DeepMind 的 Flamingo模型属于这一类型。
近年来,各国政府开始关注并制定针对人工智能模型开源的相关法规,反映了促进技术 创新的愿望,也体现了对国家安全和公共利益的考量。 在美国,2024 年 5 月 8 日,美国众议院外交事务委员会和两党议员提出了法案(H. R.8315- Enhancing National Frameworks for Overseas Restriction of Critical Exports Act)。该法案旨在修订2018年《出口管制改革法案》,赋予政府更大的权力来管控人工智能 模型的出口。这一举措反映了美国政府对人工智能技术国家安全影响的关注,可能会对人工 智能模型的国际合作和开源产生重大影响。 欧盟在《人工智能法案》中对人工智能系统的开源提供了更为详细的规定。该法案在第2 条明确了适用范围,对免费且开源的人工智能系统给予了一定的豁免。
但这种豁免并非无限 制的,主要存在以下几个例外情况: (1)高风险人工智能系统:即使是开源的高风险人工智能系统,仍需遵守透明度、数据质量、记录保存、人工监督和稳健性等要求。 (2)不可接受风险类人工智能系统:对于可能造成重大伤害或侵犯基本权利的人工智能 系统,无论是否开源,都被明令禁止。 (3)通用人工智能模型:对于具有系统风险的通用人工智能模型(如训练计算量超过10^ 25 FLOPs),即使开源也需遵守相关规定。其他通用人工智能模型则需遵守版权法和信息披 露要求。 (4)特定类型人工智能系统:直接与人类互动的人工智能系统,即使开源,也需遵守透明 度义务,如告知用户正在与人工智能系统互动,标注人工智能生成的内容等。
2.企业应对策略
面对复杂的人工智能开源环境和不断演变的法规要求,企业在开源人工智能模型时需要 采取全面的合规策略。首先,企业应建立完善的开源评估机制,考虑技术、法律、商业和伦理 等多个因素,以决定是否开源及采取何种开源级别。其次,在开源前进行全面的合规性审查, 确保模型不属于法规禁止的高风险或不可接受风险类别。同时,企业需要明确定义开源范 围,选择合适的开源许可,并提供详细的技术文档,包括模型的功能、局限性和潜在风险。此 外,企业还应建立持续监控机制,密切关注法规变化和模型使用情况,及时调整开源策略。最 后,对于跨国经营的企业,需特别注意不同国家和地区的法规差异,在进行国际合作或向海外 开源时,充分考虑可能的出口管制和数据跨境传输限制。通过这些措施,企业可以在推动人 工智能技术创新和开放共享的同时,有效管理法律风险,确保合规经营。
三、满足多国人工智能伦理标准的研发实践
2023年11月1日,在英国布莱切利园召开的全球首届人工智能安全峰会上发布的《布莱 切利宣言》(The Bletchley Declaration),为我们提供了一个理解国际社会对人工智能安全和 伦理要求的重要窗口。这份宣言汇聚了来自中国、美国、欧盟等28个国家的政府代表,以及 全球学术、科研机构和知名企业的共识,反映了当前国际社会对人工智能发展的普遍关切。 宣言强调了以人为本的人工智能开发理念,呼吁在设计、开发和使用人工智能时,确保其安 全、值得信赖和负责任。对于计划进行国际化发展的人工智能企业来说,深入理解并遵循这 些国际普遍认同的人工智能安全要求至关重要。
《布莱切利宣言》指出,人工智能技术不仅为全球带来了巨大的发展机遇,还在医疗、交 通、教育等多个领域深刻影响着人们的日常生活。然而,伴随这些机遇而来的风险和挑战同 样不容忽视。宣言特别提到了前沿人工智能技术(如通用人工智能模型)可能带来的潜在风 险,包括滥用或失控问题。通过关注这些国际普遍认同的人工智能安全要求,企业不仅可以 更好地满足多国的监管标准,还能增强其产品在全球市场的竞争力和可信度。 在全球范围内,各国政府正在积极制定针对人工智能的具体规范和底线要求。这些要求 虽然在细节上有所不同,但都体现了对人类尊严、自由、平等、隐私等基本价值的共同关注。 例如,美国政府要求开发潜在双重用途基础模型的公司向联邦政府提供相关信息,包括训练 过程的安全措施、模型权重的保护措施以及红队测试结果等,反映了美国政府对人工智能安 全性和潜在风险的高度重视,尤其是在国家安全和关键基础设施保护方面。欧盟的《人工智能法案》则更加详细地列举了被禁止的人工智能实践,包括潜意识操纵、利用人的弱点、社会 评分、预测犯罪倾向等。这些禁令体现了欧盟对人的尊严、自由、平等、民主和法治等价值观 的坚持,以及对个人隐私和数据保护的重视。特别是,欧盟明确禁止利用人工智能系统对个 人进行不合理的评分或歧视性对待,反映了其对社会公平和个人权利的强调。
对于计划出海的人工智能企业来说,遵守多国的伦理标准既是挑战也是机遇。面对全球 范围内日益严格的人工智能伦理要求,企业在研发实践中需采取全面而灵活的应对策略,以 确保其人工智能产品不仅技术先进,更符合国际普遍认可的伦理标准。首要之务是建立健全 的伦理审查机制,该机制应贯穿产品设计、开发和应用的全过程,确保每个阶段都充分考虑并 遵循各目标市场的伦理要求,尤其要关注《布莱切利宣言》中强调的以人为本、安全可靠和负 责任的开发理念。其次,企业应着力培养跨学科的人工智能伦理专家团队,该团队不仅精通 技术开发,还应深谙各国的法律法规和文化背景,能够准确把握不同地区对人工智能伦理的 特定要求,从而在产品开发中预见并避免潜在的伦理风险。
此外,企业还应建立完善的风险评估体系,特别是针对前沿人工智能技术(如通用人工智 能模型)可能带来的潜在风险,进行全面而深入的评估,包括但不限于滥用风险、失控风险以 及对社会公平和个人权利的潜在影响。通过定期的“红队”测试和伦理影响评估,不断优化产 品设计和功能,以最大程度地降低伦理风险。同时,企业应当建立透明的信息披露机制,主动 公开其人工智能系统的基本原理、数据来源和潜在影响,特别是在涉及个人隐私、社会公平和 国家安全等敏感领域时,更应采取额外措施确保信息的透明度和可解释性。 最后,企业应积极参与国际人工智能伦理标准的制定过程,通过与政府机构、学术界和其 他行业参与者的密切合作,共同推动形成更加统一和可操作的全球人工智能伦理框架,为国 际标准贡献智慧的同时,也能更好地预见和适应未来的监管趋势,从而在激烈的全球竞争中 赢得先机和主动。