以下从公共数据开发利用的视角梳理了 国外健康医疗数据要素价值开发实践情况。
1.欧盟公共数据流通⸺共同数据空间
欧盟是较早探索公共数据流通的地区之 一。2011 年 12 月,欧盟委员会提出“欧盟 开放数据战略(Open Data Strategy)”, 旨在将公共部门收集和产生的原始数据通过 再利用成为信息与通信技术用户所依赖的数 据材料 [41]。同时,欧盟委员会通过了《公共 数据数字公开化》决议,主要包括三大方面: 一是设立欧盟统一的公共数据互联网对外服 务门户网站;二是完善欧盟范围内数据公开 的公平竞争环境建设;三是要求加大数据管 理的数字技术应用研发投入,规范社会化服 务及监管 [42]。
在公共数据平台的建设方面,欧盟也进 行了一系列探索。2012 年,欧盟委员会推出 欧盟开放数据门户网站(EU Open Data Portal),发布欧盟组织机构(EU institutions, agencies and bodies)的开放数据;2015 年, 欧洲数据门户网站(European Data Portal) 上线,发布来自欧盟成员国和其他欧洲国家 的开放数据;2021 年,数据平台进行了第三 次迭代,整合了上述两个门户网站,上线了 欧洲数据官方门户网站(data.europa.eu)。该网站旨在:(1)促进欧洲开放数 据在公民、企业和组织中的可及性和再利用; (2)推动和支持欧盟组织机构以及欧洲国家 发布更多、更高质量的元数据和数据,提高欧洲行政部门的透明度;(3)培养公民和组 织对于利用开放数据能够带来机遇的意识[43]。 截至 2024 年 6 月,该网站共公开了来自 35 个国家的 1744313 个数据集,其中健康类别 的数据集有 26519 个 [44]。

2020 年 2 月,欧盟委员会发布的《欧 洲数据战略》(A European Strategy for Data)强调了数据在社会发展中的重要作 用,并提出“单一数据市场”的理念,计划 在健康、环境、能源、农业、流动性、金融、 制造业、公共行政和技能九大领域构建欧洲 共同数据空间(common data spaces)。 2022 年 5 月,欧盟委员会发布关于欧洲健 康数据空间(European Health Data Space, EHDS)的法规提案。EHDS 的目标是使个 人能够控制自己的健康数据,并促进数据交 换,在欧盟范围内提供医疗保健服务,同时 推动数据再利用,满足医学研究、创新、政 策制定和监管活动的需求。医疗健康领域行 业根据 EHDS 规则获取数据访问许可后,也 可以申请对数据进行再利用。该提案主要涉 及三方面内容:一是健康数据的使用,二是 数据的互操作性和安全性,三是数据跨境流 动和共享治理。提案发布后引发了一些争议, 例如提案中的一些规定与《通用数据保护条 例》(GDPR)、《数据治理法》(DGA)、《数 据法》(DA)等现有欧盟法律并不协调统一。 基于此,2024 年 3 月,欧盟理事会和欧洲 议会就 EHDS 拟议法规达成临时协议,对一 些存在争议的关键问题进行了修订,包括为 患者建立数据使用的退出规则、允许患者设 置限制信息等。目前欧盟委员会正在正式通 过新的法规。 在该案例中,对数据的关联整合与开放 是其最突出的特征。打造单一数据市场,需 要对已有的数据资源进行全面的治理,通过 建立通用的元数据标准,对数据进行主题分 类和归并,将提高元数据质量作为优先事项, 以高质量的元数据为提供数据服务的基础。
2.基于公共数据推动真实世界研 究的方式⸺数据关联(data linkage)
数据关联是一种将来自不同来源但与 同一个人或事件相关的信息汇集在一起的方 法,该方法经常被用于医学研究中,通过关 联与健康、教育、环境或其他因素相关的记 录,可以展现详细而全面的人口发展情况, 为人口健康和福祉相关的研究和政策制定提 供参考,是相比于其他数据收集机制更有成 本效益的数据开发利用方式。例如在进行临 床试验时,可以将入院数据、癌症登记数据 和死亡数据等进行关联,实现对临床试验参 与者的长期跟踪随访,在降低失访率的同时, 还降低了临床试验的成本。澳大利亚、英国、 加拿大等国家均使用该方法来关联其公共数 据,用于医疗健康领域的研究。本白皮书以 澳大利亚为例,介绍数据关联方法在医疗健 康领域公共数据的开发利用。
澳大利亚认为在提供医疗卫生和其他公 共服务时,澳大利亚政府、私人组织和非营 利性机构收集的大量澳大利亚公民相关信息 是宝贵的国家资源,可用于增进对疾病的理 解、开发治疗方法和改善医疗服务。澳大利 亚依托国家合作研究基础设施战略(National Collaborative Research Infrastructure Strategy, NCRIS)框架,于 2009 年成立了 人口健康研究网络(The Population Health Research Network, PHRN)旨在将来自澳 大利亚各地的现有数据汇集在一起,用于重 要研究,其愿景是通过关联生活数据来改善 所有澳大利亚公民的福祉。作为一个全国性 网络,PHRN 由位于西澳大学的项目办公室 统筹协调,由每个州 / 地区的项目参与者和 数据关联部门组成。除了 澳大利亚政府的 NCRIS 计划提供资金支持 以外,其他政府机构、研究机构和高校也为 PHRN 提供了大量的现金和物资捐助。
PHRN 建立了元数据平台,为研究人员 提供全国各州和地区经常关联的核心数据集 的信息,目前共包含 159 个数据集。若研 究人员需要更多的数据,需要联系数据所属 辖区的相关数据关联部门。数据所属辖区一 共有 9 个,即 1 个国家级和 8 个州 / 地区。 国家级数据由澳大利亚健康与福利研究所 (AIHW)负责进行数据关联,澳大利亚首 都领地和新南威尔士州的数据由健康记录关 联中心(CHeReL)负责,其余 6 个州 / 地 区均建立了各自的数据关联部门,通常隶属 于州 / 地区卫生部。PHRN 将健康相关数据 分为行政数据、临床数据和特定项目数据。 行政数据是在提供服务时例行收集的,由政 府部门和机构以及其他组织从服务提供方获 取。临床数据是由卫生技术人员在向患者提 供医疗服务期间收集和使用的患者记录,例 如医疗记录、病历结果、影像数据等。特定 项目数据指政府和其他机构出于特定目的而 收集的信息,例如健康行为调查等。每一个 数据集均有专门的数据保管人负责数据的日 常管理。

所有使用关联数据的研究项目必须首先 提交给数据关联部门进行技术可行性评估, 然后获得数据保管人和相关人类研究伦理委 员会(HREC)的批准。若研究人员仅申请 单一数据辖区的数据,可通过相关数据关联 部门或 PHRN 提交申请,若研究人员需要申 请跨辖区的数据,可通过 PHRN 进行申请。 研究人员需要向数据关联部门支付费用,不 同的部门有不同的收费结构,其费用通常受 到数据质量、数据规模、生成关联的数量、 数据关联申请的复杂性等因素影响。当申请 的关联数据准备好之后,通常会要求研究人 员在特定的安全访问换将中接收数据。 数据关联的方式能够实现在某个特定应 用场景下相关数据的高度汇聚,形成反映个 人健康水平的“数据链”,释放数据的集成 效应和价值。
3.医疗健康领域数据流通平台
国外并没有建立专门的数据交易机构, 多以数据集成平台的形式进行数据流通交 易。第 27 期白皮书《全球生物医药研发大 数据集成平台观察》阐述和分析了用于生物 医药基础研究和研发的数据集成平台发展情 况, 并列举了 UK Biobank、ConsensusPathDB 等典型案例。本白皮书将美国“All of Us”项目作为医疗健康领域数据流通案例 进行介绍。 2016 年 10 月,美国国立卫生研究院 (NIH)推出“我们所有人”研究计划(“All of Us” research program),属于精准医 学计划的一部分 , 旨在建立同类型中规模最 大、多样化的健康数据库,为各种健康相关 的研究提供信息。项目的总体目标是建立强 大的研究资源,以促进对健康和疾病的生物、 临床、社会和环境决定因素的探索。该项目 是一项前瞻性队列研究,计划招募 100 万名 18 岁以上居住在美国的个体,收集基线数据 和生物样本。该项目将随访至少 10 年,把 所有参与者的健康数据和生物样本汇总到美 国国家中心数据库,经研究人员检测基因、 环境和生活方式的变异性从而将遗传、环境 暴露、基线数据与疾病联系起来。建立生物 医药和行为研究平台,为收集、储存、分析、 共享患者数据提供全面、复杂的信息技术基 础设施,既有助于改善现有的医学模式,也 能够对人们如何理解、如何达成家庭、社区、 个人的健康产生革命性的影响 [45]。
在项目正式开始之前进行了大量的筹备 和试点工作。2015 年 9 月,项目发布了项目 规划报告。同时,项目还进行了试运行和预 研,建立了统一的标准和规范的工作流程。 2016 年 8 月开始,项目招募了 50 名参与者 启动先导试验,开展基础设施建设,进行工 作流程设计。2017 年 5 月,项目启动参与者 招募工作,并开展为期一年的试点项目,用 于测试和改进工作流程。2018 年 5 月,试点 项目完成,共招募到 2.7 万余名核心参与者 (提供了个人信息、生物样本和身体测量数据,并同意共享电子病历数据的人)[46,47]。随后, 项目进入正式开展阶段,招募工作在全美全 面铺开。2022 年 3 月,项目发布了第一个全 基因组数据集,包含近 10 万名参与者的全 基因组序列。截至 2023 年 2 月 15 日,已有 409420 名参与者提供了相关数据 [48]。
All of Us 项目由 NIH 集中管理与协调, 自 2015 年以来,美国国会已经为“All of Us”研究计划拨款 10.2 亿美元,《21 世纪 治愈法案》授权截至 2026 年再向精准医学 计划追加 14.55 亿美元,另外,NIH 院长办 公室共同基金(OD Common Fund)和其 他基金也为该项目提供了资金支持 [47,49]。All of Us 项目依托全美医疗机构、研究所、高 校、企业、社区等各类组织和机构负责具体 实施 [47]。项目主要通过资助的方式,与各个 机构建立合作关系,从而构成项目的基础设 施网络。为了保证精准医疗计划参与者的隐 私与数据安全,白宫于 2015 年制定了《精 准医学计划:隐私和信任原则》以及《精准 医学计划:数据安全政策原则与框架》。All of Us 项目遵循这两项原则。 All of Us 项目强调全民参与和人群多样 性,其目标是吸引和招募处于不同生命阶段 的参与者,参与者包括但不限于种族、民族、 年龄、性别、性别认同、性取向、残疾状况、 获得照护的情况、收入、受教育程度和地理 因素不同的人群。同时,该项目积极招募以 往生物医学研究中代表性不足的群体(underrepresented in biomedical research, UBR)。因此,只要符合纳入标准,所有居 住在美国及其领土的个人均有资格参加。除 去获得知情同意的时间,参与者完成整个参 与流程大概需要花 1-3 小时 [46]。All of Us 项 目不仅对已有的健康医疗数据(如EHR数据) 进行集成汇聚,同时该项目还采集了大量的 数据。项目收集的数据来源主要包括 EHR、 生物样本和生物测定(基因组学)、问卷 调查数据,即参与者提供信息(Participant Provided Information, PPI)、体格检查数据、 可穿戴设备(数字健康)数据等,并将不断 地丰富数据类型 [46,50]。截至 2024 年 6 月 19 日,已经有超过 1238000 人在项目的参与者 注册网站创建了账户,超过 814000 人正式 参加了该项目,另有超过 556000 人已经完 成了项目的初始参与流程 [51]。项目定期对参 与者贡献的不同来源的数据数量进行汇总和 更新,最新的数据汇总更新至2023年2月(见 图 11)。
All of Us 研究中心向世界各地研究人员 开放数据,并将数据访问权限分为 3 个层级, 即公共层级、注册层级和控制层级。公共层 级中的数据集仅包含删除了标识信息的汇总 数据,每个人都可以通过浏览和获取这些数 据。注册层级的数据集包含了个人层面的数 据,如 EHR、可穿戴设备数据等,仅开放给 取得授权的研究人员。控制层级的数据集包 含了基因组数据,包括全基因组测序(WGS) 和基因分型阵列数据,以及来自 EHR 和问 卷调查的人口统计学数据字段、事件日期等 数据。研究人员同样需要取得授权后,才能 使用控制层级的数据。
研究人员无法以个人身份在 All of Us 研 究中心进行注册,需要依托研究人员所在机 构来创建账户(学生依托所在学校)。在注 册之后,还需要经过身份验证和相关的培训, 并签署《数据使用者行为守则》(Data User Code of Conduct, DUCC),才能完成注册 步骤。相关机构需要与 All of Us 研究中心签 署《数据使用和注册协议》(Data Use and Registration Agreement, DURA)。目前, 只有学术机构、医疗保健机构、非营利组织 和政府才有资格申请 DURA。截止至 2024 年 6 月,已经有 812 家机构签署了 DURA。 研究人员对 All of Us 项目的数据进行分析和 利用依托研究者工作台进行,该工作台是一 个基于云的平台,注册的研究人员可在其中 访问注册层和控制层数据,并使用强大的工具进行数据分析和协作。研究人员仅访问研 究者工作台时,并不产生费用,但若要基于 工作台对数据进行分析,则会产生一定费用。 相关的数据分析是基于 Google Cloud 环境 进行,因此研究人员在使用数据进行研究时, 需要承担计算和存储数据的成本。项目会为 每个新创建的研究人员账户提供 300 美元的 初始积分,超过部分需要由研究人员支付。 需要支付的费用取决于分析数据时所需的工 作量。为了保证项目的透明性,All of Us 研 究中心公开了研究项目目录,包含了有关研 究者工作台中当前存在的所有项目的信息。 截至 2024 年 6 月 20 日共有 11901 个活跃 项目被记录在目录中,共产出了 349 篇期刊 论文,也推动了一些实践应用,例如威斯康 星大学的研究人员利用项目的数据集,构建 了乳腺癌筛查算法模型。 All of Us 项目形成了数据闭环,构建了 数据“自产自销”的模式,既推动了全美范 围内健康医疗数据互联互通与数据利用,也 将数据限制在可控范围之内,实现数据在有 限流动的情况下释放价值,并获得左右价值 流动和流向的主导权。