国内医学知识图谱有哪些?

国内医学知识图谱有哪些?

最佳答案 匿名用户编辑于2023/03/13 16:00

我知道国内医学知识图谱有哪些。

1.中文一体化医学语言系统(CUMLS)

CUMLS 是中国医学科学院医学信息研究所 基于 UMLS 开发的中文一体化医学语言系 统,其包含医学词表、语义网、构建工具与 平台。

医学词表收录了医学、药学和牙科学等 10 余个生物医学领域内的主题词表、分类 表、术语表和医学语料库,包括有《医学 主 题 词 表(Medical Subject Headings, MeSH)》中文版、《中国中医药学主题词表》 和来自医学文本术语的《医学语料库》等。 医学词表共收录了医学主题词 3 万多条、入 口词 3 万多条、医学术语 10 万多条和医学 词汇素材 30 万多条。

CUMLS 语义网络基于美国 UMLS 的语义网 络建立,由语义类型和语义关系两部分构成。 语义类型按实体和事件分类并进行相应层级 关系排列。语义关系则包括有等级关系(即 IS A 关系)和相关关系两部分。相关关系又 分为 5 大类,分别是物理上相关、空间上相 关、概念上相关、位置上相关和功能上相关。 通过语义关系建立语义类型间的关联性,实 现对概念之间的语义关系的多角度描述。

构建工具与平台是为医学词表的构建、维护 和发布提供保障。构建工具包括同义词识 别工具、语义相似度计算工具和主题分类一 体化检索维护平台等。词表发布平台则是 CUMLS 系统最终面向用户的可查询检索平 台,为医学信息专业人员和普通用户提供服 务。 

2.中医药学语言系统(TCMLS)

TCMLS 是由中国中医科学院中医药信息研 究所主持研究和创建的基于本体的中医药学 术语系统。它在借鉴 UMLS 的框架基础上 根据中医药学特有的语言特点和学科体系特 色进行构建,目前已收录了约 12 万概念、 30 万术语和 127 万语义关系。TCMLS 主要 包括有语义网络和基础词库两部分。语义网 络通过其定义的语义类型和语义关系构成了 TCMLS 的顶层架构。语义类型是中医药学 领域的概念分类体系,包括有中医特色的概 念和通用概念,共128种,如“脏腑”、“经络” 和“药用物质”等;语义关系则用于表示概 念间的关联关系,共 58 种,分为“IS A(上 下位关系)”和“Associated with(相关关 系)”,其中相关关系分为“物理上相关”、 “空间上相关”、“影响”、“时间上相关”、 “概念上相关”五大类,如“相表里”和“开 窍于”。基础词库是将收集的各个标准来源 的中医药术语以概念为核心进行系统的梳理 和准确描述,并建立了概念间的语义关系。

3.医药卫生知识服务系统

 医药卫生知识服务系统由中国医学科学院 医学信息研究所承建,旨在建立具有公益 性、开放性的医药卫生知识服务平台。其主 要资源来源于世界卫生组织(World Health Organization,WHO)和美国国立卫生研 究院(National Institutes of Health,NIH) 等医药卫生领域权威网站、医药卫生领域的 OA 英文期刊、中国知网(China National Knowledge Infrastructure,CNKI)的中文文献数据、国家人口与健康科学数据共享 平台的科学研究成果和国外开放科学数据资 源、“健康中国 2020”的医学百科数据库等, 形成了约 1500 万条相关资源。

系统围绕“重大慢性病”为主题,通过对资 源的深度挖掘和关联分析,建设了医药卫生 领域智能检索、医药卫生科学数据服务、重 大慢性病数据智能分析和特色知识服务和应 用,如医药卫生领域智能检索的服务是通过 对检索词的语义扩展和中英文翻译实现对收 录资源的集成检索,并以关联方式进行展现。 平台目前已发布疾病和药品领域知识图谱, 其中疾病涵盖心脑血管疾病、呼吸系统疾病、 免疫系统疾病、消化系统疾病、肿瘤等。

4.CMeKG

CMeKG 是由北京大学、郑州大学以及鹏城 实验室联合研发的中文医学知识图谱。它 的构建参考了国际疾病分类(International Classification of Diseases,ICD)、药物的 解剖学、治疗学及化学分类法(Anatomical Therapeutic Chemical,ATC)、SNOMED CT、MeSH 等国际标准的构建方法,同时 对医疗领域相关的临床指南、行业标准、诊 疗规范、医学百科等文本信息进行了收集和 整理,利用自然语言处理与文本挖掘技术, 基于大规模医学文本数据,以人机结合的 方式进行研发。目前已发布 2.0 版本,包含 1 万多疾病、近 2 万中药物、1 万多症状和 3000 种诊疗技术,描述医学知识的概念关 系和属性三元组达 156 万。

CMeKG 的医学概念体系分为 15 大类,包 括疾病、药物、诊疗技术及设备、有机体、 解剖学等。基于以上医学概念分类体系,定 义了各类概念的关系描述框架。关系描述框 架包括有概念间的关系(概念关系)和概念 与属性之间的关系(属性关系),一共有 67 种概念关系,如“药物类 - 症状类 - 适应 症”,以及194种属性关系,如同义词、规格、成分等。另外,2.0 版本还增加了基于就诊 科室的疾病分类体系和基于 ICD 编码的疾 病分类体系,并建立了与 UMLS 的映射与 链接。

5.OMAHA 知识库 

OMAHA 知识库是由浙江数字医疗卫生技 术研究院进行研发和构建的医学领域知识 库,主要聚焦于临床医学的内容开发。 OMAHA 知识库基于 OMAHA Schema 构 建,OMAHA Schema 是在研究和借鉴了国 内外已有知识图谱(如 UMLS 语义网络、 Wikidata、Schema.org、cnSchema[44] 等) Schema 的基础上,充分考虑中文医学知识 的特点,形成的一套符合中文临床环境的医 学知识图谱 Schema,目前包含医学相关的 67 种语义类型和 488 种关系。

OMAHA 知识库由“七巧板”医学术语集(简 称“七巧板”术语集)和“汇知”医学知识 图谱(简称“汇知”图谱)两部分组成。“七 巧板”术语集仅包含了 Schema 中用于定 义相关医学概念的层级关系、属性关系和语 义类型,而“汇知”图谱则包含了 Schema 中剩下的部分,即通过“七巧板”术语集可 以将医学概念定义清晰,通过“汇知”图谱 可以将医学概念、实体间的关系丰富和完善。 例如,(肺癌,子类,肺恶性肿瘤)*、(肺癌, 发生部位,肺部)* 和(肺癌,形态学改变, 恶性上皮肿瘤)* 是“肺癌”概念的本质特征, 用于定义“肺癌”,此类关系存储于“七巧 板”术语集中;(肺癌,症状,咯血)* 和(肺 癌,相关检查,胸部电子计算机断层扫描)* 是非定义类关系,此类关系存储于“汇知” 图谱中。

七巧板”术语集目前已积累发布了 98 万 概念、125 万术语和 292 万关系。它包括三 个核心构件,分别是概念、术语和关系,且 都通过唯一标识符进行表示。概念表示一个 临床观念(clinical idea/clinical thought),一个概念可以有多个父代概念;术语是对概 念的语言指称,一个概念下可以有多个术语 同时存在;关系用于建立概念之间的联系, 包括有子类关系和属性关系,其中属性关系 用于表示概念的特征,如“发生部位”、“形 态学改变”、“临床过程”等。“七巧板” 术语集包含 17 个顶层概念,涉及领域包括 疾病诊断、症状体征、手术操作、检验检查、 基因、药品等;包含 45 种语义类型,如临 床所见、疾病、操作、观测操作、生物等; 包含54种语义关系,如子类关系、发生部位、 病理过程、使用的器械等。同时,为了扩展 “七巧板”术语集的使用场景还制定了扩展 集,目前共有三种扩展集类型:与主流医学 术语集如 ICD-10、ICD-9-CM-3 和药品医保 目录等建立映射的映射扩展集;与以术语集 概念体系为基础搭建的口语化疾病、症状扩 展集和药品英文扩展集。扩展集还可以基于 已发布的编辑指南由用户自定义创建,从而 满足更多元化的需求。

“汇知”图谱的知识源主要为临床指南、临 床路径、药品说明书、医学书籍和医学文 献等高质量医学资源。“汇知”图谱采用机 器自动处理和人工审核相结合的方式进行构 建,以“七巧板”术语集为基础,最大化地 对实体进行了标准化和概念化。截止到目前, 已发布多个以疾病为核心的图谱数据,包括 15.4 万实体、97.8 万三元组,其中 8.5 万 实体与“七巧板”术语集建立了映射。

参考报告

医学知识图谱:医学人工智能的基石.pdf

医学知识图谱:医学人工智能的基石。知识是人类智能的象征,知识对人工智能而言有着同样重要的意义。知识表示、获取和应用一直是人工智能的重要研究方向,知识图谱则是随着人工智能的历史逐渐发展和演变出的一个概念。医学被认为是人工智能可以大显身手的领域之一,医学知识图谱也是近年来医学人工智能行业关注的焦点之一。医学知识图谱可以作为底层数据,应用于医学领域的语义搜索、知识问答、临床决策支持等场景。如何根据医学知识的特点,设计和构建符合医学专业逻辑的知识图谱,是医学知识图谱能更好应用的关键。

查看详情
相关报告
我来回答