知识图谱互联互通典型应用场景梳理

知识图谱互联互通典型应用场景梳理

最佳答案 匿名用户编辑于2023/08/28 14:29

我来对知识图谱互联互通典型应用场景行简单梳理。

一、知识融合与计算

(一)多方知识计算

1、应用需求

多方知识计算能够在保证数据安全前提下,解决互不信任的参与方之间协同计算的问题。在知识图谱互联互通实施过程中,部分机构或企业既要实现数据的共享,又要考虑数据的隐私。而且,在知识互联互通应用中,不同知识图谱对同一实体的刻画和描述不尽相同,知识图谱互联互通可提取多个图谱之间对同一实体的描述信息。通过多方知识计算,可以构建出更加全面的实体表示信息,从而对实体进行全面的评估和评价。这将有助于实现知识的协同创新,构建完整的知识产品,构建多方协同的知识图谱集群系统。

2、应用路径

以金融反欺诈场景为例,金融和保险机构可通过各自的知识图谱进行互联互通达到数据共享的目的。知识图谱互联互通克服了单个图谱信息描述单一的缺陷,可获得客户更全面的描述信息,进而提高欺诈识别的准确性。但出于数据隐私、商业机密以及合规安全等方面约束,金融和保险机构并不能将上述风险信息主动公开。多方知识计算作为一种安全可信的信息共享方案,可以消除机构对于数据隐私和商业泄密的担忧,提高反欺诈的效率。

反欺诈需求方作为调度方发起多方计算任务,同步需要查询的主体身份信息,同时也作为多方计算节点参与运算。各金融机构根据主体身份信息匹配本地查询到的结果,并将此结果作为多方安全计算的输入因子。各金融机构和反欺诈需求方的计算节点之间利用多方安全计算协议完成风险信息的聚合计算,反欺诈需求方可得到最终的风险信息聚合计算结果。知识图谱互联互通在多方知识计算中的应用场景还包括使用联邦统计方法对同一集团下多个子公司的运营状况进行统计,分析集团的盈亏状况;金融机构间通过各自的风控数据进行风险管控、联合授信;产业联盟中的产品定价分析等。

(二)开放知识融合

1、应用需求

伴随互联网以及移动互联网发展,客观世界中的海量知识由线下涌入互联网,并且每时每刻都有新知识的产生,由此而产生了独特、巨大且丰富的开放知识价值。开放知识融合应用场景是指通过知识互联互通技术将来源于开放域的知识进行汇聚,从而解决知识应用场景需求。常见的场景包括开源情报分析、金融风险分析等。

2、应用路径

然而,由于开放知识融合的开放性和分散性,互联互通的知识内容和互联对象较为复杂。另外,开放知识应用场景对待融合的知识内容具有选择性和时效性要求。

概念模型整体分为两个阶段:构建阶段是根据场景需求,确认应用场景的开放知识需求,从本体模型到实体关系数据进行基础的知识图谱构建。其中,由于开放知识应用场景并非需要所有的知识内容,涉及多源知识进行合并、置信度检查、择优、抽取和清洗等。更新阶段是一个持续的阶段,可能贯穿应用场景的整过生命周期,涉及新开放知识的接入、已对接知识的更新,如:事件时间序列更新。

知识图谱互联互通可辅助开放知识融合及其应用场景的搭建,进而降低单场景知识图谱构建的复杂度和构建流程,大幅提升效率。可包括如下方面:

 提供开放知识服务:以往开放数据服务方式,通常基于处理好的结构化数据或者基于非结构化源数据等方式。如果将知识图谱互联互通应用于源数据侧,将简化应用场景的接入效率,节省大量的知识识别和抽取工作,也有利于知识的商业化。此外,当场景知识图谱构建完成,基于互联互通也可将场景知识进行对外服务。

辅助知识图谱构建:通过知识图谱互联互通,可在场景知识图谱构建过程中节省大量的接入工作。尤其是在达到标准化的情况下,此过程可能实现半自动化或全自动化。另外,由于开放知识可能分布在不同的领域,通过以知识为基础的互联互通,也可减少场景构建方的学习成本,避免错误和歧义的产生。

 辅助知识图谱更新:当作为源数据的开放知识图谱中发生实体、关系变化或本体模型更新时,通过互联互通可高效地实现关联场景知识图谱的同步更新,无需再次通过知识图谱构建流程。

3、应用价值

知识图谱互联互通在开放知识融合场景中的应用价值包括:首先,知识图谱互联互通提高了开放知识的可用性、复用性,可将不同来源的开放知识快捷地组织到知识图谱应用中,使不同知识能够共享和互通。  其次,知识图谱互联互通提高了开放知识的价值,可在不同来源的开放知识间建立联系并实现知识融合,也可形成一个跨系统和跨领域的知识网络。进而,使用户可以从多个知识源获得更丰富的知识,实现知识价值最大化。  此外,知识图谱互联互通有助于提高开放知识的准确性,可对不同来源的开放知识进行校验和验证,使用户就可以获得更可靠的知识,减少因错误知识造成的误导。

(三)知识溯源与可信验证(知识存证)

1、应用需求

随着社会的发展,各类信息素材的产生量及质量迅速提升,其中携带的海量知识在收集、存储、共享和应用过程中的来源识别和管理难度与日俱增。知识图谱互联互通不仅可以提升知识的获取效率,还可以准确地定位知识的来源,并记录知识流转过程。此外,知识图谱互联互通可应用于知识真实性的识别和可信程度验证,提高知识库的质量,保障知识图谱后续应用过程的安全性。

2、应用路径

知识溯源可有效地验证不同知识图谱间的信息流转完整性,并分析数据来源的准确性和可信度。以金融领域为例,知识图谱互联互通可通过知识溯源支撑反洗钱的资金溯源。各金融机构的交易知识图谱相互独立,由于隐私性和数据安全性要求,导致资金交易追踪可能无法实现。知识图谱互联互通后,可有效地查询多个知识图谱间资金的变动和流转情况,从而获得完整的资金流。同时,可对资金源头和流转状况进行分析和查询,实现有效的管控和风险预警。 可信验证即真实性验证,是指知识流动过程中对原始数据准确性和真实性的验证。在金融监管审计中,知识图谱互联互通的可信验证可以有效的帮助金融监管机构审计金融监管数据,有效的识别异常信息,确保监管数据的准确无误等。基于区块链的知识图谱互联互通示意图如图所示,可通过区块链技术串联多个知识图谱图谱,将知识上链存证并实现多个图谱间知识的互联互通。

应用区块链技术实现知识图谱互联互通时,各类知识图谱相互独立,但同时与同一条区块链交互。当某个知识图谱有新知识产生时,可及时将该知识发布上链。其他知识图谱则利用类似于区块链共识机制的算法对该知识进行准确性验证,并对验证通过的知识允许上链登记和追溯,对验证不通过的知识则予以驳回。当某个知识图谱需要对知识进行验证时,可将该知识发布至区块链上,其他知识图谱可通过区块链获取该知识,并结合自身知识图谱进行推理和验证。此外,对于纠正错误知识的纠错者,可利用区块链的激励机制进行Token 激励。

二、知识联合检索

(一)公安系统多中心协同检索

1、应用需求

各个层级公安系统在开展日常业务的过程中,采集汇聚了各种社会数据、互联网数据、其他政府部门数据以及内部数据。这些数据来源多,种类杂(多达上千类数据)、数据量大(PB 级别)、数据分散(分散在各个层级、各业务单位)。由于公安系统实行的是“条块结合、以块为主”的管理体制,而且出于部分业务数据私有保护的需要,无法做到大范围全量数据的统一汇聚、存储和利用。因此,形成了多数据中心的局面,难以发挥数据的最大效能。 在对复杂案件侦查时,需要在不同部门、不同数据中心查找数据后再人工进行关联分析,并经过多个重复的步骤才能形成完整的证据链。因此,亟需构建多数据中心的协同检索机制,基于各数据中心的海量多源异构数据构建统一的知识图谱。进而,支持跨中心的协同检索,实现在此基础上进行相关人员、事件、组织、时间、空间等多维度分析。用户只需在一个平台就能完成所有数据的关联挖掘分析,方便重点对象管理、风险预警和案件调查等业务的开展,提高公安部门侦查破案的效率。

2、应用路径

通过以统一本体模型为基础管理各中心数据,每个数据中心可独立部署运行,可在数据中心之间根据权限设置共享模型和数据种类。在多中心之间的本体模型保持一致的前提下,任一个数据中心均可发起本体模型修改请求,并由主中心审批各个分中心的修改请求。在主中心允许发布后,系统同步更新所有数据中心的本体模型。各个数据中心当需要把数据共享给其它中心访问时,可向管理系统注册数据并在获得共享许可后,供其它数据中心查看共享的数据。

多中心分布式服务分为服务端与客户端两个部分。其中,服务端也称为分布式配置中心,可作为一个独立的服务应用连接配置仓库,并为客户端提供获取配置信息、加密/解密信息等访问接口。客户端则是架构中的服务应用或基础设施,可通过指定的配置中心来管理应用资源与业务相关的配置内容,并在启动时从配置中心获取和加载配置信息。多中心检索的分布式结构中设置了一个服务注册监管中心。各中心通过部署级联管理模块,可基于分布式服务框架将本地服务资源目录统一注册。同时,自动同步异地的服务资源目录。在注册之后,实现管理数据通道和业务数据通道分离。各中心间通过管理数据通道调用服务后,即可通过点对点的方式进行具体的目标数据传输,避免单点瓶颈问题。

3、应用价值

通过构建统一知识图谱,支持跨中心协同检索不同公安部门数据,既保持各部门私有数据的相互隔离,又能实现组织内部知识共享和分析协同。主要实现方式是通过部署多套知识图谱应用,在多中心模式下的支持统一本体构建。在统一本体下支持不同中心访问和共享,从而实现中心间的数据既能隔离又能共享,支持多人、异地、跨部门的协同分享,碎片化的多源异构政务数据进行关联,以实体为基本单位对数据进行挖掘分析,揭示各实体间的复杂关系,实现知识层面的数据融合与集成,更大程度释放数据价值。

(二)金融系统跨机构联合检索

1、应用需求

伴随着网络技术的迅猛发展,传统犯罪加速向网上蔓延。目前,电信网络诈骗犯罪案件处于高发多发态势,形势依然严峻复杂,如何有效地应对和预防以电信网络诈骗为代表的新型网络犯罪,已成为社会生态治理的重大课题。而且,电信网络诈骗和跨境赌博犯罪的“资金链”治理已步入“深水区”,犯罪形式更加多样,呈现出隐蔽性、规模性、动态性的作案趋势。然而,单个金融机构或者运营商因不具备完整数据,无法进行有效的反欺诈打击,这就需要建立知识图谱间的互联互通,实现他们间的操作。

2、应用路径

基于图数据库技术的反欺诈方案能够有效发掘犯罪团伙主要是基于“物以类聚人以群分”这一社会型原理。即,同类的东西常聚在一起,志同道合的人相聚成群,反之就分开。欺诈团伙涉及的不仅是人与人、物与物之间的聚类群分,而且人与物之间也是紧密关联的。例如:不具备社交关系的人群之间不会轻易借手机(私人信息/物品)给对方,一旦借出即代表他们之间有着某些社会型关系,关系的桥梁/佐证就是该手机。以标签传播算法为例,基于“物以聚类人以群分”原理,即人以群分的底层社会学原理就是传染。志同道合的朋友既可以先天有相同的兴趣,也可以后天互相影响。在同一个社交网络里,或者该人群一开始就是同一类人,又或者他们互相影响,成为了同一类人。电信网络诈骗犯罪是一个链条式的犯罪,一旦已知某个账户为诈骗账户,多次频繁与该账户发生交易的账户也高概率为诈骗账户。根据给定账户与风险账户不同的交易频次、不同的交易链条长度,加以权重,可以辅助判断给定账户是诈骗账户的风险。无论犯罪嫌疑人怎么更新手段隐藏自己的个体账户特征,只要嫌疑账户与社会网产生联系,形成了交易网络,图技术利用知识图谱的互联互通就可以进行迅速地发掘。

3、应用价值

图数据库作为知识图谱互联互通的底层存储形式之一,以原生属性图(数据以实体和边的形式存储,并且实体和边上都支持属性)的方式存储数据,最大化地发挥原生属性图模型的免索引邻接。因此,每个顶点都相当于与它相邻的顶点维护一个微索引。这比使用全局索引的代价要小得多,也意味着查询时间和图的整体规模无关,只与它附近的顶点数量成正比。而且,使得业务查询不会像关系型数据库那样因为图的变大而同比例或指数级变慢,解决了与实时研判对查询需求的矛盾,提高了分析效率,降低了人工成本。 此外,图的深链分析、查询、计算效率能极大地提升诈骗全链条治理的实时性、有效性,解决专家规则3实效性、动态性不足的难点,较好地响应了《反电信网络诈骗法(草案二次审议稿)》中“依法收集用户信息,提升资金拦截时效”的要求。

三、知识发现

(一)热点发现/热点分析应用

1、应用需求

随着以智能手机为代表的移动互联网的普及,互联网和社交网络上的数据急速增长。据 IDC 报告,2022 年全球产生80ZB 的数据,每天产生数据 230EB 的数据,而且人们对数据的使用提出了开放化、个性化、自主化、扁平化的要求。从海量数据中分析出所关注的行业或者技术热点与发展态势,对抓住行业发展的重大战略机遇与构筑先发优势具有重要意义。 在热点技术研究中遇到如下困难:一是热点的粒度大小不一导致热点漏失。一般热点是与专业分类相连,但由于分类体系粒度过大,难以描述技术细节。后者存在一词多义或一义多词、词间缺乏语义关系等问题,会造成分析误差。此外,如果以词为基础进行热点聚类,粒度太小,语义刻画不准确。二是跨行业跨专业的热点相互隔绝,导致冷热不均。由于跨行业在内容上的隔离,导致了特定行业内的热点对其他行业的影响很小,无法发挥出行业之间协同的作用。

2、应用路径

通过将不同行业、不同领域、不同专业的知识图谱互联互通,将一个知识图谱中的热点转移到另外一个知识图谱中去,可以实现跨知识图谱的热点迁移。

(1)同一领域多层知识图谱的构建

工程领域通常是多专业多技术融合的领域,包含时间、空间、业务之间的复杂关联关系。如果将它们完全融合在一起进行知识图谱识别,则对语料标注和算法提出了严峻挑战,在工程上是不易实现。考虑到不同专业都有成熟的知识分类体系,因此将知识图谱按照专业进行分层,分别建立各专业的知识图谱,则在工程上是一个可行的方法。而且依据各专业人士对语料进行独立标注,能够保证语料的正确性。对于同样一组语料,每一层进行知识图谱构建。对于整个行业的知识图谱,可通过不同层次的知识图谱融合和互联互通实现,依据关联的概念定义,将不同层之间存在的实体进行关联填充。

(2)按领域进行热点识别和分析

热点作为一个事件或者功能,在知识图谱上通常表现为两点一线。但是由于热点具有偶然性,知识图谱并没有预先为热点位置,可将识别出的热点挂载到知识图谱的实体上。热点识别可以分为两种模式:出现频次较多的热点;刚刚进入分析视野的新热点。热点确认可按照热点从无到有的增长趋势进行热点识别,例如,按照时间分布具有突变性质的事件,可认为热点;而平稳增加的事件可不认为是热点。基于知识图谱间的互联互通可进一步分析更为完整的热点路径,并分析获取热点路径上的关联物。

(3)不同领域之间热点转移

由于热点出现的随机性,互联网、自媒体或者舆情现象所形成的热点容易淹没工程技术领域的热点。通过知识图谱的互联互通可进行热点转移,进而能够辅助激活和发现工程领域的热点。但是,由于知识图谱通常以使用者为中心进行构建,因此,当其他领域的热点传到另一领域关注的热点时,其热度还需按照离原图热点位置的距离进行适度衰减。

(4)同一领域热点知识图谱融合

当同一领域的知识图谱融合时,可将领域内不同专业的知识图谱统一集成融合至某一选定专业的知识图谱上,从而在形式上使图谱成为一个有机的整体结构。对于出现的热点,可以让使用者整体、全面了解其在整个知识图谱的位置和影响。

3、应用价值

行业知识图谱的互联互通实现了热点在不同图谱之间的传递,使得研究成果可在不用领域之间共享。热点往往代表了技术、资金、人才长期投入后获得的突变式关注,其背后的技术突破往往具有革命性、代表性。因此,热点在不同知识图谱之间的迁移,可以获得对本领域的最新认知,对于提高本领域的研究水平具有重要的意义。

(二)知识分析与推理

1、应用需求

随着企业知识图谱的不断扩展,实体和关系的数量快速增长,随之而来的问题就是图谱数据质量和完备性的保证。知识图谱的质量问题主要是指在图谱中存在错误的实体或关系数据,可能是引用的原始数据错误,也可能是构建时引入的问题。 知识图谱的不完备性主要是指图谱中的实体属性或关系缺失,可能是原始数据或抽取算法缺陷。同时,由于数据量巨大,知识图谱中潜在的关系和模式也变得模糊且难以探查。在这样的情况下,通过人工方式已经无法进行有效操作和处理,需要在多个知识图谱基础上使用统计分析、模式挖掘和逻辑推理等知识分析和推理技术,来满足不同的业务场景需求。

2、应用路径

在多个知识图谱上进行的分析和推理,根据数据实时性要求的不同,通常会以在线服务或离线计算的方式,将结果提供给上层应用。具体来说,在应用路径上可以分为两个方向:

(1)知识统计分析和特征提取

通过知识图谱间的互联互通,对多个知识图谱进行基础性查询、统计分析和图挖掘计算,例如实体关系检索、特征统计、关联分析、异常检测等。特征统计是指对图谱中单一节点、或多个节点的图特征以及属性特征进行统计计算的过程,包括出入度、中心性、相似度和社区检测。出入度主要是统计一个节点发出和接收到的边的数量,中心性是计算一个节点在图谱中的重要性和关键程度,相似性是计算一个节点和其他节点的相似度高低,社区检测是探查一个节点和其他节点的连通关系。

(2)知识的推理和新知识发现

基于知识图谱互联互通的推理与基础推理相同,是按照某种策略,根据已有的知识信息,推断出未知的事实或关系的过程,包括基于符号推理和基于统计的推理。 基于符号的推理包括基于本体的推理和基于规则的推理,前者包括概念的定义和分类,以及实例的推断等推理,后者是将规则应用于多个知识图谱,实现多知识图谱上新的关系推断以及基于多知识图谱的决策支持。可以被应用到业务领域概念定义和分类、数据的不一致检测和智能问答中的知识扩充等。 基于统计的推理包括模式归纳和实体关系学习,前者是从多知识图谱中挖掘概念的关系,后者是通过统计方法推断出两个实体之间的关系。可以应用于知识图谱补全、智能推荐等场景。

3、应用价值

通过对多知识图谱中实体关系的统计分析和模式识别,可以帮助分析人员对多知识图谱的网络特征有更加清楚的认识和了解,对于关键实体、关系和子图能够进行聚焦分析,利用图算法对潜在的模式进行探查。在金融领域中使用异常检测发现欺诈和风险交易,以及社区检测分析潜在利益集团。 此外,将已经建立的多知识图谱看作先验知识,通过少量高质量样本进行快速学习和整合,可以减少构建大规模高质量图谱的人力和时间成本。在故障诊断和根因分析中,可以基于多知识图谱的知识推理来降低知识图谱的稀疏性和不连通性,使得分析结果趋向于完备。

参考报告

知识图谱互联互通白皮书.pdf

知识图谱互联互通白皮书。知识资源是通过智力劳动发现和创造的,进入经济系统的人类知识。现今,知识已经成为社会变革的核心。每个人的发展、组织结构和形态的变化、社会生活方式,甚至包括人们的价值观念,都需要从工业时代机械的方式向有利于知识潜力的开发方式转变。知识不等同于信息,而是从噪音中分拣出来数据,转化为信息,升级为知识。这是信息从无序到有序的管理和分类过程1(图1-1)。在广义上,数据要素包括知识资产和知识要素等,在数据驱动时代,数据要素的价值越来越被重视。通过收集、存储和分析数据,可以发现其中的模式、趋势和关联性,进而提取知识并应用于实际问题中。知识资产和知识要素在数据中扮演着重要的角色,帮助组...

查看详情
相关报告
我来回答