公开/公告号CN113032532A
专利类型发明专利
公开/公告日2021-06-25
原文格式PDF
申请/专利权人 杭州未名信科科技有限公司;浙江省北大信息技术高等研究院;
申请/专利号CN202110561940.8
申请日2021-05-21
分类号G06F16/33(20190101);G06F16/31(20190101);G06F40/284(20200101);G06F40/216(20200101);G06F40/30(20200101);G16H70/00(20180101);
代理机构11619 北京辰权知识产权代理有限公司;
代理人谷波
地址 311200 浙江省杭州市萧山区宁围街道钱江世纪公园C区1幢101室
入库时间 2023-06-19 11:35:49
技术领域
本申请涉及数据处理技术领域,更为具体来说,本申请涉及基于健康医疗大数据标准库的多源数据处理方法与系统。
背景技术
医学是数据密集型行业,无论是公共卫生、临床医疗服务、以及医学研究都离不开基于数据进行循证的支撑。但我国医疗体系复杂庞大,健康医疗数据来源多样而复杂。健康医疗数据可能来源于医疗服务过程中实际医疗业务流程产生的临床数据,或是医学研究中严格设计并主动收集的医学研究数据,也可能是来源于政府发布的公共卫生数据或者互联网和社会媒体产生的健康数据信息。健康医疗数据具有多源、异构、非统一等数据特性,数据结构复杂,这些复杂的多源异构数据,在数据的质量、标准化、可用性等方面差异很大,这严重限制了健康医疗大数据的共享、整合和进一步的数据处理与利用。目前,国家已针对健康医疗大数据的整合利用出台过相关健康医疗大数据的数据标准规范,健康医疗数据在投入正式的医学研究与应用前需要根据不同的研究应用目的,对不同来源的数据进行标准化转换与整合。
现有的多源健康医疗大数据的数据处理主要依赖于人工识别数据结构并建立源数据与标准数据库之间的映射关系。这种标准化转换方式不仅处理效率低,不适用于大规模多源数据的整合,而且对标准化转换的人员有较高的要求,不仅需要有专业的医学背景可以准确判断源数据与标准数据库之间的映射关系,而且需要有专业的数据处理技术。减少对人工操作的依赖,提升对健康医疗多源数据处理的效率,是亟待解决的问题。
因此,本申请提出基于健康医疗大数据标准库的多源数据处理方法与系统,以至少部分地解决上述技术问题。
发明内容
为实现上述技术目的,本申请提供了一种基于健康医疗大数据标准库的多源数据处理方法,包括以下步骤:
获得大数据标准库和源数据模式库,所述大数据标准库和源数据模式库均包括数据库-数据表-数据元结构;
计算源数据模式库内数据元与大数据标准库内数据元之间的第一相似度和第一映射关系,基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度,基于所述第一映射关系得到数据元映射关系库;
计算源数据模式库内数据表与大数据标准库内数据表之间的第三相似度和第二映射关系,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度,基于所述第二映射关系得到数据表映射关系库;
基于第二相似度和第四相似度校正所述数据元映射关系库;
根据校正后的数据元映射关系库得到数据元值域映射关系库。
具体地,基于所述第一映射关系得到数据元映射关系库,具体包括:
对于源数据模式库内的每一个数据元,通过循环遍历算法,计算该数据元与大数据标准库内的每一个数据元的第一相似度;
将第一相似度最高且超过一定限值的标准库内的数据元作为该源数据模式库内的该数据元的匹配数据元,将每一个源数据模式库内的数据元与其匹配数据元均建立一条第一映射关系,得到数据元映射关系库。
具体地,所述第一相似度包括数据元类型相似度S
基于第一相似度的最大值和最小值进行归一化处理,按照其重要性分别给予相应的权重,将5个相似度加权累加为所述第二相似度
其中,C
进一步地,对于数据元值域相似度,如果数据元值域为数组形式,数组内包含该数据元可能取值的上下限,数组形式的数据元值域相似度为两个数据元的值域范围的重叠程度,其计算方法为:
其中,low和high分别代表下限和上限,a和b代表源数据模式库内数据元和标准库内数据元。
进一步地,所述第三相似度包括数据表名称相似度和数据表中含数据元的相似度,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度具体包括:
采用语义相似性度量算法计算数据表名称相似度;
计算数据表中含数据元的相似度,等于
将所述数据表名称相似度和所述数据表中含数据元的相似度加权累加为所述第四相似度。
优选地,基于第二相似度和第四相似度校正所述数据元映射关系库,包括:通过归一化处理与相似度加权累加获得最终值,再依所述最终值更新所述数据元映射关系库。
优选地,根据校正后的数据元映射关系库得到数据元值域映射关系库,包括:当大数据标准库内数据元存在枚举类值域时,采用显式语义分析算法首先将术语表示为高维向量,每个向量条目表示为TF-IDF权重形式,其中TF代表词频,IDF代表逆文档频率。
进一步地,所述高维向量之间的相似度采用向量之间的余弦测度,方法为:
其中,A和B分别表示高维向量A和高维向量B,
本方明第二方面提供了一种基于健康医疗大数据标准库的多源数据处理系统,所述系统包括数据输入模块、数据处理模块和数据输出模块,所述输入模块用于输入数据;所述数据处理模块用于获取所述基于健康医疗大数据标准库的多源数据处理方法的所述数据表映射关系库、所述数据元映射关系库和所述数据元值域映射关系库;所述输出模块用于输出数据。
本方明第三方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如下步骤:
获得大数据标准库和源数据模式库,所述大数据标准库和源数据模式库均包括数据库-数据表-数据元结构;
计算源数据模式库内数据元与大数据标准库内数据元之间的第一相似度和第一映射关系,基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度,基于所述第一映射关系得到数据元映射关系库;
计算源数据模式库内数据表与大数据标准库内数据表之间的第三相似度和第二映射关系,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度,基于所述第二映射关系得到数据表映射关系库;
基于第二相似度和第四相似度校正所述数据元映射关系库;
根据校正后的数据元映射关系库得到数据元值域映射关系库。
本申请的有益效果为:本发明的基于健康医疗大数据标准库的多源数据处理方法与系统,可减少在数据处理时对人工操作的依赖,提升对健康医疗多源数据处理的效率。改善现有的依赖专业人士进行人工数据结构识别与标准化转换的不足,有效降低多源健康医疗大数据的标准化转换门槛,提高大规模多源健康医疗大数据的标准化转换效率,从而推动健康医疗大数据的共享整合与深度利用。
附图说明
图1示出了本申请实施例1的方法流程示意图;
图2示出了本申请实施例2的方法流程示意图;
图3示出了本申请实施例3的系统结构示意图;
图4示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
实施例1:
本实施例实施了一种基于健康医疗大数据标准库的多源数据处理方法,如图1所示,包括以下步骤:
获得大数据标准库和源数据模式库,所述大数据标准库和源数据模式库均包括数据库-数据表-数据元结构;
计算源数据模式库内数据元与大数据标准库内数据元之间的第一相似度和第一映射关系,基于所述第一相似度得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度,基于所述第一映射关系得到数据元映射关系库;
计算源数据模式库内数据表与大数据标准库内数据表之间的第三相似度和第二映射关系,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度,基于所述第二映射关系得到数据表映射关系库;
基于第二相似度和第四相似度校正所述数据元映射关系库;
根据校正后的数据元映射关系库得到数据元值域映射关系库。
具体地,基于所述第一映射关系得到数据元映射关系库,具体包括:
对于源数据模式库内的每一个数据元,通过循环遍历算法,计算该数据元与大数据标准库内的每一个数据元的第一相似度;
将第一相似度最高且超过一定限值的标准库内的数据元作为该源数据模式库内的该数据元的匹配数据元,将每一个源数据模式库内的数据元与其匹配数据元均建立一条第一映射关系,得到数据元映射关系库。
具体地,所述第一相似度包括数据元类型相似度S
基于第一相似度的最大值和最小值进行归一化处理,按照其重要性分别给予相应的权重,将5个相似度加权累加为所述第二相似度
其中,C
进一步地,对于数据元值域相似度,如果数据元值域为数组形式,数组内包含该数据元可能取值的上下限,数组形式的数据元值域相似度为两个数据元的值域范围的重叠程度,其计算方法为:
其中,low和high分别代表下限和上限,a和b代表源数据模式库内数据元和标准库内数据元。
进一步地,所述第三相似度包括数据表名称相似度和数据表中含数据元的相似度,基于所述第三相似度得到源数据模式库内数据表与大数据标准库内数据表之间的第四相似度具体包括:
采用语义相似性度量算法计算数据表名称相似度;
计算数据表中含数据元的相似度,等于
将所述数据表名称相似度和所述数据表中含数据元的相似度加权累加为所述第四相似度。
优选地,基于第二相似度和第四相似度校正所述数据元映射关系库,包括:通过归一化处理与相似度加权累加获得最终值,再依所述最终值更新所述数据元映射关系库。
优选地,根据校正后的数据元映射关系库得到数据元值域映射关系库,包括:当大数据标准库内数据元存在枚举类值域时,采用显式语义分析算法首先将术语表示为高维向量,每个向量条目表示为TF-IDF权重形式,其中TF代表词频,IDF代表逆文档频率。
进一步地,所述高维向量之间的相似度采用向量之间的余弦测度,方法为:
其中,A和B分别表示高维向量A和高维向量B,
实施例2:
本实施例实施了一种基于健康医疗大数据标准库的多源数据处理方法,如图2所示,包括以下步骤:
第一步,获得健康医疗大数据标准库和健康医疗数据源数据模式库,健康医疗大数据标准库和源数据模式库均为数据库-数据子表-数据元结构,并详细给定了每个数据元的所属数据子表、数据元名称、数据元类型、数据元描述、值域和单位等数据元信息。
第二步,源数据模式库数据元映射。
对于源数据模式库内的每一个数据元,通过循环遍历算法,计算该数据元与大数据标准库内的每一个数据元的相似度,相似度最高且超过一定限值的大数据标准库内的数据元为该源数据模式库内的数据元的匹配数据元,一个源数据模式库内的数据元与其匹配数据元建立一条映射关系,最终得到数据元映射关系库。源数据模式库内的数据元与大数据标准库内的数据元的相似度计算采用相似度加权累加算法,具体包括:
数据元类型相似度S
数据元名称相似度S
其中信息量IC(a)为概念a现概率的负log函数值:
数据元描述相似度S
数据元值域相似度S
其中,low和high分别代表下限和上限。
对于两个date类型的数据元,数据元相似度的计算方式与两个数值类型的数据元的相似度计算方式类似。对于以上两种情况以外的数据元,其相似度按照0计算。
数据元单位相似度S
对数据元类型相似度S
按照其重要性程度分别给予适当的权重C
第三步,源数据模式库数据表映射。
对于源数据模式库内的每一个数据表,同样通过循环遍历算法计算该数据表与大数据标准库内的每一个数据表的相似度,相似度最高且超过一定限值的大数据标准库内的数据表为该源数据模式库内的数据表的匹配数据表,一个源数据模式库的数据表与其匹配数据表建立一条映射关系,最终得到数据表映射关系库。源数据模式库内的数据表与大数据标准库内的数据表的相似度计算同样采用相似度加权累加算法,包括数据表名称相似度和数据表中含数据元的相似度:
数据表名称相似度的计算,与数据元名称相似度计算方法类似,采用语义相似性度量算法计算两个数据表名称的相似度,相似度的度量单位为Lin_similarity(简写为S)。
数据表中含数据元的相似度计算:根据在第二步中得到的源数据模式库内的数据元与其匹配数据元建立的映射关系库,计算两个数据表包含数据元相似度,两个数据表共同涉及的数据元映射关系数越大,两个数据表的相似度越高,等于
第四步,数据元映射校正。
依据第二步中得到的源数据模式库内数据元与大数据标准库内数据元之间的相似度,及第三步中得到源数据模式库内数据元与大数据标准库内数据元之间的第二相似度,通过归一化处理与相似度加权累加获得最终值,再依所述最终值更新所述数据元映射关系库。
第五步,数据元值域映射。
在第四步更新过的数据元映射关系库的基础上,对于具有映射关系的源数据模式库数据元和标准数据库数据元,若标准数据库中该数据元存在枚举类值域,则采用NLP中显式语义分析算法(Explicit Semantic Analysis,ESA),对两个数据元的枚举类值域进行相似度匹配,得到数据元值域映射关系库。例如:ESA相似度的计算基于维基百科的技术将术语表示为高维向量,每个向量条目表示该术语和一篇维基百科文章之间的TF-IDF权重,其中TF代表词频,IDF代表逆文档频率。TF-IDF(term frequency–inverse documentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency),IDF是逆文档频率(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF表示词条在文档中出现的频率,而IDF的主要思想是,如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
所述TF-IDF权重的计算方法为:
其中,t
其中,A和B分别表示高维向量A和高维向量B,
实施例3:
本实施例实施了一种基于健康医疗大数据标准库的多源数据处理系统,如图3所示,所述系统包括:数据输入模块501、数据处理模块502和数据输出模块503,所述输入模块用于输入数据;所述数据处理模块用于获取前述实施方式中的所述数据表映射关系库、所述数据元映射关系库和所述数据元值域映射关系库;所述输出模块用于输出数据。进一步地,所述系统可配置为健康医疗大数据标准库。
本申请实施方式还提供一种与前述实施方式所提供的基于健康医疗大数据标准库的多源数据处理方法对应的计算机可读存储介质,请参考图4,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于健康医疗大数据标准库的多源数据处理方法。
所述计算机可读存储介质的例子还可以包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
机译: 带有特定排序功能的基于信息管理和实时同步通讯软件的应用系统,该系统是多种类型的计算机同步生态系统的组成部分,该系统通过混合的非PC标准显示尺寸,并在一个数据库中以均匀的方式在一个视点上显示了一个基于数据库的显示。中央位置
机译: 在基于注释的标准下,将共享标准期望计算库用于实现合规性测试的系统和方法
机译: 使用共享标准期望计算库以基于注释的标准实施一致性测试的系统和方法