首页> 中国专利> 一种确定智力障碍基因的平台、方法、计算机设备和介质

一种确定智力障碍基因的平台、方法、计算机设备和介质

摘要

本申请提供了一种确定智力障碍基因的平台、方法、计算机设备和介质,该平台包括数据获取模块、数据处理模块和基因展示模块;所述数据获取模块,用于获取目标患者的临床表型数据和候选致病基因数据;将所述临床表型数据和所述候选致病基因数据输入至数据处理模块;所述数据处理模块,用于将接收到的所述临床表型数据和所述候选致病基因数据输入至致病基因确定模型,确定出所述候选致病基因数据中的目标致病基因数据;将所述目标致病基因数据输入至基因展示模块;所述基因展示模块,用于对接收到的目标致病基因数据进行展示。

著录项

  • 公开/公告号CN112863605A

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利号CN202110152883.8

  • 发明设计人 朱丽娜;马秀伟;杨晓;封志纯;

    申请日2021-02-03

  • 分类号G16B40/00(20190101);G16B45/00(20190101);G16B50/30(20190101);G16B20/00(20190101);

  • 代理机构11463 北京超凡宏宇专利代理事务所(特殊普通合伙);

  • 代理人刘凤

  • 地址 100700 北京市东城区南门仓5号

  • 入库时间 2023-06-19 11:06:50

说明书

技术领域

本发明涉及智力障碍基因和表型数据处理技术领域,具体而言,涉及一种确定智力障碍基因的平台、方法、计算机设备和介质。

背景技术

智力障碍又称精神发育迟滞,主要是由中枢神经系统发育异常引起的并可能伴有代谢紊乱等症状的复杂性疾病,患者通常在18岁以前表现出智力和行为等方面的明显缺陷,人群中发病率为1%至3%,已成为一个世界范围的社会问题。

人们为了进一步探索智力障碍的遗传机制,已经开展了大量的研究工作,也发现了更多与智力障碍相关的致病基因,同时也获得了大量的相关基因的临床表型数据。但是,对于未知致病基因的患者想要找到其致病基因往往依赖于研究人员的经验分析费时费力,而且找到的目标致病基因并不准确。

发明内容

有鉴于此,本发明的目的在于提供一种确定智力障碍基因的平台、方法、计算机设备和介质,能够提高现有技术中确定目标致病基因的准确度。

第一方面,本申请实施例提供了一种确定智力障碍基因的平台,所述平台包括数据获取模块、数据处理模块和基因展示模块;

所述数据获取模块,用于获取目标患者的临床表型数据和候选致病基因数据;将所述临床表型数据和所述候选致病基因数据输入至数据处理模块;

所述数据处理模块,用于将接收到的所述临床表型数据和所述候选致病基因数据输入至致病基因确定模型,确定出所述候选致病基因数据中的目标致病基因数据;将所述目标致病基因数据输入至基因展示模块;

所述基因展示模块,用于对接收到的目标致病基因数据进行展示。

可选的,所述平台还包括:

数据库模块,用于存储智力障碍相关文献,和致病基因数据与临床表型数据的关联关系;其中,所述致病基因数据与临床表型数据的关联关系是根据所述智力障碍相关文献确定的。

可选的,所述平台还包括:

查询模块,用于根据所述目标致病基因数据在数据库模块中找到所述目标致病基因数据对应的目标资料;所述目标资料包括与所述目标治病基因相关的所述智力障碍相关文献。

可选的,所述致病基因确定模型的训练过程包括:

获取训练样本集;所述训练样本集中包括至少一个训练样本,该训练样本中包括正样本和负样本;所述正样本由已知致病基因的患者的表型和致病基因之间的关联数据组成;所述负样本由已知致病基因患者的临床表型和数据库中与所述已知致病基因患者的临床表型相似度最低的基因之间的关联数据组成;

针对所述训练样本集,利用机器学习算法进行训练获得致病基因确定模型。

可选的,所述致病基因数据与临床表型数据的关联关系通过以下步骤确定:

针对每个智力障碍相关文献,确定该文献中的所述致病基因数据和与所述致病基因数据对应的临床表型数据;

针对每个致病基因数据,统计与所述致病基因数据对应的每个临床表型数据;

针对每个致病基因数据,根据与所述致病基因数据对应的每个临床表型以及表型之间的公共祖先之间的关系,确定所述致病基因数据和对应的每个临床表型数据之间的关联关系。

第二方面,本申请实施例提供了一种确定智力障碍基因的方法,所述方法包括:

获取目标患者的临床表型数据和候选致病基因数据;

将所述临床表型数据和所述候选致病基因数据输入至致病基因确定模型,确定出所述候选致病基因数据中的目标致病基因数据;

对目标致病基因数据进行展示。

可选的,所述方法还包括:

根据所述目标致病基因数据在数据库中查找所述目标致病基因数据对应的目标资料;其中,所述数据库中存储智力障碍相关文献,和致病基因数据与临床表型数据的关联关系;所述致病基因数据与临床表型数据的关联关系是根据所述智力障碍相关文献确定的;

对所述目标资料进行展示。

可选的,所述方法还包括,所述致病基因数据与临床表型数据的关联关系通过以下步骤确定:

针对每个智力障碍相关文献,确定该文献中的所述致病基因数据和与所述致病基因数据对应的临床表型数据;

针对每个致病基因数据,统计与所述致病基因数据对应的每个临床表型数据;

针对每个致病基因数据,根据与所述致病基因数据对应的每个临床表型以及表型之间的公共祖先之间的关系,确定所述致病基因数据和对应的每个临床表型数据之间的关联关系。

第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如所述方法的步骤。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如所述方法的步骤。

本申请实施例提出的确定智力障碍基因的平台首先通过数据获取模块获取目标患者的临床表型数据和候选致病基因数据;然后将临床表型数据和候选致病基因数据输入至数据处理模块中的致病基因确定模型中,通过致病基因确定模型可以高效地从候选致病基因数据中确定出目标致病基因数据;通过目标致病基因数据与所述临床表型数据之间的关联关系就可以准确判断出其与目标患者的致病机制,提高了找到目标患者致病基因数据的准确度。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种确定智力障碍基因的平台的流程示意图;

图2示出了本发明实施例所提供的一种确定致病基因确定模型的流程示意图;

图3示出了本发明实施例所提供的一种确定智力障碍基因的方法的流程示意图;

图4示出了本发明实施例所提供的一种计算机程序的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

在现有技术中,针对未知致病基因的患者若找到对应的致病基因往往依赖于研究人员大量的分析工作费时费力,而且找到的目标致病基因准确度不高。

基于上述缺陷,本申请实施例提供了一种确定智力障碍基因的平台,如图1所示,所述平台包括数据获取模块101、数据处理模块102和基因展示模块103;

所述数据获取模块101,用于获取目标患者的临床表型数据和候选致病基因数据;将所述临床表型数据和所述候选致病基因数据输入至数据处理模块102;

所述数据处理模块102,用于将接收到的所述临床表型数据和所述候选致病基因数据输入至致病基因确定模型,确定出所述候选致病基因数据中的目标致病基因数据;将所述目标致病基因数据输入至基因展示模块;

所述基因展示模块103,用于对接收到的目标致病基因数据进行展示。

在上述数据获取模块101中,首先需要获取目标患者的临床表型数据和候选致病基因数据。其中,目标患者可以是未知致病基因的患者。所述临床表型数据可以是以HPO(human phenotype ontology)数据库中的表型信息为参照进行标准化处理的一组数据列表,例如:HP:0008897;HP:0011927;HP:0045027。其中,HPO数据库提供了人类疾病中遇到的表型异常的标准化词汇表;HP:0008897;HP:0011927;HP:0045027分别为HPO数据库中的标准化词汇表中的一种表型异常类型。所述候选致病基因数据可以是以HGNC(HUGO GeneNomenclature Committee)数据库中的基因名信息为参照进行标准化处理的一组数据列表,例如:ZDHHC9;Hypotonia;LongFace。其中,HGNC数据库提供了人类基因命名的标准化信息;ZDHHC9为锌手指基因的唯一标识名称;Hypotonia为肌张力减退基因的唯一标识名称;Longface为面部伸长基因的唯一标识名称。将获取到目标患者的临床表型数据列表和候选致病基因数据列表输入至数据处理模块102中,就可以对候选基因列表中的每一个候选致病基因进行致病性分析。

在数据处理模块102中,首先需要将获取到的目标患者的临床表型数据和候选致病基因数据输入至致病基因确定模型中,然后通过致病基因确定模型就可以从候选致病基因数据中确定出目标致病基因数据。其中,致病基因确定模型基于已知的智力障碍患者的致病基因和表型信息的先验知识进行构建,可以根据目标患者的临床表型数据对候选致病基因数据的致病性进行评估,从而达到对患者可能的致病基因进行预先判定。目标致病基因数据是通过致病基因确定模型从候选致病基因数据中筛选出的与目标患者的表型信息关联度较高的基因数据。通过致病基因模型对候选致病基因与目标患者的临床表型数据的相似度的分析,可以对候选基因致病性进行评估,并输出评估结果。评估结果中包含有候选致病基因与目标患者的临床表型数据的相似度分值,相似度分值越高,候选致病基因的致病性越高,所以致病基因模型可以准确地从候选致病基因数据中找到与目标患者的临床表型数据存在致病关系的目标致病基因数据。具体地,如图2所示,在数据处理模块102中,所述致病基因确定模型的训练过程包括以下步骤:

S201,获取训练样本集;所述训练样本集中包括至少一个训练样本,该训练样本中包括正样本和负样本;所述正样本由已知致病基因的表型和其致病基因关联数据组成;所述负样本由已知致病基因患者的表型与数据库中与其相似度最低的基因之间的关联数据组成;

S202,基于所述训练样本集,利用机器学习算法进行训练获得致病基因确定模型。

在上述步骤S201中,首先需要获取训练样本集。训练样本集包含有标准化处理后的智力障碍患者的已知致病基因数据和临床表型数据。所述智力障碍患者的已知致病基因数据和临床表型数据可以来源于各个平台已报道病例的文献信息,但是各个平台的文献信息数据形式不一,并且分布相对比较分散,所以需要将其进行标准化处理,具体地针对文献信息数据形式不一进行标准化处理以获取智力障碍患者的已知致病基因数据和临床表型数据的处理过程包括以下步骤:

步骤2011,通过人工查阅的方式找出文献中出现的患者表型信息,然后再和HPO数据库进行字符相似性匹配,人工调整为HPO标准化表型描述;

步骤2012,根据文献中样本的描述,记录样本家系样本的临床表型、基因名、突变信息等文献中出现的基本信息;

步骤2013,通过人工查阅的方式找出文献中出现的基因名信息,从HGNC数据库中获取基因的相关描述信息,例如基因的别名、染色体定位等;

步骤2014,基于找到的基因名信息,从GO和KEGG数据库中获取这些基因对应的生物学功能和通路信息。其中,GO(Gene Ontology)基因本体论数据库提供了有关基因功能的信息数据;KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因与基因组数据库提供了基因的计算机表示信息。

通过步骤2011至步骤2014,可以对数据形式不一,并且分布相对比较分散的文献数据进行标准化处理并存储,可以帮助研究者快速地查询查询智力障碍相关的基因或者表型,对后续的智力障碍研究有很大的意义。

通过采集标准化处理后的智力障碍患者的已知致病基因数据和临床表型数据就可以构建出训练样本集。其中,所述训练样本集中包括至少一个训练样本,该训练样本中包括正样本和负样本。将已知致病基因的患者表型和其致病基因关联数据组成正样本;将已知致病基因患者的表型与数据库中与其相似度最低的基因之间的关联数据组成负样本;其中,临床表型数据和致病基因数据可以通过ERIC_Sim,ERIC_Norm,Resnik_Sim,Lin_Sim和JC_Sim共5种方法计算相似度,这些方法均基于图的拓扑结构信息来衡量任意两个对象间相似程度,核心思想为:如果两个对象和被其相似的对象所引用,那么这两个对象也相似。

最后通过步骤S202基于上述训练样本集,利用机器学习算法进行训练获得致病基因确定模型。

在上述步骤S202中,机器学习算法可以为支持向量机算法(Support VectorMachine,SVM)和梯度提升决策树模型算法(Extreme Gradient Boosting Decision Tree,XGBoost)。

通过训练好的致病基因确定模型,根据目标患者的临床表型数据就可以对候选致病基因数据进行致病性评估,通过评估结果可以准确地从候选致病基因数据中确定目标致病基因数据,找到与目标患者致病性关联度较高的致病基因数据。在获取到目标致病基因数据后,会通过基因展示模块103进行展示,方便研究人员进行分析处理。

在上述基因展示模块103中,可以采用列表的方式对目标数据进行展示。其中,可以对目标致病基因数据包含中的致病性分值、致病可能性、与表型的相似度排名等数据进行展示。通过对致病性分值、致病可能性、与表型的相似度排名等数据的展示可以直观地判断出目标致病基因数据与目标患者临床表型数据之间的致病关系,提高了确定致病基因数据的准确度。

可选的,本申请实施例提供的确定智力障碍基因平台还包括:

数据库模块,用于存储智力障碍相关文献,和致病基因数据与临床表型数据的关联关系;其中,所述致病基因数据与临床表型数据的关联关系是根据所述智力障碍相关文献确定的。

在数据库模块104具体实施时,基于从标准化处理后的文献中提取出患者已知的致病基因信息和表型信息,通过信息之间的相似性计算可以分析出致病基因信息和表型信息存在的关联关系。具体地,在数据库模块104中基于文献分析基因与表型之间的关联关系包括以下步骤:

步骤1041,针对每个智力障碍相关文献,确定该文献中的所述致病基因数据和与所述致病基因数据对应的临床表型数据。

步骤1042,针对每个致病基因数据,统计与所述致病基因数据对应的每个临床表型数据。

步骤1043,针对每个致病基因数据,根据与所述致病基因数据对应的每个临床表型以及表型之间的公共祖先之间的关系,确定所述致病基因数据和对应的每个临床表型数据之间的关联关系。

在上述步骤1041中,基于每个智力障碍相关文献,可以确定出致病基因数据和其对应的临床表型数据,但是一个致病基因数据可能会包含多个临床表型数据,所以我们需要通过步骤1042,统计与所述致病基因数据对应的每个临床表型数据。通过步骤1043,针对每个致病基因数据,可以根据不同临床表型以及表型之间的公共祖先之间的关系来评估两个表型之间的相关性,构建表型共表达网络。通过将表型共表达网络可以准确分析出致病基因数据与每个临床表型数据之间的关联关系。

本申请通过数据库模块存储智力障碍疾病相关的已报道的文献资料,并从中分析基因和表型信息之间存在的关联关系,有利于研究人员从基因和表型信息之间存在的关联关系中发现智力障碍疾病的致病机制,辅助研究人员或者医生快速寻找到可能的致病基因,并根据相似的已报道的患者的治疗方法、复发状况制定个性化的治疗方法,有效提高患者的治疗效果。

可选的,基于数据库模块,本申请还可以根据致病基因确定模型在候选致病基因数据中筛选出与目标患者临床表型数据存在致病关系的目标致病基因数据,通过对目标致病基因数据的相关分析可以更好地了解目标患者的致病机制。具体地,本申请还提供了一个查询模块,通过所述查询模块,根据目标致病基因数据可以在在数据库模块中找到所述目标致病基因数据对应的目标资料;所述目标资料包括与所述目标治病基因相关的所述智力障碍相关文献,以给研究人员提供数据支持,为后期疾病的诊断与研究提供参考依据。

具体地,在查询模块中,可以根据目标致病基因数据数据库模块中找到对应的目标资料。其中,所述资料可以包括与所述目标治病基因相关的所述智力障碍相关文献也可以包括目标致病基因数据的基本基因信息和报告的变异信息;与目标致病基因数据相关的表型信息;与目标致病基因数据相关的患者信息;与目标致病基因数据相关的功能注释信息和通路信息。通过获取与目标致病基因数据相对应的资料可以进一步对目标致病基因数据的致病性进行分析,提高了目标患者确定致病基因数据的准确度,更深入地了解目标患者的致病机制。

本申请首先通过数据获取模块101获取目标患者的临床表型数据和候选致病基因数据;然后将临床表型数据和候选致病基因数据输入至数据处理模块102中的致病基因确定模型中,通过致病基因确定模型就可以从候选致病基因数据中确定出目标致病基因数据;通过目标致病基因数据与所述临床表型数据之间的关联关系就可以准确判断出其与目标患者是否存在致病性关性,提高了找到目标患者针对性的致病基因的准确度。最后,通过会通过基因展示模块103进行展示,方便研究人员进行分析处理,以提高数据支持和基因表型关联关系研究。

第二方面,本申请实施例提供了一种确定智力障碍基因的方法,如图3所示,所述方法包括:

S301,获取目标患者的临床表型数据和候选致病基因数据。

S302,将所述临床表型数据和所述候选致病基因数据输入至致病基因确定模型,确定出所述候选致病基因数据中的目标致病基因数据。

S303,对目标致病基因数据进行展示。

可选的,所述方法还包括:

根据所述目标致病基因数据在数据库中查找所述目标致病基因数据对应的目标资料;其中,所述数据库中存储智力障碍相关文献,和致病基因数据与临床表型数据的关联关系;所述致病基因数据与临床表型数据的关联关系是根据所述智力障碍相关文献确定的;

对所述目标资料进行展示。

可选的,所述方法还包括,所述致病基因数据与临床表型数据的关联关系通过以下步骤确定:

针对每个智力障碍相关文献,确定该文献中的所述致病基因数据和与所述致病基因数据对应的临床表型数据;

针对每个致病基因数据,统计与所述致病基因数据对应的每个临床表型数据的出现次数;

针对每个致病基因数据,根据与所述致病基因数据对应的每个临床表型数据的出现次数,确定所述致病基因数据和对应的每个临床表型数据之间的关联关系。

本申请实施例提供的一种确定智力障碍基因的方法,首先通过获取目标患者的临床表型数据和候选致病基因数据;将所述临床表型数据和所述基因数据输入至致病基因确定模型,通过致病基因确定模型就可以准确地筛选出所述候选致病基因数据中的目标致病基因数据;并将目标致病基因数据进行展示,这样,可以帮助研究者快速查询智力障碍相关的基因或者表型,对后续的智力障碍研究有很大的意义。而且,通过分析目标致病基因数据和目标患者的临床表型数据的之间的关联关系就可以判断出其与目标患者是否存在致病性关系,提高了确定目标致病基因的准确度。

对应于图3中的方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402用于执行上述计算机程序时实现上述一种确定智力障碍基因的方法。

具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述一种确定智力障碍基因的方法,解决了现有技术中确定致病基因准确度不高的问题。

对应于图3中的一种确定智力障碍基因的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述一种确定智力障碍基因的方法的步骤。

具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述一种确定智力障碍基因的方法,解决了现有技术中针对未知致病基因的患者若想要找到致病基因需要依赖研究人员大量的分析工作,并且找到的致病基因准确度不高的问题,本申请通过致病基因确定模型确定出目标致病基因数据,通过目标致病基因数据与目标患者的临床表型数据之间的关联关系就可以判断出其与目标患者是否存在致病性关系,降低了人力成本而且提高了找到致病基因的准确度。在本发明所提供的实施例中,应该理解到,所揭露平台和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号