首页> 中国专利> 面向组学汇总数据的知识解读引擎系统

面向组学汇总数据的知识解读引擎系统

摘要

本发明公开了一种面向组学汇总数据的知识解读引擎系统。包括本体化与分子网络知识库(3)、人机交互模块(4)、基于生物医学本体化知识解读主引擎(1)和基于生物分子关系网络知识解读主引擎(2);本体化与分子网络知识库用于提供适用于基因、SNP、基因间区域和蛋白结构域的组学汇总数据类型知识解读的数据集;基于生物医学本体化知识解读主引擎和基于生物分子关系网络知识解读主引擎用于从人机交互模块处接收用户输入,依据本体化与分子网络知识库提供的数据对用户输入的组学汇总数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块。本发明的知识解读引擎系统能帮助生物医学领域科研人员便捷地解读数据。

著录项

  • 公开/公告号CN116631518A

    专利类型发明专利

  • 公开/公告日2023-08-22

    原文格式PDF

  • 申请/专利权人 上海交通大学医学院附属瑞金医院;

    申请/专利号CN202310672583.1

  • 发明设计人 方海;包超慧;王珊;江璐璐;

    申请日2023-06-08

  • 分类号G16B40/00(2019.01);G16B45/00(2019.01);G16B20/20(2019.01);

  • 代理机构上海伯瑞杰知识产权代理有限公司 31227;

  • 代理人孟旭彤

  • 地址 200025 上海市黄浦区瑞金二路197号

  • 入库时间 2024-01-17 01:23:59

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-08

    实质审查的生效 IPC(主分类):G16B40/00 专利申请号:2023106725831 申请日:20230608

    实质审查的生效

  • 2023-08-22

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及生物信息学数据知识解读技术,尤其涉及一种面向组学汇总数据的知识解读引擎系统。

背景技术

新一代基因组学研究产生了复杂的原始基因组数据,这些数据可以简化为可进行实时分享和挖掘的组学汇总数据。一般情况下,我们将基因组汇总数据定义为基因、SNP、基因间区域、蛋白结构域的列表,以及它们对应的显著性水平(如P值)的汇总统计。基因水平的汇总数据通常由RNA-seq差异表达产生,SNP水平的汇总数据由全基因组关联研究(GWAS)产生,基因间区域水平的汇总数据由表观基因组研究产生。这些数据的简化使得分析更加直接,但如何有效地将基因组汇总数据转化为下游的知识发现,仍然是基因组学研究的主要挑战之一。

目前的问题在于:

在常规的高通量组学数据分析中,考虑到组学数据量大并较为复杂,在一般的Windows电脑中并不能实现组学数据的挖掘,常常要依赖于不同平台和程序的一系列组学分析软件才能实现,这对于生物医学背景的研究者来说并不友好。现有组学数据分析方法主要有以下几个方面的不足:1)软件使用依附于不同的操作系统和编程语言,局限性较大;2)不同需求的分析方法需要使用不同软件,暂未有较为完整的组学数据汇总平台;3)现阶段主要是基于基因水平的富集分析,暂未延伸至SNP、基因间区域、蛋白结构域等。这样一来,就使得生物医学领域的科研人员难以从复杂的组学数据中获得想要的结果,进而无法解读数据背后真实的生物学应用,因而不利于科研人员进行基于组学汇总数据知识解读的科研工作。

发明内容

本发明的目在于提供一种面向组学汇总数据的知识解读引擎系统,知识解读引擎系统能帮助生物医学领域的科研人员简单、便捷地解读数据,有利于科研人员进行组学汇总数据知识解读的科研工作。

为了实现上述技术目的,本发明采用如下技术方案:

一种面向组学汇总数据的知识解读引擎系统,包括本体化与分子网络知识库、人机交互模块、基于生物医学本体化知识解读主引擎和基于生物分子关系网络知识解读主引擎;

所述本体化与分子网络知识库用于提供适用于基因、SNP、基因间区域和蛋白结构域的组学汇总数据类型知识解读的数据集;

所述人机交互模块用于用户与基于生物医学本体化知识解读主引擎和基于生物分子关系网络知识解读主引擎之间的数据交互;

所述基于生物医学本体化知识解读主引擎用于从人机交互模块处接收用户输入的组学汇总数据,依据本体化与分子网络知识库提供的数据对用户输入的组学汇总数据进行生物医学本体化的知识解读,得到用户需要的生物医学本体化解读数据,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块;

所述基于生物分子关系网络知识解读主引擎用于从人机交互模块处接收用户输入的组学汇总数据,依据本体化与分子网络知识库提供的数据对用户输入的组学汇总数据进行生物关系网络的知识解读,得到用户需要的生物关系网络解读数据,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块。

进一步地,所述本体化与分子网络知识库包括生物医学本体化知识子库、生物分子关系网络知识子库、功能基因组学知识子库和蛋白结构域知识子库;

所述生物医学本体化知识子库用于提供适用于基因、SNP、基因间区域和蛋白结构域的组学汇总数据类型知识解读的生物医学本体化数据;

所述生物分子关系网络知识子库用于提供适用于基因、SNP、基因间区域和蛋白结构域的组学汇总数据类型知识解读的生物分子网络数据;

所述功能基因组学知识子库用于提供适用于SNP和基因间区域的组学汇总数据类型知识解读的生物医学本体化数据和生物分子网络数据;

所述蛋白结构域知识子库用于提供适用于蛋白结构域的组学汇总数据类型知识解读的生物医学本体化数据和生物分子网络数据。

进一步地,

所述基于生物医学本体化知识解读主引擎包括基于基因水平的生物医学本体化知识解读子引擎、基于SNP水平的生物医学本体化知识解读子引擎、基于基因间区域水平的生物医学本体化知识解读子引擎和基于蛋白结构域水平的生物医学本体化知识解读子引擎;

所述基于基因水平的生物医学本体化知识解读子引擎用于从人机交互模块处接收用户输入的基因列表的数据,依据本体化与分子网络知识库中生物医学本体化知识子库提供的数据对用户输入的基因列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块;

所述基于SNP水平的生物医学本体化知识解读子引擎用于从人机交互模块处接收用户输入的SNP列表的数据,依据本体化与分子网络知识库中生物医学本体化知识子库和功能基因组学知识子库提供的数据对用户输入的SNP列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块;

所述基于基因间区域水平的生物医学本体化知识解读子引擎用于从人机交互模块处接收用户输入的基因间区域列表的数据,依据本体化与分子网络知识库中生物医学本体化知识子库和功能基因组学知识子库提供的数据对用户输入的基因间区域列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块;

所述基于蛋白结构域水平的生物医学本体化知识解读子引擎用于从人机交互模块处接收用户输入的蛋白结构域列表的数据,依据本体化与分子网络知识库中生物医学本体化知识子库和功能基因组学知识子库提供的数据对用户输入的蛋白结构域列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块。

进一步地,

所述基于生物分子关系网络知识解读主引擎包括基于基因水平的生物分子关系网络知识解读子引擎、基于SNP水平的生物分子关系网络知识解读子引擎、基于基因间区域水平的生物分子关系网络知识解读子引擎和基于蛋白结构域水平的生物分子关系网络知识解读子引擎;

所述基于基因水平的生物分子关系网络知识解读子引擎用于从人机交互模块处接收用户输入的基因列表的数据,依据本体化与分子网络知识库中生物分子关系网络知识子库提供的数据对用户输入的基因列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块;

所述基于SNP水平的生物分子关系网络知识解读子引擎用于从人机交互模块处接收用户输入的SNP列表的数据,依据本体化与分子网络知识库中生物分子关系网络知识子库和功能基因组学知识子库提供的数据对用户输入的SNP列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块;

所述基于基因间区域水平的生物分子关系网络知识解读子引擎用于从人机交互模块处接收用户输入的基因间区域列表的数据,依据本体化与分子网络知识库中生物分子关系网络知识子库和功能基因组学知识子库提供的数据对用户输入的基因间区域列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块;

所述基于蛋白结构域水平的生物分子关系网络知识解读子引擎用于从人机交互模块处接收用户输入的蛋白结构域列表的数据,依据本体化与分子网络知识库中蛋白结构域知识子库提供的数据对用户输入的蛋白结构域列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块。

进一步地,所述人机交互模块用于用户与基于生物医学本体化知识解读主引擎和基于生物分子关系网络知识解读主引擎之间的数据交互,其具体实现的形式为:人机交互模块接收用户输入的组学汇总数据,并按照需求选择目标知识解读子引擎,对输入的组学汇总数据的格式进行认证、流控操作,转化为目标知识解读子引擎能识别的数据格式,然后,将数据传递给目标知识解读子引擎,用户按照需求选择相应的参数类型,并执行目标知识解读子引擎分析功能,之后,从目标知识解读子引擎处接收数据检索的结果,并反馈展示给用户。

进一步地,所述人机交互模块为网页交互系统,所述可视化展示的数据形式为HTML网页形式。

进一步地,所述人机交互模块由交互层、前端UI和访问层组建构成。

在本发明的知识解读引擎系统中,设置了基于生物医学本体化知识解读主引擎和基于生物分子关系网络知识解读主引擎,两者均能够按照用户的需求来对复杂的组学汇总数据进行解读,并将解读得出的结果以可视化的形式展示给用户,以便于生物医学领域的科研人员能够方便地读懂数据。与现有技术相比,本发明的知识解读引擎系统,其利用多元化的生物医学本体化注解、基因网络和功能基因组数据集,以支持基因、SNP、基因间区域和蛋白结构域的汇总数据进行实时在线的知识解读,快捷高效,有利于提高生物医学领域的科研人员解读组学数据的能力,从而有利于科研人员基于数据的科研工作。

本发明的知识解读引擎系统相对现有技术,其有益效果在于:能帮助生物医学领域的科研人员简单、便捷地解读数据,有利于科研人员进行组学汇总数据知识解读的科研工作。

附图说明

图1为本发明的面向组学汇总数据的知识解读引擎系统的逻辑架构示意图;

图2为本发明的知识解读引擎系统的一实施案例的具体操作过程流程图。

具体实施方式

下面用具体实施例对本发明作进一步说明:

本实施方式提供了一种面向组学汇总数据的知识解读引擎系统,该知识解读引擎系统能帮助生物医学领域的科研人员简单、便捷地解读数据,有利于科研人员进行组学汇总数据知识解读的科研工作。

参见图1,本实施方式的知识解读引擎系统包括本体化与分子网络知识库3、人机交互模块4、基于生物医学本体化知识解读主引擎1和基于生物分子关系网络知识解读主引擎2。

所述本体化与分子网络知识库3实质就是一个数据库系统,其是本发明的重要创新之处。

所述本体化与分子网络知识库3能够提供适用于基因、SNP、基因间区域和蛋白结构域的组学汇总数据类型知识解读的数据集。该本体化与分子网络知识库3是本发明的基础和核心内容,从现有公共数据库和发表文献中收集的组学汇总信息。

需要说明的是,该本体化与分子网络知识库3是可以进行拓展的,未来将继续拓展本体化与分子网络知识库中的内容,使系统功能更全面、用户界面更友好,每12个月更新一次。

所述本体化与分子网络知识库3具体包括生物医学本体化知识子库31、生物分子关系网络知识子库32、功能基因组学知识子库33和蛋白结构域知识子库34。

所述生物医学本体化知识子库31能够提供适用于基因、SNP、基因间区域和蛋白结构域的组学汇总数据类型知识解读的生物医学本体化数据。也就是说,所述生物医学本体化知识子库31是由各种本体化支持的。

上述的这些生物医学本体化数据涵盖了广泛的知识背景,包括:功能、通路、调控因子、疾病、表型、药物、领域和疾病、特征和进化。

在本实施方式中,所述生物医学本体化知识子库31支持的本体化包括:

(1)功能:基因本体论GO(2022年10月版本),包括分子功能本体论(GOMF)、细胞组分本体论(GOCC)及生物过程本体论(GOBP)。

(2)通路:KEGG数据库(V103.0版本),REACTOME数据库(V81版本),MSIGDB数据库的通路信息(V7.5.1版本)以及MitoCarta数据库的MitoPathways通路信息(V3.0版本)。

(3)调控因子:Enrichr数据库的TFs数据(2022年7月版本)和TRRUST数据库(2018.04.06版本)。

(4)疾病:Mondo疾病本体(2023年1月4日版本)、人类疾病本体(2022年7月版本),GWAS疾病特征的实验因子本体EFO(V3.44.0版本)。

(5)表型:人类表型本体论HPO(2022年6月版本)和哺乳动物表型本体论MPO(2022年7月版本)。

(6)药物:药物基因互作数据库DGIdb(2022年2月版本),可靶向性药物结合口袋(V22.06版本)以及ChEMBL数据库。

(7)蛋白结构域和固有无序蛋白:SCOP,Pfam,InterPro和固有无序蛋白本体论IDPO。

(8)标志和进化:MSigDB数据库中的分子特征标志以及基因组系统发育地层学phylostratigraphy。

所述生物分子关系网络知识子库32能够提供适用于基因、SNP、基因间区域和蛋白结构域的组学汇总数据类型知识解读的生物分子网络数据。

具体来说,该生物分子关系网络知识子库32是利用功能或者通路互作网络的知识库,其功能互作网络来源于现有的“STRING数据库”(摘取了该数据库中的“实验”和“数据库”部分的数据)。功能互作分为最高置信度(≥0.9)、高置信度(≥0.7)和中等置信度(≥0.4)。通路互作网络来源于KEGG数据库(所有的通路都整合成一个基因网络)。

所述功能基因组学知识子库33能够提供适用于SNP和基因间区域的组学汇总数据类型知识解读的生物医学本体化数据和生物分子网络数据。

具体来说,该功能基因组学知识子库33,是SNP与基因的连接是通过基因组临近性(PCHi-C或e/pQTL)来实现,而基因间区域与基因的连接是基于PCHi-C或增强子-基因图谱实现的。本实施方式中支持的功能基因组数据集包括免疫、血液和大脑相关细胞类型中的PCHi-C,血浆pQTL,来自eQTLGene联盟的血液eQTL,免疫相关细胞类型和大脑相关组织中的eQTL,以及使用ABC模型构建的ENCODE或路线图细胞类型中的增强子基因图谱。

所述蛋白结构域知识子库34能够提供适用于蛋白结构域的组学汇总数据类型知识解读的生物医学本体化数据和生物分子网络数据。

该蛋白结构域知识子库34是使用来自dcGO数据库的数据。

所述人机交互模块4用于用户与基于生物医学本体化知识解读主引擎1和基于生物分子关系网络知识解读主引擎2之间的数据交互,具体来说,

所述人机交互模块4用于接收用户输入的组学汇总数据,并按照需求选择目标知识解读子引擎(基于生物医学本体化知识解读主引擎1或者基于生物分子关系网络知识解读主引擎2),同时,对输入的组学汇总数据的格式进行认证、流控操作,转化为目标知识解读子引擎能识别的数据格式,然后,将这些数据传递给目标知识解读子引擎,用户按照需求选择相应的参数类型,并执行目标知识解读子引擎在线实时分析功能,之后,从目标知识解读子引擎处接收数据检索的结果,并反馈展示给用户。

在本实施方式中,人机交互模块4反馈给用户的是一个自含动态产生的HTML文件,该HTML文件中包括所有的输入信息、动态的图及表等输出结果(可编辑),属于一个集成的、动态的、可编辑的、可下载的HTML文件。

在本实施方式中,所述人机交互模块4为网页交互系统,其是由三层架构构成,分别为交互层、前端UI和访问层。

所述交互层为通过调用Unix操作系统下的/usr/local/bin/Rscript下的Rfunction来构建的。

所述前端UI基于UI组件库、HTML以及CSS技术来构建。

所述访问层为PC端或移动通讯设备端的浏览器。

所述基于生物医学本体化知识解读主引擎1,当其在人机交互模块4中被用户选择时,该基于生物医学本体化知识解读主引擎1用于从人机交互模块4处接收用户输入的基因、SNP、基因间区域或者蛋白结构域的组学汇总数据,依据本体化与分子网络知识库3提供的数据对用户输入的组学汇总数据进行生物医学本体化的知识解读,得到用户需要的生物医学本体化解读数据,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块4,由人机交互模块4向用户展示。

更具体地,

所述基于生物医学本体化知识解读主引擎1具体包括基于基因水平的生物医学本体化知识解读子引擎11、基于SNP水平的生物医学本体化知识解读子引擎12、基于基因间区域水平的生物医学本体化知识解读子引擎13和基于蛋白结构域水平的生物医学本体化知识解读子引擎14。

所述基于基因水平的生物医学本体化知识解读子引擎11用于从人机交互模块4处接收用户输入的基因列表的数据,依据本体化与分子网络知识库3中生物医学本体化知识子库31提供的数据对用户输入的基因列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块4,由人机交互模块4向用户展示。

也就是说,所述基于基因水平的生物医学本体化知识解读子引擎11是以基因为中心的本体化注释来实现生物医学本体化的知识解读和数据可视化的功能。

需要说明的是,

所述基于基因水平的生物医学本体化知识解读子引擎11,其利用基因作为输入数据,利用单边Fisher精确检验来计算Z分数,其95%置信区间(CI)的优势比和衡量富集显著性的错误发现率(FDR)。

用户只需要输入想要分析的基因列表,选择分析所需要的本体化和分子网络知识库,调整控制条件,就可快速得到所需的富集结果(表格和图像)。

最后输出以基因为主导的生物医学本体化注释信息,操作简单,可信度高,结果通俗易懂。

所述基于SNP水平的生物医学本体化知识解读子引擎12用于从人机交互模块4处接收用户输入的SNP列表的数据,依据本体化与分子网络知识库3中生物医学本体化知识子库31和功能基因组学知识子库33提供的数据对用户输入的SNP列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块4,由人机交互模块4向用户展示。

在本实施方式中,所述可视化展示的数据形式为HTML的数据形式。

也就是说,所述基于SNP水平的生物医学本体化知识解读子引擎12是以SNP为中心的本体化注释来实现本体化生物医学信息学的解读和数据可视化的功能。

更具体地,

所述基于SNP水平的生物医学本体化知识解读子引擎12,其是从输入的SNP列表中识别临近基因,并对临近基因进行本体化富集分析。

通过基因组临近性、PCHi-C和e/pQTL等功能基因组数据,实现SNP和基因的连接。

利用单边Fisher精确检验来计算Z分数,其95%置信区间(CI)的优势比和衡量富集显著性的错误发现率(FDR)。

所述基于基因间区域水平的生物医学本体化知识解读子引擎13用于从人机交互模块4处接收用户输入的基因间区域列表的数据,依据本体化与分子网络知识库3中生物医学本体化知识子库31和功能基因组学知识子库33提供的数据对用户输入的基因间区域列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块4,由人机交互模块4向用户展示。

也就是说,

所述基于基因间区域水平的生物医学本体化知识解读子引擎13是以基因间区域为中心的本体化注释来实现本体化生物医学信息学的解读和数据可视化的功能。

更具体地,

所述基于基因间区域水平的生物医学本体化知识解读子引擎13,其利用功能基因组学数据(PCHi-C或增强子基因图谱),从用户输入的基因间区域(region)列表中识别连锁基因,并基于临近基因进行本体富集分析。类似于基于SNP水平的本体化生物医学信息学解读。

所述基于蛋白结构域水平的生物医学本体化知识解读子引擎14用于从人机交互模块4处接收用户输入的蛋白结构域列表的数据,依据本体化与分子网络知识库3中生物医学本体化知识子库31和蛋白结构域知识子库34提供的数据对用户输入的蛋白结构域列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块4,由人机交互模块4向用户展示。

也就是说,所述基于蛋白结构域水平的生物医学本体化知识解读子引擎14是以蛋白结构域为中心的本体化注释来实现生物医学本体化的知识解读和数据可视化的功能。

需要说明的是,所述基于蛋白结构域水平的生物医学本体化知识解读子引擎14,其是使用来自dcGO数据库的以结构域为中心的本体注释来执行本体化分析。其利用蛋白结构域为主导的本体化注释信息,对用户输入的蛋白结构域进行富集分析,识别富集的本体化。

所述基于生物分子关系网络知识解读主引擎2,当其在人机交互模块4中被用户选择时,该基于生物分子关系网络知识解读主引擎2用于从人机交互模块4处接收用户输入的基因、SNP、基因间区域或者蛋白结构域的组学汇总数据,依据本体化与分子网络知识库3提供的数据对用户输入的组学汇总数据进行生物关系网络的知识解读,得到用户需要的生物关系网络解读数据,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块4,由人机交互模块4向用户展示。

也就是说,所述基于生物分子关系网络知识解读主引擎2用于探索组学汇总数据之间的关系网络,并识别具有显著性关联的子网络用于汇总数据的解读。

需要说明的是,所述基于生物分子关系网络知识解读主引擎2中设置有启发式求解器,该启发式求解器用于收集斯坦纳树问题,证明与其他最先进的算法相比具有竞争力。所识别的基因子网络的显著性(p值)可以使用保度节点置换检验来估计,用以计算它偶然出现的频率。

更具体地,

所述基于生物分子关系网络知识解读主引擎2具体包括基于基因水平的生物分子关系网络知识解读子引擎21、基于SNP水平的生物分子关系网络知识解读子引擎22、基于基因间区域水平的生物分子关系网络知识解读子引擎23和基于蛋白结构域水平的生物分子关系网络知识解读子引擎24。

所述基于基因水平的生物分子关系网络知识解读子引擎21用于从人机交互模块4处接收用户输入的基因列表的数据,依据本体化与分子网络知识库3中生物分子关系网络知识子库32提供的数据对用户输入的基因列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块4,由人机交互模块4向用户展示。

也就是说,所述基于基因水平的生物分子关系网络知识解读子引擎21用于实现以基因为中心的生物关系网络的探索及数据可视化的功能。

需要说明的是,所述基于基因水平的生物分子关系网络知识解读子引擎21,其是以基因水平的汇总数据作为输入数据,利用蛋白质互作信息或通路衍生基因互作信息,识别相关基因子网络,所识别的子网络是在大基因网络中含有尽可能多的显著性最高、差异表达水平最强基因的子网络,该网络中的节点颜色反映基因的显著性水平。

所述基于SNP水平的生物分子关系网络知识解读子引擎22用于从人机交互模块4处接收用户输入的SNP列表的数据,依据本体化与分子网络知识库3中生物分子关系网络知识子库32和功能基因组学知识子库33提供的数据对用户输入的SNP列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块4,由人机交互模块4向用户展示。

也就是说,所述基于SNP水平的生物分子关系网络知识解读子引擎22用于实现以SNP为中心的生物关系网络的探索及数据可视化的功能。

需要说明的是,所述基于SNP水平的生物分子关系网络知识解读子引擎22,其是以SNP的组学汇总数据作为输入数据,使用基因组临近、e/pQTL、PCHi-C等信息将SNPs与基因连接起来,然后使用临近的基因来识别对理解复杂疾病的遗传基础至关重要的子网络。最后,基于SNP水平的生物分子关系网络知识解读子引擎22返回以表格形式和类似网络的可视化结果,有助于进一步分析候选基因,尤其是针对子网络基因的富集分析,以识别富集途径。

所述基于基因间区域水平的生物分子关系网络知识解读子引擎23用于从人机交互模块4处接收用户输入的基因间区域列表的数据,依据本体化与分子网络知识库3中生物分子关系网络知识子库32和功能基因组学知识子库33提供的数据对用户输入的基因间区域列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块4,由人机交互模块4向用户展示。

也就是说,所述基于基因间区域水平的生物分子关系网络知识解读子引擎23用于实现以基因间区域为中心的生物关系网络的探索及数据可视化的功能。

需要说明的是,所述基于基因间区域水平的生物分子关系网络知识解读子引擎23,其是从输入的基因间区域信息来解读基因间区域之间的关系。类似于基于SNP生物关系网络的知识解读,使用PCHi-C和增强子-基因图谱的功能基因组数据集识别输入基因间区域中的临近基因,结合各种数据库的网络信息,进而识别出高显著性基因富集的子网络,进而提示在相应疾病中具有关键作用的基因,为后续研究奠定基础。

所述基于蛋白结构域水平的生物分子关系网络知识解读子引擎24用于从人机交互模块4处接收用户输入的蛋白结构域列表的数据,依据本体化与分子网络知识库3中蛋白结构域知识子库34提供的数据对用户输入的蛋白结构域列表的数据进行解读,最后将解读数据的结果以可视化展示的数据形式返送至人机交互模块4,由人机交互模块4向用户展示。

也就是说,所述基于蛋白结构域水平的生物分子关系网络知识解读子引擎24,其是以蛋白结构域为中心的本体化注释来实现生物关系网络的探索及数据可视化的功能。

需要说明的是,所述基于蛋白结构域水平的生物分子关系网络知识解读子引擎24,其是使用来自dcGO数据库的以结构域为中心的本体注释来执行关系子网络的探索。利用蛋白结构域为主导的信息,识别相关蛋白子网络,所识别的子网络是在大蛋白网络中含有尽可能多的显著性最高、差异表达水平最强基因的子网络,该网络中的节点颜色反映基因的显著性水平。

需要说明的是,之前提及的“将解读数据的结果以可视化展示的数据形式返送至人机交互模块4”,在本实施方式中,所述“可视化展示的数据形式”为HTML网页形式。在其它实施方式中,也可采用其它的可视化展示的数据形式,如适用于各种操作系统的数据展示控件形式,诸如,Windows系统、Linux系统、Unix系统。

以下,通过具体案例来说明本实施方式的知识解读引擎系统的使用方法。

参见图2,以基于基因水平的生物医学本体化知识解读子引擎11为例展示操作方法:

1)用户在网页上(人机交互模块4)输入官方的基因Symbol列表,并确保输入的基因SymbolID列表来源于官方网站;

2)用户从提供的生物医学本体化列表中选择合适的本体化知识,另外还可以调节选择其他参数;

3)用户在网页上点击SUBMIT按钮即可调用基于基因水平的生物医学本体化知识解读子引擎11进行分析。

4)基于基因水平的生物医学本体化知识解读子引擎11开始对用户提供的数据进行解读,并将解读的结果反馈给前端层。

5)用户可在访问层浏览并下载分析结果。分析结果包含两个交互式表格和两类富集结果的高分辨率图像。交互式表格分别为用户输入数据相关总结信息的表格(包括运行时间、基因、描述信息)和富集结果表格(包含生物医学本体化、得分、成员等信息)。图像包括森林点图和点图。富集结果:一共包括四个部分。①Inputgeneinformation模块下提供一个包含用户输入基因相关信息的交互式表格。②Output:enrichedterms模块下提供富集的生物医学本体化相关信息(术语、得分、成员等)的交互式表格。③Output:dotplot模块下提供生物医学本体化富集的点图及其PDF文件。④Output:forestplot模块下展示了生物医学本体化富集的森林点图,并提供可下载的PDF文件。

在本实施方式的知识解读引擎系统中,设置了基于生物医学本体化知识解读主引擎1和基于生物分子关系网络知识解读主引擎2,两者均能够按照用户的需求来对复杂的组学汇总数据进行解读,并将解读得出的结果以可视化的形式展示给用户,以便于生物医学领域的科研人员能够方便地读懂数据。与现有技术相比,本实施方式的知识解读引擎系统,其利用多元化的生物医学本体化注解、基因网络和功能基因组数据集,以支持基因、SNP、基因间区域和蛋白结构域的汇总数据进行实时在线的知识解读,快捷高效,有利于提高生物医学领域的科研人员解读组学数据的能力,从而有利于科研人员进行组学汇总数据知识解读的科研工作。

以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,因此,凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号