首页> 中国专利> 基于单样本数据的个体特异性网络构建方法和装置

基于单样本数据的个体特异性网络构建方法和装置

摘要

本发明公开了一种基于单样本数据的个体特异性网络构建方法和装置,能够利用单个样本的表达信息构建该样本特异性的分子网络。其技术方案为:首先建立一个多样本的参考网络,在这个参考网络的基础上,加入一个独立样本,并重新建立新网络(即扰动网络),扰动网络和参考网络的所有差别都是由独立样本引起的,对扰动网络和参考网络的边对应做减法,即可得到样本的个体特异性网络。利用单样本数据构建的单样本特异性生物分子网络,能够在单样本的水平上标识出基因间异常的调控关系和失调的蛋白相互作用,为复杂疾病对不同病人的精确性治疗提供必要的分子间调控信息,为个性化治疗发展提供了新的研究方向。

著录项

  • 公开/公告号CN105989250A

    专利类型发明专利

  • 公开/公告日2016-10-05

    原文格式PDF

  • 申请/专利权人 中国科学院上海生命科学研究院;

    申请/专利号CN201510058477.X

  • 发明设计人 陈洛南;刘小平;合原一幸;

    申请日2015-02-04

  • 分类号G06F19/26(20110101);

  • 代理机构31100 上海专利商标事务所有限公司;

  • 代理人施浩

  • 地址 200031 上海市徐汇区岳阳路319号

  • 入库时间 2023-06-19 00:38:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-07-24

    专利权的转移 IPC(主分类):G16B45/00 登记生效日:20200707 变更前: 变更后: 申请日:20150204

    专利申请权、专利权的转移

  • 2019-06-18

    授权

    授权

  • 2016-11-09

    实质审查的生效 IPC(主分类):G06F19/26 申请日:20150204

    实质审查的生效

  • 2016-10-05

    公开

    公开

说明书

技术领域

本发明涉及一种计算系统生物学和生物信息学,尤其涉及构建生物分子网络的方法和装置。

背景技术

人类复杂疾病是对病因不明确、涉及因素众多、无有效治疗手段的一类疾病的统称,如各类癌症及糖尿病等。而目前在复杂疾病的诊断,药物设计和治疗等方面存在着很多个体差异性,此时,个性化医疗的概念既应运而生。随着生物医学的发展,个性化医疗,又被称为精确医疗,正在成为未来治疗复杂疾病的发展方向,然而目前仅能够对个人的基因的表达量和突变信息进行研究,虽然个性化的表达信息和基因突变是重要的个性化信息,但这些信息不能够体现基因之间个性化的调控方式和相互作用。生物分子网络可以揭示生物分子之间的相互作用和调控关系,是理解生物分子间信息交流,调控机制和多分子协同作用的基础,在许多方面具有单分子监测信息(如,表达和突变)不可替代的功能。然而,由于在建立生物网络的过程中需要统计和计算不同生物分子之间的相关性信息,因此就需要多个样本数据建立网络。而且这种网络只包含了多样本之间公共的调控信息,而忽略了每个样本特异的调控异常信息。而基于单样本生物分子网络既包含了疾病共同的调控信息,也揭示的样本特异性的调控信息,这能够为个性化医疗的发展提供个性化的网络调控信息。

在单个生物体内,分子间呈现出错综复杂的相互作用网络,这些相互作用的改变往往是导致复杂疾病发生发展的关键因素,而利用单样本检测数据,构建传统上要通过多样本数据才能建立的生物分子网络是目前亟待解决的技术问题。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题,提供了一种基于单样本数据的个体特异性网络构建方法和装置,能够利用单个样本的表达信息构建该样本特异性的分子网络,利用单样本数据构建的单样本特异性生物分子网络,能够在单样本的水平上标识出基因间异常的调控关系和失调的蛋白相互作用,为复杂疾病对不同病人的精确性治疗提供必要的分子间调控信息,为个性化治疗发展提供了新的研究方向。

本发明的技术方案为:本发明揭示了一种基于单样本数据的个体特异性网络构建方法,包括:

利用特定表象的表达数据作为参考数据,计算参考数据之间的相关系数并利用参考数据之间的相关系数构建参考网络;

将需要构建的个体单样本的表达数据添加到参考数据成为更新后的参考数据中,计算更新后的参考数据之间的相关系数,并利用更新后的参考数据之间的相关系数构建扰动网络;

计算扰动网络和参考网络之间的每条边的相关系数的差值并计算每条边的相关系数的差值在标准正态分布中的Z值;

计算得到的标准正态分布中的Z值对应的概率值,基于概率值和预设值的大小关系确定概率值对应的边是否在统计上显著;

保留统计上显著的边,消除统计上不显著的边,从而得到基于个体单样本的个体特异性网络。

根据本发明的基于单样本数据的个体特异性网络构建方法的一实施例,计算每条边的相关系数的差值在标准正态分布中的Z值的公式为:

>Z=ΔPCCn(1-PCCn2)/n>

其中△PCCn为差异相关系数,PCCn为n个样本的相关系数。

根据本发明的基于单样本数据的个体特异性网络构建方法的一实施例,预设值为0.05。

根据本发明的基于单样本数据的个体特异性网络构建方法的一实施例,表达数据包括基因表达数据、蛋白质谱数据。

本发明还揭示了一种基于单样本数据的个体特异性网络构建装置,包括:

参考网络构建模块,利用特定表象的表达数据作为参考数据,计算参考数据之间的相关系数并利用参考数据之间的相关系数构建参考网络;

扰动网络构建模块,将需要构建的个体单样本的表达数据添加到参考数据成为更新后的参考数据中,计算更新后的参考数据之间的相关系数,并利用更新后的参考数据之间的相关系数构建扰动网络;

差值分布模块,计算扰动网络和参考网络之间的每条边的相关系数的差值并计算每条边的相关系数的差值在标准正态分布中的Z值;

边显著统计模块,计算得到的标准正态分布中的Z值对应的概率值,基于概率值和预设值的大小关系确定概率值对应的边是否在统计上显著;

边处理模块,保留统计上显著的边,消除统计上不显著的边,从而得到基于个体单样本的个体特异性网络。

根据本发明的基于单样本数据的个体特异性网络构建装置的一实施例,差值分布模块计算每条边的相关系数的差值在标准正态分布中的Z值的公式为:

>Z=ΔPCCn(1-PCCn2)/n>

其中△PCCn为差异相关系数,PCCn为n个样本的相关系数。

根据本发明的基于单样本数据的个体特异性网络构建装置的一实施例,边显著统计模块中的预设值为0.05。

根据本发明的基于单样本数据的个体特异性网络构建装置的一实施例,表达数据包括基因表达数据、蛋白质谱数据。

本发明对比现有技术有如下的有益效果:本发明首先建立一个多样本的参考网络,在这个参考网络的基础上,加入一个独立样本,并重新建立新网络(即扰动网络),扰动网络和参考网络的所有差别都是由独立样本引起的,对扰动网络和参考网络的边对应做减法,即可得到样本的个体特异性网络。通过本发明的方法和装置所构建的个体特异性网络,能够在单样本的水平上标识出基因间异常的调控关系和失调的蛋白相互作用,为复杂疾病对不同病人的精确性治疗提供必要的分子间调控信息,为个性化治疗发展提供了新的研究方向。

附图说明

图1示出了本发明的基于单样本数据的个体特异性网络构建方法的较佳实施例的流程图。

图2示出了本发明的基于单样本数据的个体特异性网络构建装置的较佳实施例的原理图。

图3示出了基于单样本数据的个体特异性网络构建流程的示意图。

具体实施方式

在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的基于单样本数据的个体特异性网络构建方法的较佳实施例的流程。请参见图1,本实施例的基于单样本数据的个体特异性网络构建方法的各个步骤详述如下。

步骤S1:利用已有的特定表象的表达数据作为参考数据,计算参考数据之间的相关系数并利用参考数据之间的相关系数构建参考网络。

将已有的特定表象的表达数据比如正常情况下的表达数据作为疾病研究的参考数据,此类数据主要是基因表达数据,主要以Microarray和RNA-Seq产生的数据为主,对于其他符合标准的数据,如蛋白质谱数据,也可以应用于本方法。

本步骤的实施请见图3所示的a。

步骤S2:将需要构建的个体单样本的表达数据添加到参考数据成为更新后的参考数据中,计算更新后的参考数据之间的相关系数,并利用更新后的参考数据之间的相关系数构建扰动网络。

在本步骤中,按照传统的方式计算基因间的相关系数,建立一个新的扰动网络,如图3所示的b。

步骤S3:计算扰动网络和参考网络之间的每条边的相关系数的差值并计算每条边的相关系数的差值在标准正态分布中的Z值。

在单样本网络方法的基础上,计算每条边的相关系数的差值在标准正态分布中的Z值,利用统计学理论推导出Pearson相关系数在单样本网络上的应用公式为:

>Z=ΔPCCn(1-PCCn2)/n>

其中△PCCn为差异相关系数,PCCn为n个样本的相关系数。

本步骤的实施如图3所示的c。

步骤S4:计算得到的标准正态分布中的Z值对应的概率值,基于概率值和预设值的大小关系确定概率值对应的边是否在统计上显著。

本实施例中的预设值为0.05,如果一条边的概率值(p-value)小于0.05,则认为这条边在统计上显著,如果一条边的概率值(p-value)大于0.05,则认为这条边在统计上不显著。

步骤S5:保留统计上显著的边,消除统计上不显著的边,从而得到基于个体单样本的个体特异性网络。

图2示出了本发明的基于单样本数据的个体特异性网络构建装置的较佳实施例的原理。请参见图1,本实施例的个体特异性网络构建装置包括:参考网络构建模块1、扰动网络构建模块2、差值分布模块3、边显著统计模块4、以及边处理模块5。

参考网络构建模块1利用特定表象的表达数据作为参考数据,计算参考数据之间的相关系数并利用参考数据之间的相关系数构建参考网络。将已有的特定表象的表达数据比如正常情况下的表达数据作为疾病研究的参考数据,此类数据主要是基因表达数据,主要以Microarray和RNA-Seq产生的数据为主,对于其他符合标准的数据,如蛋白质谱数据,也可以应用于本方法。

扰动网络构建模块2将需要构建的个体单样本的表达数据添加到参考数据成为更新后的参考数据中,计算更新后的参考数据之间的相关系数,并利用更新后的参考数据之间的相关系数构建扰动网络。

差值分布模块3计算扰动网络和参考网络之间的每条边的相关系数的差值并计算每条边的相关系数的差值在标准正态分布中的Z值。

差值分布模块3计算每条边的相关系数的差值在标准正态分布中的Z值的公式为:

>Z=ΔPCCn(1-PCCn2)/n>

其中△PCCn为差异相关系数,PCCn为n个样本的相关系数。

边显著统计模块4计算得到的标准正态分布中的Z值对应的概率值,基于概率值和预设值的大小关系确定概率值对应的边是否在统计上显著。本实施例中的预设值例如为0.05,如果一条边的概率值(p-value)小于0.05,则认为这条边在统计上显著,如果一条边的概率值(p-value)大于0.05,则认为这条边在统计上不显著。

边处理模块5保留统计上显著的边,消除统计上不显著的边,从而得到基于个体单样本的个体特异性网络。

尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号