首页> 中国专利> 检测生物分子的变化的方法和检测生物调控分子的变化的方法

检测生物分子的变化的方法和检测生物调控分子的变化的方法

摘要

本发明公开了一种检测生物分子的变化的方法,该方法包括:(1)用生物芯片或者高通量测序分别测量处理样品和对照样品,分别获得处理数据和对照数据;(2)使用对照数据对处理数据进行正规化,以获得无偏的基因表达差异数值;其中,在正规化中,在处理数据和对应的对照数据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数,使用具有参数的线性样条模型校正处理数据中的数值,并作为正规化后的数值。本发明还提供了一种通过集成基因表达差异数值和生物调控分子与相应基因的结合强度来检测生物调控分子变化的量化指标的方法。本发明能够有效地挖掘高通量表达数据中的有用信息,并确定基因表达差异的调控机制。

著录项

  • 公开/公告号CN103729578A

    专利类型发明专利

  • 公开/公告日2014-04-16

    原文格式PDF

  • 申请/专利权人 中国科学院数学与系统科学研究院;

    申请/专利号CN201410003967.5

  • 发明设计人 李雷;王琳;

    申请日2014-01-03

  • 分类号G06F19/20;

  • 代理机构北京润平知识产权代理有限公司;

  • 代理人李婉婉

  • 地址 100190 北京市海淀区中关村东路55号

  • 入库时间 2024-02-19 23:28:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-02-15

    授权

    授权

  • 2014-05-14

    实质审查的生效 IPC(主分类):G06F19/20 申请日:20140103

    实质审查的生效

  • 2014-04-16

    公开

    公开

说明书

技术领域

本发明涉及生物医药领域,具体地,涉及一种检测生物分子的变化的方 法和一种检测生物调控分子的变化的方法。

背景技术

从DNA到蛋白质的过程称之为基因表达(gene expression),对这个过程 的调节即为基因表达调控(regulation of gene expression or gene control)。基因 调控是现代分子生物学研究的中心课题之一。因为要了解动植物生长发育规 律、形态结构特征及生物学功能,就必须搞清楚基因表达调控的时间和空间 概念,掌握了基因调控机制,就等于掌握了一把揭示生物学奥秘的钥匙。

测量细胞样本、组织样本等的全基因组表达值是功能性基因组学的首要 问题。目前的测量技术包括生物芯片、RNA-seq等等,这些技术各有各的优 点和缺点。虽然人们希望能够精确地测量出全基因组RNA表达值,但是由 于每个技术的局限性,原始的测量值与真实值的误差和偏差不可避免。这就 需要对这些原始的测量值做恰当的统计分析。生物芯片(biochip或bioarray) 是根据生物分子间特异相互作用的原理,将生化分析过程集成于芯片表面, 从而实现对DNA、RNA、多肽、蛋白质以及其他生物成分的高通量快速检 测。狭义的生物芯片概念是指通过不同方法将生物分子(寡核苷酸、cDNA、 genomic DNA、多肽、抗体、抗原等)固着于硅片、玻璃片(珠)、塑料片 (珠)、凝胶、尼龙膜等固相递质上形成的生物分子点阵。

生物芯片能够高通量、自动化地检测基因的差异,包括cDNA水平上的 差异和蛋白水平的差异,因而能够作为研究基因调控的手段之一。但是,生 物芯片中的数据往往只能检测那些丰度高的效应生物分子(如在合成、代谢 过程中的酶),而对于生物调控分子,如转录因子和microRNA,由于其在细 胞中丰度低等原因,它们在生物事件中所发生的变化难以在生物芯片的数据 中直接反映出来,由此降低了生物芯片数据的利用价值。

RNA-seq技术是近年来发展的一种新的全基因组RNA表达值的技术, 它不需要预先设计探针,是与生物芯片互补的一种技术。

比较两个或多个细胞样本时,如果通过某种技术获得了它们之间无偏的 基因表达差异数值,如何找到导致这些差异的调控机制则是功能性基因组学 的一个核心问题。目前直接测量调控过程难度很大,利用调控分子如转录因 子或microRNA与DNA的结合强度信息,在广义的中心法则下准确地推断 调控机制是一个非常有挑战的计算生物学和生物信息学问题。对人类健康、 农业发展、环境保护和能源发展有重要意义。

发明内容

为了提高生物芯片数据的利用价值,进一步有效地挖掘生物芯片数据中 的有用信息,本发明提供了一种检测生物分子的变化的方法和一种检测生物 调控分子的变化的方法。

根据本发明提供的检测生物分子的变化的方法,该方法包括:(1)用生 物芯片或者高通量测序技术RNA-seq分别测量处理样品和对照样品,分别获 得处理数据和对照数据;(2)使用对照数据对处理数据进行正规化,以获得 无偏的基因表达差异数值;其中,在正规化中,在处理数据和对应的对照数 据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数,使 用具有参数的线性样条模型校正处理数据中的数值,将校正后的数值作为正 规化后的数值。

本发明还提供了一种检测生物调控分子的变化的方法,该方法包括:(1) 根据如上所述的方法检测生物分子的变化,获得基因表达差异数值;(2)根 据基因表达差异数值,将具有正表达差异值的差异基因和具有负表达差异值 的差异基因分别作为分析对象,由差异基因的差异强度和生物调控分子与全 体基因的结合强度来确定调控差异基因的生物调控分子的变化。

通过上述技术方案,本发明能够有效地挖掘生物芯片和RNA-seq数据 中的有用信息,确定调控差异基因的生物调控分子的变化,并给出量化指标。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

图1是正规化前后的数据M值的核密度图;

图2是本发明各个模块之间的关系示意图。

具体实施方式

以下对本发明的具体实施方式进行详细说明。应当理解的是,此处所描 述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

根据本发明提供的检测生物分子的变化的方法,该方法包括:(1)用生 物芯片或者高通量测序分别测量处理样品和对照样品,分别获得处理数据和 对照数据;(2)使用对照数据对处理数据进行正规化,以获得无偏的基因表 达差异数值;其中,在正规化中,在处理数据和对应的对照数据之间建立线 性样条模型,用稳健统计估计法估计线性样条模型的参数,使用具有参数的 线性样条模型校正处理数据中的数值,将校正后的数值作为正规化后的数 值。

其中,处理数据和对照数据均来自生物芯片,处理数据和对照数据中的 数值均对应于生物芯片中的探针的空间位置而排列;将处理数据和对照数据 分别按空间位置的排布分隔为多个矩形子集;所述矩形子集的行数和列数分 别大于5,且行数和列数的乘积大于100;相邻的子集可以存在0-99%的重 叠;在处理数据的子集和对应的对照数据的子集之间建立线性样条模型,用 稳健统计估计法估计线性样条模型的参数;使用具有参数的线性样条模型校 正处理数据的子集中的数值,将校正后的数值作为正规化后的数值。

其中,所述生物芯片可以为cDNA芯片或蛋白芯片。

其中,特别优选地,相邻的子集中存在30-70%的重叠,更优选存在 40-60%的重叠,最优选存在50%的重叠。

其中,优选地,所述子集的行数和列数分别大于5,且行数和列数的乘 积大于100。例如,子集可以具有20-80行,20-80列;优选具有30-70行, 30-70列;最优选具有60行,30列。

其中,线性样条模型可以如式(1)所示:

A=a+b0*B+Σi=1nbi*B*I(B>ci)   式(1)

式(1)中,a、b0、bi(i=1,…,n)分别为参数,n为任意正整数,A、B分 别为对照数据构成的列向量和处理数据构成的列向量,I(B>ci)为示性函 数列向量,该示性函数列向量的元素值当B中相应元素大于ci时为1,当B 中相应元素小于等于ci时为0,每个ci为全体处理数据测量值的一个分位数, 而且ci随i的增大而增大;

利用如下公式估计正规化之后的处理数据:

B=a^+b^0*B+Σi=1nb^i*B*I(B>ci)   式(2)

式(2)中,分别为在式(1)中经过S估计得到的 参数值。

其中,的估计方法可以如下:

首先,用该芯片子集上的所有数据,利用S估计方法估计A=a+b0*B中 的参数a、b0,得到第二,令用满足B>c1的所有数据, 利用S估计方法估计中的参数b1,得到第三,令 用满足B>cw的所有数据,利用S估计方法估 计中的参数bw,得到其中w=2,…,n。

上述三步中S估计方法类似,为文献(Rousseeuw,P.J.,and Yohai,V.J. (1984),“Robust Regression by Means of S-Estimators,”in Robust and Nonlinear  Time Series,eds.J.Franke,W.Hardle,and D.Martin,Lecture Notes in Statistics, 26,Berlin:Springer-Verlag,pp.256–272.)中所述的S估计方法。

上述方法中的S估计也可以用LTS(截断最小二乘)估计来替代,其中 LTS估计的计算由文献(Li,L.M.(2005)"An algorithm for computing exact  least-trimmed squares estimate of simple linear regression with constraints", Computational Statistics&Data Analysis,48(4),717–734.)中所描述的方法所 得到。

按照统计学的标准方法,计算M值的核密度曲线和众数,所述M值为 正规化后的处理数据与对照数据的对数差,也称为基因表达倍数差异值。

其中,优选地,使用M值的核密度曲线的众数的绝对值大小来评价正 规化和/或生物分子变化的测量值的可信度;M值的核密度曲线的众数的绝 对值越大,则指示正规化和/或生物分子变化的测量值的可信度越小;M值 的核密度曲线的众数的绝对值越小,则指示正规化和/或生物分子变化的测量 值的可信度越大。

以上按子集进行正规化的方法适用于所有探针按空间排列的生物芯片。

以上所述的根据样条模型和稳健统计估计对不同样本的基因表达谱做 正规化的方法适用于从高通量测序技术所得到的数据。

其中,优选地,所述高通量测序为RNA-seq。

本发明还提供了一种检测生物调控分子的变化的方法,该方法包括:(1) 根据如上所述的方法检测生物分子的变化,获得基因表达差异数值;(2)根 据基因表达倍数差异数值,即正规化后的处理数据与对照数据的对数差,将 具有正表达差异值的差异基因和具有负表达差异值的差异基因分别作为分 析对象,由差异基因的差异强度和生物调控分子与全体基因的结合强度来确 定调控差异基因的生物调控分子的变化。还可以给出量化指标。

其中,生物调控分子可以为转录因子或microRNA。

其中,优选生物调控分子为转录因子,并且通过转录因子在DNA上结 合位点的权重矩阵来由差异基因确定调控差异基因的调控生物分子的变化。

具体的确定生物调控分子与基因结合强度的方法包括:

转录因子在DNA上结合位点的权重矩阵可以从JASPAR和/或 TRANSFAC等数据库中得到。通过扫描样本所属物种的基因组的基因调控 区域的DNA片段,利用MAST软件计算得出转录因子的权重矩阵在DNA 片段所有位点相匹配的最小P值;

将上述P值取负对数(比如以2为底),作为生物调控分子与该基因的 结合强度。

生物调控分子为microRNA时,microRNA的序列信息、结合靶点和结 合强度可以从miRBase、http://www.microrna.org/等数据库中得到。

根据本发明的检测生物调控分子的变化的方法,优选地,其中,对具有 负表达差异值的差异基因,确定调控差异基因的生物调控分子的变化的方法 包括:

(1)记负表达差异值为e=(e1,…,eN),生物调控分子与相应基因的结合 强度为b=(b1,…,bN);将负表达差异值取绝对值得到e′=(|e1|,…,|eN|);

(2)将e′中的元素按照降序排列,记排列结果为e′′=(|e|π(1),…,|e|π(N)), 其中(π(1),…,π(N))为(1,…,N)的一个排列,满足|e|π(1)≥…≥|e|π(N)

(3)按照(2)中对表达值的调整相应调整b中的元素位置,记调整结 果为b′′=(bπ(1),…,bπ(N));

(4)计算f(i)=Σj=1i|e|π(j)bπ(j)Σj=1N|e|π(j)bπ(j)g(i)=Σj=1i|e|π(j)Σj=1N|e|π(j);

(5)计算T=maxi=1,···,N(f(i)-g(i)),记计算结果为t;

(6)对b=(b1,…,bN)中的元素进行随机置换得到(bλ(1),…,bλ(N)),其中 (λ(1),…,λ(N))为(1,…,N)的一个排列,假设置换K次,每一次置换后,用 (bλ(1),…,bλ(N))替代(3)中的(bπ(1),…,bπ(N)),重复上述(3)至(4),得到K个 不同的T值,记为Tk,k=1,…,K;

(7)利用#{Tk:Tk≥t,k=1,…,K}/K计算P值,其中#表示集合中元素的个 数;如果P值≤α,α为置信度,则确定该生物调控分子的对基因表达的下调 的调控活动有显著变化。

根据本发明的检测生物调控分子的变化的方法,优选地,其中,对具有 正表达差异值的差异基因,确定调控差异基因的生物调控分子的变化的方法 包括:

(1)记正表达差异值为e=(e1,…,eN),生物调控分子与相应基因的结合 强度为b=(b1,…,bN);将正表达差异值取绝对值得到e′=(|e1|,…,|eN|);

(2)将e′中的元素按照降序排列,记排列结果为e′′=(|e|π(1),…,|e|π(N)), 其中(π(1),…,π(N))为(1,…,N)的一个排列,满足|e|π(1)≥…≥|e|π(N)

(3)按照(2)中对表达值的调整相应调整b中的元素位置,记调整结 果为b′′=(bπ(1),…,bπ(N));

(4)计算f(i)=Σj=1i|e|π(j)bπ(j)Σj=1N|e|π(j)bπ(j)g(i)=Σj=1i|e|π(j)Σj=1N|e|π(j);

(5)计算T=maxi=1,···,N(f(i)-g(i)),记计算结果为t;

(6)对b=(b1,…,bN)中的元素进行随机置换得到(bλ(1),…,bλ(N)),其中 (λ(1),…,λ(N))为(1,…,N)的一个排列,假设置换K次,每一次置换后,用 (bλ(1),…,bλ(N))替代(3)中的(bπ(1),…,bπ(N)),重复上述(3)至(4),得到K个 不同的T值,记为Tk,k=1,…,K;

(7)利用#{Tk:Tk≥t,k=1,…,K}/K计算P值,其中#表示集合中元素的个数; 如果P值≤α,α为置信度,则确定该生物调控分子的对基因表达的下调的调 控活动有显著变化。

其中,每个基因的表达值可以为多次重复测量的中位数。

本发明各个模块之间的关系如图2所示。

以下将通过实施例对本发明进行详细描述。

实施例1:通过小鼠的小肠基因表达谱,研究富含来源于海洋的多不饱 和脂肪酸的饮食对改善健康的分子生物机制。

1、样本准备:

选取4个月年龄的雄性小鼠(C57BL/6J品系)分成两组,分别用两种 高脂饮食喂养4个星期。对照组的食物中以亚麻仔油作为唯一的脂来源,亚 麻仔油富含α-亚油酸,简记为ALA(alpha linoleic acid)。处理组的食物结构 与对照组的一致,区别在于44%的脂成分是来源于海洋的多不饱和脂肪酸, 这包括6%的二十碳五烯酸(eicosapentaenoic acid,简称为EPA)和51%的 长链二十二碳六烯酸(docosahexaenoic acid,简称为DHA)。处理组被简称 为PUFA组。4星期后,将小鼠处死,截取的小肠是从胃下3厘米处到盲肠 处,然后用154mM的KCl溶液洗涤。最后从小肠上刮取上皮细胞,样本以 液氮冷冻保存在负80摄氏度的环境中。

2、RNA的提取:用Trizol试剂(英杰公司,Invitrogen,Breda,The  Netherlands)分别从处理组和对照组的样本细胞中提取总RNA,然后用 RNeasy柱(Qiagen,Venlo,The Netherlands)纯化RNA。将处理组和对照组 的RNA混合,在37摄氏度下保存一小时,用生物分析仪(安捷伦科技公司, Amstelveen,The Netherlands)和RNA6000Nano LabChip试剂盒对RNA质 量进行评估。

3、生物芯片测量:处理样本和对照样本分别与一片昂飞生物芯片 MOE430_2(GeneChip mouse arrays,Santa Clara,CA,USA)杂交。每片 MOE430_2生物芯片包括45102个探针组,可以探测39000个表达序列标签 (EST),对应于16579个基因。有关荧光标记和杂交的详细信息可以参考昂 飞公司的表达芯片分析技术手册。基因表达的原始数据用昂飞公司的 GeneChip Scanner3000扫描芯片得到。

用于说明本发明的上述实验的数据可以从基因表达的公共数据库GEO: http://www.ncbi.nlm.nih.gov/geo/中得到。对照组和处理组的生物芯片所对应 的数据文件的accession号码分别是:

GSM301569(intestine_C57BL/6J_flaxseed_pool)

GSM301570(intestine_C57BL/6J_EPA/DHA_pool)

数据的详细描述见文献(van Schothorst EM,Flachs P,Franssen-van Hal  NL,Kuda O et al.Induction of lipid oxidation by polyunsaturated fatty acids of  marine origin in small intestine of mice fed a high-fat diet.BMC Genomics2009 Mar16;10:110.PMID:19284886)。

4、正规化:

处理数据和对照数据是芯片上全部探针的荧光值,分别为1002×1002 的矩阵;将其分为50行×50列的子集,相邻的子集中存在50%的重叠。

在处理数据的子集和对应的对照数据的子集之间建立线性样条模型,用 稳健统计估计法估计线性样条模型的参数;使用具有参数的线性样条模型校 正处理数据的子集中的数值,将校正后的数值作为正规化后的数值。

在本实施例中,所使用的是如下(3)所示的一个节点的样条模型

A=a+b1*B+b2*I(B>c)   式(3)

来估计参数a、b1、b2得到其中,A表示对照组芯片的光强 度,B表示处理组芯片的光强度,c表示处理组芯片光强度的69%分位数, I(A)是一个示性函数(当事件A发生时函数值为1,否则函数值为0)。用简 单的样条模型来调整这种可能的非线性效应。其中,参数a、b1、b2的估计 由截断最小二乘(LTS)估计或者S估计得到,这两种估计比简单的最小二 乘估计稳健。第二,用如下(4)所示的公式

B~=a^+b^1*B+b^2*I(B>c)   式(4)

来估计正规化后的处理组B的光强度处于重叠的矩阵的探针的最 终校正值是取从这些矩阵得到的校正值的平均值。

昂飞生物芯片MOE430_2每个探针组有11个探针,对这些重复测量值, 可以简单地取中位数,也可以用昂飞公司提供的MAS5.0,或者免费软件 RMA来校正探针效应。在本实施例中,几种方法差异不大。

正规化前后的数据M值的核密度如图1所示。M值是对每一个探针计 算的A和B两种荧光数值的对数差,即M=(log2(B)-log2(A))。从图1可 见,正规化以后,芯片数据的M值的核密度估计图像众数点的位置更接近 于0,从而表明原始数据得到了正规化后的无偏的基因表达差异数值。

5、利用JASPAR和/或TRANSFAC等数据库中提供的生物调控分子的 位置权重矩阵扫描基因调控区域的DNA片段,利用MAST软件计算得出在 DNA片段所有位点调控基因结合的最小P值;

将上述P值取负对数(比如以2为底),作为生物调控分子与该基因的 结合强度。

在检测生物调控分子的变化的方法中,对具有负表达差异值的差异基 因,确定调控差异基因的生物调控分子的变化的方法包括如下步骤:

(1)记负表达差异值为e=(e1,…,eN),生物调控分子与相应基因的结合 强度为b=(b1,…,bN);将负表达差异值取绝对值得到e′=(|e1|,…,|eN|);

(2)将e′中的元素按照降序排列,记排列结果为e′′=(|e|π(1),…,|e|π(N)), 其中(π(1),…,π(N))为(1,…,N)的一个排列,满足|e|π(1)≥…≥|e|π(N)

(3)按照(2)中对表达值的调整相应调整b中的元素位置,记调整结 果为b′′=(bπ(1),…,bπ(N));

(4)计算f(i)=Σj=1i|e|π(j)bπ(j)Σj=1N|e|π(j)bπ(j)g(i)=Σj=1i|e|π(j)Σj=1N|e|π(j);

(5)计算T=maxi=1,···,N(f(i)-g(i)),记计算结果为t;

(6)对b=(b1,…,bN)中的元素进行随机置换得到(bλ(1),…,bλ(N)),其中 (λ(1),…,λ(N))为(1,…,N)的一个排列,假设置换K次,每一次置换后,用 (bλ(1),…,bλ(N))替代(3)中的(bπ(1),…,bπ(N)),重复上述(3)至(4),得到K个 不同的T值,记为Tk,k=1,…,K;

(7)利用#{Tk:Tk≥t,k=1,…,K}/K计算P值,其中#表示集合中元素的个 数;如果P值≤α,α为置信度,则确定该生物调控分子的对基因表达的下调 的调控活动有显著变化。

6、对具有正表达差异值的差异基因,确定调控差异基因的生物调控分 子的变化的方法包括:

(1)记正表达差异值为e=(e1,…,eN),生物调控分子与相应基因的结合 强度为b=(b1,…,bN);将正表达差异值取绝对值得到e′=(|e1|,…,|eN|);

(2)将e′中的元素按照降序排列,记排列结果为e′′=(|e|π(1),…,|e|π(N)), 其中(π(1),…,π(N))为(1,…,N)的一个排列,满足|e|π(1)≥…≥|e|π(N)

(3)按照(2)中对表达值的调整相应调整b中的元素位置,记调整结 果为b′′=(bπ(1),…,bπ(N));

(4)计算f(i)=Σj=1i|e|π(j)bπ(j)Σj=1N|e|π(j)bπ(j)g(i)=Σj=1i|e|π(j)Σj=1N|e|π(j);

(5)计算T=maxi=1,···,N(f(i)-g(i)),记计算结果为t;

(6)对b=(b1,…,bN)中的元素进行随机置换得到(bλ(1),…,bλ(N)),其中 (λ(1),…,λ(N))为(1,…,N)的一个排列,假设置换K次,每一次置换后,用 (bλ(1),…,bλ(N))替代(3)中的(bπ(1),…,bπ(N)),重复上述(3)至(4),得到K个 不同的T值,记为Tk,k=1,…,K;

(7)利用#{Tk:Tk≥t,k=1,…,K}/K计算P值,其中#表示集合中元素的个数; 如果P值≤α,α为置信度,则确定该生物调控分子的对基因表达的下调的调 控活动有显著变化。

通过上述5和6确定的生物调控分子的变化如下表1和表2所示:

表1:富含来源于海洋的多不饱和脂肪酸的饮食引起小鼠小肠基因表达 谱发生改变。基于JASPAR数据库,本发明所确定的导致上调和下调基因表 达的最为显著的转录因子。

上调转录因子 上调p值 下调转录因子 下调p值 AP1 0 NR4A2 0.0016 Gata1 0 IRF1 0.0038 PPARG::RXRA 0.0004 Tcfcp2l1 0.0198 NR2F1 0.0004 TAL1::TCF3 0.0242 RORA_2 0.0008 NFE2L1::MafG 0.032 ZEB1 0.001 ZNF354C 0.0374 CEBPA 0.001 FOXC1 0.04 Nobox 0.001 Hand1::Tcfe2a 0.044 FOXC1 0.0018 Esrrb 0.0464 Sox5 0.0018 NF-kappaB 0.0484 MEF2A 0.002     HNF1A 0.002     HLF 0.0024     HNF1B 0.0028     NFIC 0.003     Nr2e3 0.0036     HNF4A 0.0046     FOXD1 0.0048     TAL1::TCF3 0.005     Nkx2-5 0.0054     RORA_1 0.009     NFIL3 0.0108     T 0.011     Gfi 0.0132     FOXO3 0.0174     SRF 0.0178     Tal1::Gata1 0.0206     NFE2L1::MafG 0.0224     Pdx1 0.0268     RELA 0.0282     ESR2 0.0282     Stat3 0.034     FOXA1 0.0396     NFATC2 0.0474    

表2:富含来源于海洋的多不饱和脂肪酸的饮食引起小鼠小肠基因表达谱发生改变。 基于TRANSFAC数据库,本发明所确定的导致上调和下调基因表达的最为显著的转录因 子。

上调转录因子 上调p-值 下调转录因子 下调p-值 GATA4_Q3 0 ETS_Q6 0.0004 HNF4ALPHA_Q6 0 ETS2_Q6 0.0012 HNF4_DR1_Q3 0 XPF1_Q6 0.0014 PPAR_DR1_Q2 0 COUPTF_Q6 0.003 GATA1_05 0 ETS_Q4 0.0032 GATA2_02 0 EBF_Q6 0.0042 OG2_01 0 SF1_Q6_01 0.0044 RORA2_01 0.0002 AR_02 0.0066 E47_02 0.0002 ZBRK1_01 0.0066 COUP_01 0.0002 PEA3_Q6 0.0076 RSRFC4_Q2 0.0002 GR_Q6 0.0094 POU6F1_01 0.0004 NFKB_Q6 0.0104 RORA_Q4 0.0004 KAISO_01 0.0118 BACH1_01 0.0006 SMAD_Q6 0.0146 CEBPB_01 0.0006 SRF_Q4 0.015 E4BP4_01 0.0008 BCL6_Q3 0.0152 GATA3_02 0.0008 ESE1_Q3 0.0158 COUP_DR1_Q6 0.001 SP3_Q3 0.0216 PR_Q2 0.001 DR1_Q3 0.0218 HNF1_C 0.0012 AREB6_01 0.0224 OCT1_02 0.0012 HNF1_Q6_01 0.0226 E2A_Q6 0.0014 P50RELAP65_Q5_01 0.0236 EVI1_02 0.0014 ARP1_01 0.0256 AP1_C 0.0016 SREBP1_Q6 0.026 BACH2_01 0.0016 HEB_Q6 0.0264 HSF1_01 0.0018 STAT5B_01 0.0288 CEBP_Q2_01 0.0018 TEL2_Q6 0.0294 CEBPB_02 0.0018 P50P50_Q3 0.0354 GATA_C 0.002 SMAD_Q6_01 0.041 AP1_Q6_01 0.0022 AP1_Q6 0.0428 GR_Q6_01 0.0022 NFKB_C 0.043 HELIOSA_02 0.0022 HNF4_Q6_03 0.044 HLF_01 0.0022 STAT_Q6 0.0442 SMAD_Q6_01 0.0024 NFKAPPAB_01 0.0446 PR_01 0.0024 AR_Q2 0.045 MRF2_01 0.0024 FREAC4_01 0.0456 HNF1_Q6 0.0036 IRF_Q6 0.0474 PPARA_01 0.0038     OCT1_Q6 0.0038     AP1_Q4_01 0.004     EBF_Q6 0.0042     RORA1_01 0.0044     OCT1_06 0.0048    

表2中只展示了p值小于0.005的TRANSFAC的上调转录因子。

本发明提出的上述方案适用于生物分析和个体化医疗中基因表达定量 测量和确定导致基因表达差异的生物调控因子的定量分析。

本发明提出的方法由计算编程语言得到的软件系统实施。根据硬件的配 置,还可以采用多个CPU、包括GPU的并行运算方式实现。

以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实 施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方 案进行多种简单变型,这些简单变型均属于本发明的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特 征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必 要的重复,本发明对各种可能的组合方式不再另行说明。

此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其 不违背本发明的思想,其同样应当视为本发明所公开的内容。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号