首页> 中国专利> 羟甲基化暨甲基化长序列标签测序技术

羟甲基化暨甲基化长序列标签测序技术

摘要

羟甲基化暨甲基化长序列标签测序技术。本发明提供了一种检测核酸甲基化修饰和羟甲基化修饰的方法,包括如下步骤:对基因组 DNA中的5-hmC进行糖基化修饰以及对照组反应;限制性内切酶MspI酶切消化;接头A的连接;Bst DNA polymerase fragment 处理;EcoP15I或MmeI酶切;片段选择;P7接头连接;PCR扩增;PCR产物的回收;文库质控。本发明检测核酸甲基化修饰和羟甲基化修饰的方法具有如下优势:可以同时检测全基因组内几乎全部CCGG位点的不同修饰即甲基化和羟甲基化的丰度;具有高通量、高准确性并可降低实验和测序误差;不依赖于重亚硫酸盐的转换,弥补了传统甲基化检测技术中无法分辨甲基化和羟甲基化修饰的缺点。

著录项

  • 公开/公告号CN104480214A

    专利类型发明专利

  • 公开/公告日2015-04-01

    原文格式PDF

  • 申请/专利权人 深圳市易基因科技有限公司;

    申请/专利号CN201410841922.5

  • 发明设计人 高飞;王君文;夏渝东;吉冠玉;

    申请日2014-12-30

  • 分类号C12Q1/68;

  • 代理机构深圳市康弘知识产权代理有限公司;

  • 代理人胡朝阳

  • 地址 518000 广东省深圳市盐田区梅沙街道环梅路68号优品艺墅B-203

  • 入库时间 2023-12-17 03:53:39

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-15

    专利权质押合同登记的生效 IPC(主分类):C12Q1/68 登记号:Y2020990000352 登记生效日:20200422 出质人:深圳市易基因科技有限公司 质权人:深圳市中小企业融资担保有限公司 发明名称:羟甲基化暨甲基化长序列标签测序技术 授权公告日:20180116 申请日:20141230

    专利权质押合同登记的生效、变更及注销

  • 2018-01-16

    授权

    授权

  • 2015-04-29

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20141230

    实质审查的生效

  • 2015-04-01

    公开

    公开

说明书

技术领域

本发明属于基因工程技术领域,特别涉及一种羟甲基化暨甲基化长序列标签测序技术。

背景技术

5-羟甲基胞嘧啶(5hmC)是早在1952年发现的存在于噬菌体中胞嘧啶的一种修饰形式,也是最近同时在小鼠的神经元和胚胎干细胞中检测到的存在于哺乳动物基因组中的又一种修饰方式。随后,大量的研究集中于揭示5hmC和TET蛋白家族氧化酶在基因组组织以及鼠干细胞分化中可能承担的角色,并且证明TET蛋白酶家族可以通过氧化作用将5mC转换为5hmC。而Tet家族酶与疾病的发展与调控有关。已报道TET蛋白和5hmC存在于许多不同的组织中,并且它们的表达/活性在胚胎干细胞分化过程中受到严格调控。TET1和TET2均与癌症有关:TET1在急性骨髓样白血病(AML)和急性淋巴样白血病(ALL)中是MLL的的一个配体,而TET2功能的缺失也与急性骨髓样白血病(AML)以及各种骨髓细胞生成障碍综合征和骨髓增生性疾病密切相关。TET蛋白和hmC引起DNA甲基化失调,在胚胎干细胞多潜能性,致癌性转化以及神经元的功能中可能具有重要作用。

然而,尽管5hmC修饰碱基早在50年前就在噬菌体中发现,然而目前几乎没有一种有效的酶或化学的方法可以特异性识别5hmC残基并分辨其在基因组中的具体分布。例如甲基化依赖性内切酶MspJI家族或McrBC均不能分辨5mC和5hmC,而甲基化敏感类内切酶如MspI或HpaII等,在大多情况下,5mC和5hmC对其有相同的影响。之前认为是检测甲基化金标准的重亚硫酸盐处理分析同样不能有效地分辨是5mC修饰还是5hmC修饰。最近随着5hmC特异性抗体的出现,依赖于免疫学检测5hmC的技术如斑点印迹分析技术、细胞免疫荧光或免疫组化分析技术等已被广泛应用于羟甲基化相关的科学研究之中,但这些技术基本上都只限于检测5hmC在组织或细胞内的存在与否或表达量的高低,而不能定位其在基因组上的分布。目前,在全基因组范围内检测5hmC分布的技术主要集中在富集捕获结合测序分析的策略,如:hMeDIP、anti-CMS、JBP-pull down等,但所有这些富集捕获的实验方法均不足以达到单碱基精确分辨5hmC在DNA序列内精确分布的程度,而且依赖于抗体或蛋白捕获的该类技术大多受到非特异性捕获以及捕获偏好性的限制。最近基于生物氧化反应建立起来的TAB-Seq和基于化学氧化建立起来的oxBS-seq可以检测全基因组的羟甲基化修饰,而且可以进行单碱基分辨,但是这两种检测方法所需要的数据量巨大且实验技术不宜在普通实验室建立,其广泛应用受到限制。

另一方面,用于检测5hmC在全基因组或不同细胞或组织中含量的检测方法却不断发展,5hmC在不同细胞或组织中含量的检测也不仅限于胚胎干细胞和脑组织中了。令人兴奋的是最新两个研究分别运用免疫组化和免疫测定的方法检测到5hmC在胚胎和成体组织均广泛存在。免疫测定发现5hmC在脑、肝、肾和结肠直肠组织中的百分含量比较高为0.40-0.65%,而在肺组织中含量相对较低为0.18%,在心脏,乳房和胎盘中的含量极低,仅为0.05-0.06%。相对正常结肠直肠组织0.46-0.57%的百分含量,该研究同样检测发现在癌变的结肠直肠组织中其含量仅为0.02-0.06%。这表明更亟待需要建立一种能够精确检测5hmC在基因组范围内精确分布的大规模检测技术,为进一步研究5-羟甲基胞嘧啶在基因组内的分布及其相关的表观调控机制提供一种有力的工具,也为进一步探索其对相关疾病的发生发展或在个体发育过程中所承担角色的实现提供前提条件。

最近,NEB公司根据T4噬菌体β-葡糖基转移酶(T4-BGT)可以高效的将尿嘧啶二磷酸葡萄糖(UDP-Glucose)的葡萄糖单元转移至双链DNA的5-羟甲基胞嘧啶残基上,形成的β-葡糖基-5-羟甲基胞嘧啶(5gmC)不能被MspI切开的原理建立了一种检测基因组CCGG位点甲基化和羟甲基化修饰的技术,具体如下:首先,全基因组经过MspI酶切,在酶切效率为100%的基础上,基因组所有的CCGG位点均可被切开(包括甲基化修饰和羟甲基化修饰位点);第二步,酶切后的片段以dCTP为底物,经过Klenow fragment的作用形成5’突出一个碱基C的粘性末端;第三步,4%的丙烯酰胺凝胶回收40-300bp范围的经Klenow fragment修复的DNA片段;第四步,回收片段连接5’突出碱基G的双链接头(接头可以介导后续的PCR扩增和测序);第五步,连接接头的回收片段经BGT糖基化修饰,则基因组原序列的CCGG位点如果含有羟甲基化修饰,则形成5gmC;第六步,连接接头后的糖基化修饰产物再进行MspI酶切,如果原CCGG位点是羟甲基化修饰,则连接的接头不会被切下来;第七步,取1/3的上述产物进行PCR扩增,测序,只有两端都有接头的序列即两端都是羟甲基化修饰的序列可以检测到。剩余2/3的产物分两份,每份各取1/3不直接进行PCR扩增,而分别在dCTP底物的作用下,经过Klenow fragment再次进行末端修复,形成一端或两端突出一个碱基C的粘性末端产物,然后在连接酶的作用下连接另外一种接头,连接产物中的一份直接进行PCR扩增,测序。另一份经HpaII酶切后再次经过末端修复和接头连接,PCR扩增测序。这样第一组检测到的序列两端的CCGG位点均羟甲基化修饰,第二组检测到的序列的一端为羟甲基化修饰,而另一端为甲基化修饰或不修饰,第三组检测到的序列的一端为羟甲基化修饰,而另一端为非修饰的CCGG位点。该技术需要经过多次的连接和酶切反应,DNA的CCGG粘性末端连接和酶切效率相对较低,特别是经过糖基化修饰后的连接和酶切效率可直接影响检测的准确性。此外,该技术主要是应用于基于PCR扩增的单基因或位点的检测,目前应用于高通量检测的具体方法和数据还没有报道。

此外,研究者运用T4噬菌体β-葡糖基转移酶(T4-BGT)修饰建立了一种HMST-seq的技术,该技术可以检测基因组大部分CCGG位点甲基化和羟甲基化修饰状态。借助5hmC经过糖基化修饰后不能被MspI限制性内切酶切割,而5mC和5C均可被MspI切开的原理,设计了一套含有生物素修饰的接头和含MmeI酶切位点的接头,全基因组依次经过糖基化修饰、MspI酶切、生物素修饰的接头连接、NlaIII酶切、链霉素磁珠捕获、以及含MmeI酶切位点的接头连接和MmeI酶切等操作构建文库,借助高通量测序仪精确检测5hmC在全基因组范围内的精确定位,建立一种单碱基分辨,精确检测5hmC的技术。该技术需要构建3个不同的文库,由于人为的浓度计算会引入相应的误差,影响检测准确性。此外,该技术检测的并不是直接的CCGG位点,而是在基因组上与其相邻的CATG位点,因此不论是基因组结构的变异还是信息关联的算法都会导致检测位点关联的错误。此外,由于非直接检测CCGG位点,需要保证所有的DNA片段内都具有CATG位点,这大大降低了基因组检测的范围。

发明内容

本发明要解决的技术问题是降低实验成本、高通量、提高基因组检测范围以及增加数据分析的准确性的检测核酸甲基化修饰和羟甲基化修饰的方法。

本发明提供了一种检测核酸甲基化修饰和羟甲基化修饰的方法,其特征在于,包括以下步骤:

步骤一:设置三组反应,其中一组对核酸进行糖基化处理,其余两组的核酸未经糖基化处理;

步骤二:将步骤一中经糖基化处理后的核酸的一组和未经糖基化处理的核酸的一组分别平行进行MspI酶切反应;将步骤一中剩余的未经糖基化处理的核酸的一组同时进行HpaII酶切反应;

步骤三:将步骤二中三组中的每组的酶切片段分别连接含有不同Index且同时包含Ecop15I或MmeI酶切位点的接头A,将连接有不同的接头A的各组的核酸混合到一起,得到一个包含无修饰、甲基化修饰和羟甲基化修饰的核酸文库;

步骤四:运用Bst DNA聚合酶将核酸文库中的双链DNA接头中有缺口的一条链进行修复;

步骤五:对上一步得到的核酸进行Ecop15I或MmeI酶切,产生短片段DNA序列。

步骤六:回收连接接头A的短DNA片段;

步骤七:将一段有两个碱基粘性末端的P7接头与步骤六的连接接头A的短DNA片段进行连接;

步骤八:以接头A和P7接头的DNA序列设计通用引物对步骤七得到的连有P7接头及接头A的短DNA片段进行PCR扩增,回收纯化PCR产物,建立测序文库。

步骤九:对步骤八得到的测序文库进行测序,分析比较序列信息,获得核酸甲基化修饰和羟甲基化修饰的信息。

所述步骤一中所述的核酸为基因组DNA。

所述步骤一中所述的糖基化处理为:核酸在T4-BGT酶的作用下,以尿嘧啶二磷酸葡萄糖为底物,将葡萄糖单元转移至核酸的5-羟甲基胞嘧啶上,形成β-葡糖基-5-羟甲基胞嘧啶。

所述接头A序列为三对:SEQ ID NO:1和SEQ ID NO:2;SEQ IDNO:3和SEQ ID NO:4;SEQ ID NO:5和SEQ ID NO:6。

所述P7接头序列为SEQ ID NO:7和SEQ ID NO:8。

所述步骤八中的进行PCR扩增所用的通用引物为SEQ ID NO:9和SEQ ID NO:10。

本发明还提供了一种用于检测核酸甲基化修饰和羟甲基化修饰的试剂盒,包括如下组分:

(1)用于进行糖基化修饰的试剂;

(2)限制性内切酶,

(3)含有不同Index的接头A,

(4)Bst DNA聚合酶;

(5)一段有两个碱基粘性末端的P7接头;

(6)根据接头A的DNA序列设计的通用引物;

(7)根据P7接头的DNA序列设计通用引物;

所述用于进行糖基化修饰的试剂为T4 β-葡萄糖基转移酶。

所述限制性内切酶为包括MspI、HpaII以及EcoP15I,或者包括MspI、HpaII以及MmeI。

所述接头A序列同时包含Ecop15I或MmeI酶切位点,为三对:SEQ ID NO:1和SEQ ID NO:2;SEQ ID NO:3和SEQ ID NO:4;SEQID NO:5和SEQ ID NO:6;所述P7接头为SEQ ID NO:7和SEQ IDNO:8;所述根据接头A的DNA序列设计的通用引物为SEQ ID NO:9,所述根据P7接头的DNA序列设计通用引物为SEQ ID NO:10。

本发明检测核酸甲基化修饰和羟甲基化修饰的方法运用糖基化转移酶修饰和甲基化敏感性不同的限制性内切酶酶切,可以同时检测全基因组内几乎全部CCGG位点的不同修饰即甲基化和羟甲基化的丰度;通过在接头A内引入index和酶切位点,可以将酶切后产生的未修饰、甲基化修饰和羟甲基化修饰的短DNA序列混合到一起,3个不同的文库整合到一个文库中,三个文库可以平行建库和实验,相互作为参照,直接分析基因组CCGG位点的修饰情况,具有高通量、高准确性并可降低实验和测序误差;此外,该技术不依赖于重亚硫酸盐的转换,弥补了传统甲基化检测技术中无法分辨甲基化和羟甲基化修饰的缺点。

附图说明

图1为本发明检测核酸甲基化修饰和羟甲基化修饰的方法检测文库片段的结果,其中横坐标为插入片段大小,纵坐标为信号强度。

图2为本发明检测核酸甲基化修饰和羟甲基化修饰的方法的流程图。

图3为本发明检测核酸甲基化修饰和羟甲基化修饰的方法的测序和数据比对结果。

图4为本发明检测核酸甲基化修饰和羟甲基化修饰的方法检测的各CCGG位点的甲基化、羟甲基化水平。

具体实施方式

本发明提供了一种检测核酸甲基化修饰和羟甲基化修饰的方法,如图2所示,包括如下步骤:

步骤一:对基因组DNA中的5-hmC进行糖基化修饰以及对照组反应

图2的上端从左至右依次为A组、C组和B组

A组:取没有蛋白、RNA污染的完整基因组DNA用T4 β-葡萄糖基转移酶(简称T4-BGT)进行处理;

B组和C组:同时,各取两份与A组等量的基因组DNA不进行糖基化处理,作为参照组,设为B组和C组。

A组中经T4-BGT处理后的基因组DNA,羟甲基胞嘧啶(5-hmC)转化为糖基羟甲基化胞嘧啶(5-ghmC)。该反应不依赖于DNA的序列结构,所有的5-hmC都将被糖基化修饰,而胞嘧啶(5-C)和甲基胞嘧啶(5-mC)则不会糖基化。

B组和C组由于没有糖基化处理,所有的碱基都不会发生碱基修饰的改变。

所述基因组DNA可以来源于动物组织提取的基因组DNA、细胞基因组DNA等,只要基因组序列中的CCGG位点存在ChCGG羟甲基化修饰,均可运用该技术进行检测。

步骤二:限制性内切酶MspI酶切消化

将步骤一中A组经T4-BGT处理后的DNA和B组DNA分别平行进行MspI酶切反应,MspI能识别和切割CCGG位点,该酶切反应不受甲基化(5-mC)和羟甲基化(5hmC)修饰的影响,但是当5-hmC转变为5-ghmC后,抑制了MspI的酶切,因此,A组中该位点经糖基羟甲基修饰后不能被切开,而B组该位点未经糖基羟甲基修饰则可以被切开。

将步骤一中C组DNA同时进行HpaII酶切反应。该HpaII酶同样识别CCGG位点,但是受甲基化(5-mC)和羟甲基化(5hmC)修饰的抑制,只能切割未经任何修饰的识别位点。

步骤三:接头A的连接

将上述A组、B组和C组中的每组的酶切片段分别连接含有不同Index的接头A,其接头序列同时包含Ecop15I或MmeI酶切位点。

将连接有不同的接头A的各组的DNA混合到一起,得到一个包含无修饰、甲基化修饰和羟甲基化修饰的DNA文库。

步骤四:Bst DNA polymerase fragment处理

运用Bst DNA聚合酶将双链DNA接头中有缺口的一条链进行修复,弥补DNA与接头之间可能存在的缺口。

步骤五:EcoP15I或MmeI酶切

对上一步得到的DNA进行Ecop15I或MmeI酶切(根据接头A的接头序列确定,当接头序列同时包含Ecop15I时,这里使用Ecop15I酶切,当接头序列同时包含MmeI时,这里使用MmeI酶切),产生短片段DNA序列。这些短片段DNA序列连接接头A的一端包含有CCGG位点的修饰信息,另一端产生一个两碱基的粘性末端。通过分析连接不同index的短片段的数量,即可得出该位置甲基化修饰、羟甲基化修饰的相对丰度。

步骤六:片段选择

通过丙烯酰胺凝胶电泳,回收连接接头A的短DNA片段。

步骤七:P7接头连接

在DNA连接酶的作用下,将一段有两个碱基粘性末端的P7接头与步骤六的连接接头A的短DNA片段进行连接。

步骤八:PCR扩增

以接头A和P7接头的DNA序列设计通用引物对步骤七得到的连有P7接头及接头A的短DNA片段进行PCR扩增,建立可以高通量测序的文库。

步骤九:PCR产物的回收

用丙烯酰胺凝胶电泳回收纯化PCR产物,得到上机文库。

步骤十文库质控

回收产物运用QPCR和Agilent Bio-analyzer进行文库插入片段和上机浓度的质控。

本发明还提供了一种用于检测核酸甲基化修饰和羟甲基化修饰的试剂盒,所述试剂盒包括:

(1)用于进行糖基化修饰的试剂;优选为T4β-葡萄糖基转移酶;

(2)限制性内切酶,优选为包括MspI、HpaII以及EcoP15I,或者优选为包括MspI、HpaII以及MmeI;

(3)含有不同Index的接头A,其接头序列同时包含Ecop15I或MmeI酶切位点;优选为三对:SEQ ID NO:1和SEQ ID NO:2;SEQID NO:3和SEQ ID NO:4;SEQ ID NO:5和SEQ ID NO:6。

(4)Bst DNA聚合酶;

(5)一段有两个碱基粘性末端的P7接头;优选为SEQ ID NO:7和SEQ ID NO:8。

(6)根据接头A的DNA序列设计的通用引物;优选为SEQ ID NO:9。

(7)根据P7接头的DNA序列设计通用引物;优选为SEQ ID NO:10。

下面结合具体实施例,进一步阐述本发明。

步骤一:对基因组DNA中的5-hmC进行糖基化修饰以及对照组反应

A组:取500ng人源基因组DNA(全血DNA)为起始量进行糖基化处理:

B组和C组:同时,各取两份500ng人源基因组DNA(全血DNA)不进行糖基化处理,作为参照组,设为B组和C组。

各组的处理方法如下:

1)在1.5ml的离心管中配制如表1所示的反应体系:

表1

其中25xUDP-Glucose的生产厂家为NEB、型号为M0357L,10xNEB buffer4的生产厂家为NEB、型号为M0357L,T4-BGT的生产厂家为NEB、型号为M0357L。

2)混匀,37℃水浴16-19h,反应后用乙醇沉淀回收,回收产物溶于30ul EB(生产厂家为Qiagen,型号为19086,下同)中。

步骤二:限制性内切酶MspI或HpaII酶切消化

1)在上一步最后A和B组得到的产物内各加入500U的限制性内切酶MspI(生产厂家为NEB、型号为R0106M)和100μl的1XNEBbuffer4进行酶切,C组加入50U的HpaII(生产厂家为NEB、型号为R0171L)限制性内切酶和100μl的1XNEB buffer4进行酶切,混匀。

2)37℃水浴16-19h,反应完后将产物80℃灭活20min,乙醇沉淀回溶于40μl EB。

步骤三:接头A的连接

1)将上一步各组得到的DNA分别按下表在1.5ml的离心管中配制加接头A连接,反应体系如表2所示。

表2

其中10XNEB buffer 4的生产厂家为NEB、型号为M0202L,ATP的生产厂家为NEB、型号为M0202L,T4DNA连接酶的生产厂家为NEB、型号为M0202L,其中各组所使用的接头A的序列如表3所示,两条链各加入0.4μl。

表3

2)然后将离心管放到调至16℃的Thermomixer(Eppendrf)上反应5h,反应完后65℃灭活10min,将三组产物混合,用乙醇沉淀进行回收,最后溶于30μl EB中。

步骤四:Bst DNA polymerase fragment处理

1)将上一步得到的DNA按下表配制如表4所示的反应体系:

表4

所述10xThermoPol buffer的生产厂家为NEB,Bst DNA聚合酶的生产厂家为NEB、型号为M0275S;dNTP的生产厂家为TAKARA、型号为4030。

2)然后放到调至65℃的Thermomixer(Eppendrf)上反应20min。

3)反应完后80℃温育20min,热失活。之后用乙醇沉淀回溶于30μlEB中。

步骤五:EcoP15I酶切

1)将上一步得到的DNA按下表配制如表5所示的反应体系。

表5

以上试剂的生产厂家为NEB、型号为R0646S。

2)37℃水浴16h。

步骤六:片段选择

1)将上一步得到的DNA进行6%PAGE(不变性丙烯酰胺胶)胶电泳:180V,30min。

2)然后对目的带60bp处进行切胶选择,将目的条带放入套有2ml离心管的0.5ml离心管内(其中0.5ml离心管底部用针刺有6个小洞),然后将其置于离心机内以14000rpm的速率离心2min,将胶收集在2ml离心管内。

3)在2ml的离心管中加入100μL的1×NEB buffer2(生产厂家为NEB、型号为R0171L),将离心管置于垂直混合器上,室温14000rpm旋转20min。

4)将管内的液体以及胶转到Spin-X过滤管中,在离心机上14,000rpm离心2min,再依次加入1μL糖原(生产厂家为Ambion、型号为AM9510,下同),10μL的3M醋酸钠以及325μL预冷的无水乙醇,混匀后置于-80℃放置30min。

5)将管置于离心机中,14000rpm,4℃,10min。

6)小心吸出上清,用70%乙醇对沉淀洗一次,将管置于离心机中,14000rpm转速下4℃离心5min。

7)小心吸走上清,置于室温晾干2min。

8)将沉淀溶于14μl的EB中。

步骤七:P7接头连接

1)按表6所示的体系依次加入连接反应体系:

表6

以上试剂的生产厂家均为Invitrogen、型号均为15224-041,所述P7接头的序列如表3所示,每条链加入0.5μl。

2)置于调至16℃的Thermomixer(Eppendrf)上反应3h。

步骤八:PCR扩增

将上一步得到的DNA按以下表7所示的体系配制PCR反应体系:

表7

以上试剂的生产厂家均为NEB、型号均为M0530S。所述P5引物和P7引物的序列如表3所示。

PCR反应条件如下:

步骤九:PCR产物的回收

1)将PCR产物进行6%不变性丙烯酰胺胶进行电泳:180V,30min。

2)然后对目的带(约100bp)进行切胶回收,将目的条带放入套有2ml离心管的0.5ml离心管内(其中0.5ml离心管底部用针刺有6个小洞)。将其置于离心机内以14000rpm的速率离心2min,将胶收集在2ml离心管内。

3)在2ml离心管中加入100μL of 1×NEB buffer2,将管置于垂直混合器上,室温转2h。

4)将管内的液体以及胶转到Spin-X过滤管中,在离心机上以14,000rpm的速率离心2min,再依次加入1μL糖原、10μL的3M醋酸钠以及325μL预冷的100%乙醇,混匀后置于-80℃放置30min。

5)将管置于离心机中,14000rpm,4℃离心10min。

6)小心吸出上清,用70%乙醇对沉淀洗一次,将管置于离心机中,14000rpm,4℃离心5min。

7)小心吸走上清,将沉淀置于室温晾干2min。

8)将沉淀溶于15μl Elution Buffer。

步骤十:文库检测

用安捷伦2100生物分析仪(Bioanalyzer analysis system,Agilent,SantaClara,USA)检测文库插入片段大小以及含量;Q-PCR精确定量文库的浓度(见图1)。

测序及数据分析:

文库检测合格后将按照单末端50个碱基的读长在Hiseq2000测序仪上进行序列分析;对测序数据进行过滤、酶切片段提取、比对后,统计测序数据产出及比对结果。具体操作步骤如下:

1)文库检测合格后,按照单末端50个碱基的读长在Hiseq2000测序仪上进行序列分析;

2)测序分析结束后,得到下机的建库片段的原始序列信息,根据建库所加测序接头的序列信息,除去每条原始序列上的接头序列;同时对原始序列进行质量过滤,除去低质量的原始序列,过滤条件为:序列中N碱基的数量超过总碱基数的10%,或者碱基质量值低于20的碱基数超过总结碱基数的10%,这样的序列将被过滤;同时,根据各个文库所加Index信息,拆分出不同文库的测序序列。

3)将人基因组hg 19的序列在该实验方案下,进行计算机模拟酶切,得到理论的酶切片段,形成虚拟文库;再将上一步过滤后得到的三个文库的测序序列分别同虚拟文库进行比对,允许1个错配;比对结束后,对比对结果进行统计;比对结果如图3所示,其中样品一和样品二为两个人全血DNA的自定义编号;“过滤后序列”表示第2)步过滤后剩下的序列;“比对序列”表示能比对到参考基因组上的序列,包括比对序列数和比对率,比对率为比对序列数占过滤后序列数的百分比;“总位点数”表示各个文库能检测到的CCGG位点总数(该方法将检测位点数提高至1.6M位点,比现有的技术提高了33%);“总序列数”表示各个文库覆盖CCGG位点的总序列数、“位点平均深度”表示各个文库覆盖CCGG位点的平均序列数。

4)比对结束后,统计每个CCGG位点在三个文库中的测序深度,并进行数据的归一化,归一化方法为:(a)根据CCGG位点的深度对每一列,即每一个文库,进行排序,每一个CCGG位点获得在每一个文库中的排序值;(b)计算每一个位点在三个文库中的排序值的方差,舍弃方差较大的点,舍弃点的数目为:(总位点数-5000)/4。对剩余点继续进行排序每个CCGG位点获得在每一列中的排序值,计算每个位点的三个排序值的方差,并去除方差较大的(总位点数-5000)/4个点;以此类推,循环4次,最后剩余5000个点作为归一化的基准线。根据这5000个排序比较稳定的点的总测序深度在三个文库间的比例关系,对这三个文库进行归一化。

5)根据归一化后的数据计算出每个CCGG位点的甲基化水平和羟甲基化水平。

样品各CCGG位点的甲基化、羟甲基化水平如图4所示:第一列表示CCGG位点所在染色体,第二列表示CCGG在染色体上的位置,第三列表示该CCGG位点的甲基化水平,第四列表示该CCGG位点的羟甲基化水平。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号