首页> 中国专利> 一种融合驱动基因单端锚定的DNA融合断点注释方法

一种融合驱动基因单端锚定的DNA融合断点注释方法

摘要

本发明涉及一种融合驱动基因单端锚定的DNA融合断点注释方法。具体而言,本发明涉及一种可由计算机实施的对DNA融合断点进行融合驱动基因单端锚定的融合断点注释方法。本发明还涉及用于实施所述方法的计算机系统、计算机可读介质、装置和设备。

著录项

  • 公开/公告号CN112599188A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 上海思路迪医学检验所有限公司;

    申请/专利号CN202110222604.0

  • 申请日2021-03-01

  • 分类号G16B20/00(20190101);G16B30/10(20190101);G16B40/00(20190101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人彭昶;李志强

  • 地址 200120 上海市浦东新区康新公路3399弄25号楼8层

  • 入库时间 2023-06-19 10:27:30

说明书

技术领域

本发明属于基因检测技术领域,具体涉及一种基因例如DNA结构变异检测结果的注释方法及其相关的系统、装置、计算机可读存储介质、设备。更具体而言,本发明涉及一种融合驱动基因单端锚定的DNA融合断点注释方法及其相关的计算机系统、装置、计算机可读存储介质、设备。

背景技术

基因融合现象是肿瘤发生的重要驱动因素,也是指导肿瘤治疗和用药的重要分子生物标志物。目前基于二代测序技术的RNA-seq以及DNA-seq是检测基因融合现象的重要手段。RNA-seq可以直接检测融合基因转录表达的序列,进行序列比对后可获得准确的转录本层面断点位置,一般可作为融合检测的金标准。而从DNA层面来看,如发生基因融合现象时,断点可以发生在基因组的任意位置,其可以在基因的内含子区域,也可以在基因的外显子区域,甚至可以在基因间区。基于DNA-seq的技术仅能检测到基因融合在DNA上的断点位置,因而需要进一步将断点注释到相应的基因上,进而推测可能的融合基因形式及其可转录序列以及潜在的融合蛋白序列以及功能等。由于DNA-seq与RNA-seq检测标的的差异,导致二者在检测结果上可能存在不一致的现象,而这种现象产生的来源主要是DNA断点的注释不准确导致。为了尽可能准确的在DNA层面检测基因融合现象,本发明提出了一种融合驱动基因单端锚定的融合断点注释方法,并利用RNA-seq技术进行了验证。因此,本发明要解决提高DNA-seq检测的准确性的技术问题。

发明内容

本发明通过以下两者的结合解决了大幅提高DNA-seq检测的融合与RNA-seq检测的融合结果的一致性的技术问题:融合断点落在外显子范围内的注释方法或步骤,以及非5’-3’形式融合的驱动基因锚定注释方法或步骤。

在一个方面, 本发明涉及一种可由计算机实施的对DNA融合断点进行融合驱动基因单端锚定的融合断点注释方法,所述方法按顺序包括以下步骤:

(1) 根据测序的DNA序列信息获得所述DNA融合断点的基因组位置及方向信息;

(2) 将融合断点注释到对应的基因组上,从而获得融合断点两端与基因的相关信息,其中通过将断点两端分别注释来判断断点是在基因范围内还是在基因间区(IR),和其中在断点是在基因范围内的情况下根据对应基因的转录本的信息判断断点是在内含子区域或是外显子区域,根据融合的方向与基因注释信息判断该基因在融合过程中提供基因的5'区域和3'区域,并且将融合两端分别注释从而获得初步注释结果;

(3) 根据步骤(2)的初步注释结果检测或判断融合两端断点是5’-3’形式融合还是非5’-3’形式融合,其中在5’-3’形式融合的情况下,输出第一最优的融合注释结果;和其中在非5’-3’形式融合的情况下,进行驱动基因单端锚定的二次注释,所述二次注释包括:

- 在融合断点注释为5’-5’形式融合的情况下,尝试以任一端为融合驱动基因锚定重新注释另一端断点,并最终选择第二最优的融合注释结果进行输出;

- 在融合断点注释为5’-IR形式融合的情况下,尝试以提供5’端的基因为融合驱动基因锚定重新注释另一端断点;并最终选择第二最优的融合注释结果进行输出;和

- 在融合断点注释为3’-3’、3’-IR或IR-IR形式融合的情况下,不再进行重新注释,直接输出初步注释结果,

其中重新注释规则是:在断点及融合方向下游一定范围内搜索基因方向与融合方向一致的基因,如存在满足该条件的基因,且基因的外显子数目大于1,则将该断点注释到满足条件的该基因的第2个外显子处;如不存在满足条件的下游基因,则按第一最优的注释结果输出。

在一个方面,在重新注释中,如存在满足该条件的基因,且基因的外显子数目大于1,则将该断点注释到满足条件的该基因的下一个外显子处。

在一个方面,步骤(2)的初步注释结果包括

a)断点两端都注释在基因间区,即IR-IR形式融合;

b)断点两端只有一端注释在基因范围内另一端注释在基因间区,其依据注释在基因范围内的断点所在基因提供的基因结构域区域包括5’-IR形式融合和3’-IR形式融合;和

c)断点两端都注释在基因范围内,其依据断点两端的基因分别提供的基因结构域区域包括5’-5’形式融合、5’-3’形式融合以及3’-3’形式融合。

在一个方面,所述第一最优的融合注释结果包括以下中的一个或多个:

i)断点两端的基因都选用行业公知的转录本编号注释;

ii)断点两端的基因选择的转录本在融合基因中不改变各自原有的蛋白编码阅读框信息;和

iii)断点两端的基因都选择在融合基因中能提供最长编码序列的转录本。

在一个方面,所述第二最优的融合注释结果包括以下中的一个或多个:

i)断点两端的基因都选用行业公知的转录本编号注释;

ii)断点两端的基因选择的转录本在融合基因中不改变各自原有的蛋白编码阅读框信息;和

iii)断点两端的基因都选择在融合基因中能提供最长编码序列的转录本;和

iv)产生的融合基因中存在完整的激酶结构域。

在一个方面,在步骤(2)中,在断点发生在外显子范围内的情况下,在注释时仅保留转录本在融合发生后所能提供的所有完整的外显子区域。

在一个方面,在重新注释中,搜索范围的数值为1Kb至500Kb, 特别是10Kb至200Kb,更特别是20Kb至100Kb,例如100bp、200bp、500bp、1Kb、2Kb、5Kb、10Kb、15Kb、30Kb、40Kb、50Kb、60Kb、70Kb、80Kb、90Kb、100Kb、120Kb、150Kb、200Kb、250Kb、300Kb、350Kb、400Kb、450Kb、500Kb。

在一个方面,步骤(1)还包括从测序仪获得融合基因的序列信息,并且所述序列信息经过输入设备输入到计算机中。

在一个方面,在步骤(1)中计算机处理器接收并处理输入的序列信息,从而生成融合基因的融合断点信息;在步骤(2)中计算机处理器处理所述融合断点信息并生成初步注释结果;和/或在步骤(3)中计算机处理器处理所述成初步注释结果并生成第一和/或第二最优的融合注释结果。

在一个方面,计算机处理器将初步注释结果、第一最优的融合注释结果和/或第二最优的融合注释结果传输并显示到输出设备中。

在一个方面,本发明涉及用于实施本发明方法的计算机系统,其包括:输入设备,用于输入融合基因的序列信息;计算机存储器,用于存储计算机程序指令;计算机处理器,用于执行所述计算机程序指令,其中所述计算机程序指令实施本发明的步骤(1)至(3),对融合基因的序列信息进行处理并生成融合基因的初步注释结果、第一最优的融合注释结果和/或第二最优的融合注释结果,并将注释结果传输到输出设备;和输出设备,用于显示注释结果。

在一个方面,本发明涉及一种计算机可读介质,其中所述计算机可读介质存储有计算机程序,其中所述计算机程序能被计算机处理器执行以实施本发明的方法。

在一个方面,本发明涉及一种用于实施本发明方法的装置,其包括:序列输入模块,用于从测序仪获得融合基因的序列信息;融合断点信息模块,用于实施步骤(1);初步注释模块,用于实施步骤(2);二次注释模块,用于实施步骤(3);和显示注释结果模块,用于显示初步注释结果、第一最优的融合注释结果和/或第二最优的融合注释结果。

在一个方面,融合基因的融合断点可为DNA融合断点。本发明的方法可为DNA融合断点注释方法。

在一个方面,本发明方法可以不是疾病诊断方法。具体而言,本发明方法的直接目的可以不是获得诊断结果或健康状况,而只是从患者或受试者获取作为中间结果的信息,或处理该信息。在一个方面,所述中间结果信息可为融合断点注释的结果。在另一方面,所述中间结果信息可为本文所述的初步注释结果、第一最优的融合注释结果和/或第二最优的融合注释结果。在一个方面,根据现有技术中的医学知识和本申请公开的内容,医师在获得和知晓所述中间结果信息,不一定能获得直接得出疾病的诊断结果或健康状况。例如,医师可通过本发明方法获得受试者的融合基因的融合断点信息,但是该受试者自身不一定已经罹患癌症。又例如,医师可通过本发明方法获得受试者的融合基因的融合断点信息,但不会直接判断出患者已经罹患癌症。

在一个方面,患者或受试者是人。

附图说明

图1显示了基因融合的一个非限制性实例。exon:外显子。

图2显示了本发明融合驱动基因锚定的断点注释方法示意图。

图3显示了本发明融合断点在外显子范围内的注释方法、原理或步骤。

图4显示了本发明融合断点在基因上游的注释方法、原理或步骤。

图5A至5D显示了实施例中使用本发明方法对多个实体瘤患者样品进行DNA融合断点重新注释的结果。exon:外显子,intron:内含子。

具体实施方式

术语“基因融合”可以指两个基因的全部或一部分的序列相互融合为一个新的基因的过程。基因或基因组融合有可能是基因组变异例如染色体易位、中间缺失或染色体倒置等所致的结果。一般来说,基因融合是指基因组(DNA)层面的融合,但转录组(RNA)层面也可能发生融合。诸多研究不断表明,基因融合与各种疾病,特别是癌症的发生发展紧密相关,甚至是一些癌症的直接诱因。

术语“基因注释”或“基因组注释”可以指在基因或基因组序列中标定基因位置与组成结构。例如,基因注释可以包括基因结构注释、基因功能注释、重复序列分析、非编码RNA注释。

本发明中使用的其它术语按照本领域技术所熟知的方式去理解,并且这些术语的解释和含义可以从本领域中的相关文献或文件中容易地获得。

图1显示了基因融合的一个非限制性实例。如图1所示,在DNA层面上,基因A和基因B首先分别产生两个断点,随后再分别在断点处连接在一起形成一个新的融合基因。重新融合的位置可为融合断点。在RNA层面上,融合基因在转录后由外显子构成一个新的融合转录物。在一个方面,断点可以出现在基因间区和基因范围内(例如基因外显子区域或基因内含子区域)。在另一个方面,基因融合形式可以是5'-3'形式融合、3'-3'形式融合或5'-5'形式融合。图1中显示的断点出现在内含子区域,但本领域技术人员理解断点还可能出现在基因间区或基因外显子区域。此外,图1中显示的融合是5'-3'形式融合,但本领域技术人员理解融合方式还可以包括3'-3'形式融合或5'-5'形式融合。

本发明方法的详细流程和步骤如图2所示。

首先,获得融合的断点信息。融合的断点信息包含融合发生的染色体编号、位置、方向及其他信息。融合的断点信息可以通过常见的融合鉴定算法获得。

在获得融合断点信息后,将融合断点注释到基因组上,并获得融合断点两端与基因的相关信息。一般来说,基因注释信息可以从UCSC基因组浏览器网站上获得。此步骤中,首先将断点两端分别注释,判断断点是否在基因范围内或者基因间区。如在基因范围内,再依据不同转录本的注释信息判断是否在内含子区域或外显子区域。依据外显子可变剪切的生物学原理,一般情况下,相邻两个外显子在发生可变剪切时上游外显子需提供完整的可变剪切供体端,而下游外显子需提供完整的可变剪切受体端。如断点发生在外显子范围内,该外显子支持可变剪切的供体端或受体端必将缺失其一,因而本发明在注释时将仅保留该转录本在融合发生后所能提供的所有完整的外显子区域(图3)。如断点注释在基因范围内,依据融合的方向与基因注释信息,可以判断该基因在融合过程中提供基因的5’区域或3’区域。在融合两端分别经过注释后,其注释结果存在以下几种情形:1)断点两端都注释在基因范围内;2)断点两端只有一端注释在基因范围内,另一端注释在基因间区;3)断点两端都注释在基因间区。如融合断点两端都注释在基因范围内,依据断点两端的基因分别提供的基因结构域区域,可以分为5’-5’形式融合(即断点两端基因都提供基因的5’区域)、5’-3’形式融合(即断点两端基因的一端提供基因的5’区域而另一端提供基因的3’区域)以及3’-3’形式融合(及断点两端基因都提供基因的3’区域)。如断点两端只有一端注释在基因范围内,另一端注释在基因间区,依据注释在基因范围内的断点所在基因提供的基因结构域区域,可以分为5’-IR(IR即基因间区)以及3’-IR两种形式融合。如断点两端都注释在基因间区,则注释结果为IR-IR形式。

第三步,检测融合两端断点经注释后是否属于5’-3’形式融合。如果是5’-3’形式融合,则输出最优的融合注释结果;如果不是,则进行驱动基因单端锚定的二次注释。一般来说,最优的融合注释结果可以是以下几种之一或者组合:1)断点两端的基因都选用行业公知的转录本编号注释;2)断点两端的基因选择的转录本在融合基因中不改变各自原有的蛋白编码阅读框信息;3)断点两端的基因都选择在融合基因中能提供最长编码序列的转录本。

第四步,驱动基因单端锚定的二次注释。融合断点如果经第二步注释后不属于5’-3’形式融合,则进行驱动基因单端锚定的二次注释。具体可以分为以下几种情形:1)融合断点注释为5’-5’形式融合的,则尝试以任意一端为融合驱动基因锚定重新注释另一端断点,并最终选择最优的融合注释结果进行输出;2)融合断点注释为3’-3’、3’-IR或IR-IR形式融合的,不再进行重新注释,直接输出第二步注释结果;3)融合断点注释为5’-IR形式融合的,则尝试以提供5’端的基因为融合驱动基因锚定重新注释另一端断点,并最终选择最优的融合注释结果进行输出。重新注释的规则如下(图4):在断点及融合方向下游一定范围内(如50Kb)搜索基因方向与融合方向一致的基因,如存在满足该条件的基因,且基因的外显子数目大于1,则将该断点注释到满足条件的该基因的第2个外显子处;如不存在满足条件的下游基因,则按原注释结果输出。选择最优的融合注释结果可以是以下几种之一或者组合:1)断点两端的基因都选用行业公知的转录本编号注释;2)断点两端的基因选择的转录本在融合基因中不改变各自原有的蛋白编码阅读框信息;3)断点两端的基因都选择在融合基因中能提供最长编码序列的转录本;4)产生的融合基因中存在完整的激酶结构域。

本发明通过以下两者的结合大幅提高DNA-seq检测的融合与RNA-seq检测的融合结果的一致性:融合断点落在外显子范围内的注释方法或步骤,以及非5’-3’形式融合的驱动基因锚定注释方法或步骤。本申请下面的实施例充分验证了至少具有这两个特征的本发明方法所能达到的技术效果,即注释方法的准确性大幅提高。然而,该实施例不应理解成限制本发明实施和本发明效果的限制条件。技术人员理解,可以使用各种类型的癌症样品或者其他疾病的样品实施本发明的方法并可实现相应的本发明效果。

实施例

取实体瘤患者手术切除组织所制备的FFPE样本604例,分别提取DNA及RNA建库,DNA文库经捕获后进行二代测序,RNA文库进行全转录组测序。测序得到各样本的DNA序列及RNA序列,其中DNA序列经BWA比对到人类参考基因组版本hg19上,RNA序列经STAR比对到人类参考基因组版本hg19对应的转录本上。测序获得的DNA序列或比对获得的BAM文件可用于任意检测结构变异的软件进行融合检测,获得的融合断点及方向作为本发明的输入文件进行融合注释,获得的融合结果可作为本发明DNA融合注释结果的对比结果。一种具体的可用于检测结构变异的软件如breakID即可利用BAM文件作为输入并输出检测到的融合信息。作为本发明注释结果的第二种对比方法,RNA序列经比对获得的BAM文件利用STAR-fusion检测RNA融合结果。

利用DNA融合检测软件输出的融合断点及方向,经本发明所述方法重新注释后报告了4例与对比DNA融合检测软件输出注释结果不一致的融合基因形式,其中,4例样本在DNA对比检测方法中均仅检测到融合断点而无明确的融合基因故而被报告为融合阴性样本,本发明报告的该4例融合结果与对比RNA方法检出的融合完全一致,表明了本发明提出的注释方法的准确性(图5A至5D)。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定专利保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号