首页> 中国专利> 噬血细胞综合征候选致病基因与变异的筛选装置及介质

噬血细胞综合征候选致病基因与变异的筛选装置及介质

摘要

本申请涉及一种噬血细胞综合征候选致病基因与变异的筛选装置及介质,属于基因测序分析技术领域,其装置包括:获取模块,用于获取受检者的基因测序变异文件;初步过滤模块,用于对基因测序变异文件中的变异位点进行初步过滤;变异注释模块,用于对初步过滤后的基因测序变异文件中的变异位点进行注释,生成变异注释文件;二次过滤模块,用于对变异注释文件中的变异位点进行二次过滤;筛选模块,用于基于本地变异库对二次过滤后的变异注释文件中的变异位点进行筛选,得到候选致病基因及变异;其中,本地变异库存储有相似HLH表型患者及无表型的家属的基因测序数据。本申请能够快速、准确地筛选出与HLH相关的有害突变。

著录项

  • 公开/公告号CN116842232A

    专利类型发明专利

  • 公开/公告日2023-10-03

    原文格式PDF

  • 申请/专利权人 倍科为(天津)生物技术有限公司;

    申请/专利号CN202310841138.3

  • 发明设计人 卓频;

    申请日2023-07-08

  • 分类号G06F16/9035(2019.01);G16B20/30(2019.01);G16B20/50(2019.01);G16B50/00(2019.01);

  • 代理机构北京维正专利代理有限公司 11508;

  • 代理人黄春晓

  • 地址 301700 天津市武清区武清开发区畅源道国际企业社区G6号楼106室

  • 入库时间 2024-04-18 19:41:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-10-03

    公开

    发明专利申请公布

说明书

技术领域

本申请涉及基因测序分析技术领域,尤其是涉及一种噬血细胞综合征候选致病基因与变异的筛选装置及介质。

背景技术

噬血细胞综合征(hemophagocytic syndrome,HPS),又称噬血细胞性淋巴组织细胞增生症(hemophagocytic lymphohistiocytosis,HLH),是一种罕见的、危及生命的免疫综合征。其特征是,淋巴细胞和组织细胞过度增生而导致细胞因子介导的组织损伤和多器官的功能障碍。该疾病起病急,病情进展迅速,死亡率高。

根据病因的不同,HLH可分为家族性(即原发性)和获得性(即继发性)两种形式。原发性HLH由影响细胞溶解功能、淋巴细胞存活的基因突变或炎症小体激活引起,主要发生于儿童,且发病年龄较小。继发性HLH主要是由获得性因素触发,常与感染、恶性肿瘤、风湿性疾病和自身免疫性疾病相关,儿童和成人均可见。最常见的感染相关的HLH是EBV-HLH(EB病毒相关HLH)。最常见的HLH相关的恶性肿瘤是淋巴瘤。当HLH发生在风湿性疾病的背景下,如系统性幼年特发性关节炎(sJIA)、成人发病的Still病(ASD)或系统性红斑狼疮(SLE),它通常被称为巨噬细胞激活综合征(MAS)。目前认为很多继发性HLH也存在一定的基因背景,如原发性HLH相关基因的杂合改变及多态性,并且在遭受外界触发因素(如病毒感染等)的“二次打击”后表现出HLH发病。

由于HLH进展迅速,因此快速及时的诊断非常必要。目前公认的HLH诊断标准为HLH-2004诊断标准,即将基因检测、临床表现和实验室检查结果相结合。常用的基因检测方法有一代(Sanger)测序、聚合酶链反应(PCR)及二代测序(NGS)。其中二代测序主要包括全外显子组测序(WES)、全基因组测序(WGS)及靶向测序等。全基因组测序检测范围全面,但成本相对较高,且众多的非编码区变异筛选与解读存在困难。靶向测序成本相对较低,但检测范围不够全面。而随着测序技术的不断发展,全外显子组测序不仅可检测到蛋白编码区域,也可检测到编码区边界区域的部分非编码区及深度内含子区的已知致病性突变,成本可控,覆盖已知致病基因,还有助于检出新的致病突变,因此被广泛应用。但是,每个全外显子组测序样本原始检出的变异个数均在十万以上,尤其是单人检测样本,单人样本的检测数据筛选难度较大,尤其是对于遗传方式为AD、XLD及XLR的疾病不能判断家系共分离,无论是在筛选位点的准确性还是在筛选时间上都存在比较大的挑战。

因此,如何快速、准确地筛选出与HLH相关的有害突变是亟待解决的问题。目前尚没有与HLH相关疾病的全外显子组测序数据筛选方法。

发明内容

为了解决上述技术问题,本申请提供一种噬血细胞综合征候选致病基因与变异的筛选装置及介质。

第一方面,本申请提供一种噬血细胞综合征候选致病基因与变异的筛选装置,采用如下的技术方案:

一种噬血细胞综合征候选致病基因与变异的筛选装置,包括:

获取模块,用于获取受检者的基因测序变异文件;

初步过滤模块,用于对所述基因测序变异文件中的变异位点进行初步过滤;

变异注释模块,用于对初步过滤后的基因测序变异文件中的变异位点进行注释,生成变异注释文件;

二次过滤模块,用于对所述变异注释文件中的变异位点进行二次过滤;

筛选模块,用于基于所述本地变异库对二次过滤后的变异注释文件中的变异位点进行筛选,得到候选致病基因及变异;

其中,所述本地变异库存储有相似HLH表型患者及无表型的家属的基因测序数据。

可选的,所述获取模块包括:

质控子模块,用于获取所述受检者的原始测序数据,对所述原始测序数据进行质控,生成fastq格式文件;

比对子模块,用于将所述fastq格式文件与参考基因组中的碱基序列进行比对,生成sam文件;

转换处理子模块,用于将所述sam文件转换为bam文件,并对所述bam文件进行预设处理,其中,所述预设处理包括去重和建立索引;

变异检测子模块,用于对第一处理后的bam文件进行变异检测,生成所述基因测序变异文件。

可选的,所述初步过滤模块,具体用于将满足初步过滤条件的变异位点过滤掉;

其中,所述初步过滤条件包括低质量值、测序总深度小于预设深度、突变频率小于第一预设频率以及长度不小于预设长度的INDEL变异中的至少一种条件。

可选的,所述变异注释文件包括变异基本信息注释、变异在人群频率数据库中的注释、变异相关疾病的注释、变异ACMG评级注释、变异危害性预测注释、变异相关文献注释和HLH疾病相关基因集注释中的至少一种。

可选的,所述二次过滤模块包括:

第一过滤子模块,用于将属于预设变异类型的变异位点确定为第一候选过滤对象,将满足第一保留条件、第二保留条件、第三保留条件、第四保留条件和第五保留条件中的任一种条件的第一候选过滤对象进行保留,并过滤掉其余的第一候选过滤对象;

第二过滤子模块,用于将在公共人群频率数据库中所有数据库频率均大于第二预设频率的变异位点确定为第二候选过滤对象,将满足所述第一保留条件、所述第二保留条件和所述第三保留条件中的任一种条件的第二候选过滤对象进行保留,并过滤掉其余的第二候选过滤对象;第三过滤子模块,用于将属于Clinvar数据库中2星以上的良性或者可能良性的变异位点确定为第三候选过滤对象,将满足所述第二保留条件的第三候选过滤对象进行保留,并过滤掉其余的第三候选过滤对象;

其中,所述预设变异类型包括未知突变、同义突变、基因间区突变、非编码RNA突变、内含子突变、5`UTR突变、3`UTR突变、上游突变及下游突变中的至少一种;

所述第一保留条件为属于Clinvar数据库中致病性Pathogenic或可能致病性Likely Pathogenic的变异位点;

所述第二保留条件为在人类基因突变数据库HGMD中的突变标签是致病突变DM、疑似致病突变DM?以及疾病相关多态性突变DFP中的任一种的变异位点;

所述第三保留条件为在所述变异ACMG评级注释中ACMG评级为致病性Pathogenic或可能致病性Likely Pathogenic的变异位点;

所述第四保留条件为具有所述变异相关文献注释的变异位点;

所述第五保留条件为所述变异危害性预测注释中至少一个软件预测为有害的变异位点。

可选的,所述候选致病基因及变异包括候选新发突变致病基因及变异、候选复合杂合突变致病基因及变异、候选纯合突变致病基因及变异、候选性染色体突变致病基因及变异和候选AR单杂合突变致病基因及变异中的至少一种。

可选的,所述二次过滤模块包括:

判断模块,用于判断所述变异注释文件中的变异位点是否满足第六保留条件、第七保留条件和第八保留条件;

第一保留模块,用于对同时满足所述第六保留条件、所述第七保留条件和所述第八保留条件的变异位点进行保留,并将未保留的变异位点作为第一候选保留对象;

第二保留模块,用于对所述第一候选保留对象中满足第二保留条件的变异位点进行保留,并将未保留的变异位点作为第二候选保留对象;

第三保留模块,用于对所述第二候选保留对象中满足第九保留条件的变异位点进行保留,并将未保留的变异位点作为第三候选保留对象;

第四保留模块,用于对所述第三候选保留对象中满足第十保留条件的变异位点进行保留,并将未保留的变异位点过滤掉;

其中,所述第二保留条件为在人类基因突变数据库HGMD中的突变标签是致病突变DM、疑似致病突变DM?以及疾病相关多态性突变DFP中的任一种的变异位点;

所述第六保留条件为变异位点的类型不属于未知突变、同义突变、基因间区突变、非编码RNA突变、内含子突变、5`UTR突变、3`UTR突变、上游突变及下游突变中的任一种;

所述第七保留条件为变异位点在任意公共人群频率数据库中频率不大于第二预设频率或未被任意公共人群频率数据库收录;

所述第八保留条件为属于Clinvar数据库中除2星以上的良性和可能良性以外的变异位点;所述第九保留条件为属于Clinvar数据库中致病性Pathogenic或可能致病性Likely Pathogenic的变异位点,或者在所述变异ACMG评级注释中ACMG评级为致病性Pathogenic或可能致病性Likely Pathogenic的变异位点;

所述第十保留条件为具有所述变异相关文献注释的变异位点,或者在所述变异危害性预测注释中至少一个软件预测为有害的变异位点。

可选的,所述筛选模块包括以下至少一种子模块:

新发突变筛选子模块,用于筛选OMIM遗传方式为常染色体显性AD、体细胞突变Smu、X连锁显性XLD、X连锁隐性XLR、Y连锁YL以及空白的变异;筛选所述本地变异库中杂合或半合子携带个数小于第一预设值或者所述本地变异库中人群携带频率小于第一预设频率的变异;选取所述HLH疾病相关基因集注释中与HLH相关的基因,作为候选的可解释先证者表型的新发突变致病基因及变异集;

复合杂合突变筛选子模块,用于筛选OMIM遗传方式为常染色体隐性AR和空白的变异;筛选所述本地变异库中纯合携带个数小于第二预设值或者所述本地变异库中人群携带频率小于第二预设频率的变异;选取所述HLH疾病相关基因集注释中与HLH相关的基因,作为候选的可解释先证者表型的复合杂合突变致病基因及变异集;

纯合突变筛选子模块,用于筛选OMIM遗传方式为常染色体隐性AR和空白的变异;筛选在所有公共人群频率数据库中纯合携带个数小于第三预设值的变异,且所述本地变异库中纯合携带个数小于第四预设值的变异,或者筛选所述本地变异库中人群携带频率小于第三预设频率的变异;选取所述HLH疾病相关基因集注释中与HLH相关的基因,作为候选的可解释先证者表型的纯合突变致病基因及变异集;

性染色体突变筛选子模块,用于筛选OMIM遗传方式为X连锁显性XLD、X连锁隐性XLR和Y连锁YL的变异;筛选在所有公共人群频率数据库中半合子或纯合携带个数小于第五预设值的变异,且本地变异库中半合子或纯合携带个数小于第六预设值的变异,或者筛选所述本地变异库中人群携带频率小于第四预设频率的变异;选取所述HLH疾病相关基因集注释中与HLH相关的基因,作为候选的可解释先证者表型的性染色体突变致病基因及变异集;AR单杂合突变筛选子模块,用于筛选OMIM遗传方式为常染色体隐性AR的变异;筛选在所有公共人群频率数据库中纯合携带个数小于第七预设值的变异,且本地变异库中纯合携带个数小于第八预设值的变异,或者筛选所述本地变异库中人群携带频率小于第五预设频率的变异;筛选同一个基因上只携带1个突变的杂合变异;选取所述HLH疾病相关基因集注释中与HLH相关的基因,作为候选的可解释先证者表型的AR单杂合突变致病基因及变异集。

第二方面,本申请提供一种电子设备,采用如下的技术方案:

一种电子设备,包括存储器和处理器;所述存储器上存储有能够被所述处理器加载并执行的计算机程序,所述计算机程序实现第一方面任一项所述装置的功能。

第三方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:

一种计算机可读存储介质,存储有能够被处理器加载并执行的计算机程序,所述计算机程序实现第一方面任一项所述装置的功能。

通过采用上述技术方案,通过加入本地变异库的筛选,既能保留致病证据不充分但具有一定相似表型患者共同携带的变异,大大提高单人样本的阳性检出率,又能过滤掉本地变异库中过多正常人携带的变异,大大提高筛选的准确性,减少假阳性率。

由于本地变异库是专门存储相似HLH表型患者及无表型的家属的基因测序数据的数据库,因此,该筛选装置可以更快地实现HLH候选致病基因与变异的筛查。

并且,该筛选装置不仅能够筛选到与受检者表型相关的HLH相关疾病基因的变异,还能筛选到受检者目前未表现出的疾病表型的可疑致病突变(可能未到发病年龄或疾病表型比较轻微不易被察觉等),提示临床及受检者关注,以实现全面筛选受检者有害突变。

另外,通过本地变异库的大量积累可发现具有相似表型的HLH患者检测到的相同变异,便于发现该疾病领域的新基因。

附图说明

图1是本申请实施例的一种噬血细胞综合征候选致病基因与变异的筛选装置的结构框图。

图2是本申请实施例的获取模块包含的子模块的结构框图。

图3是本申请实施例的二次过滤模块包含的子模块的结构框图。

图4是本申请实施例的筛选模块包含的子模块的结构框图。

图5是本申请实施例的一种电子设备的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

图1为本申请实施例提供的一种噬血细胞综合征候选致病基因与变异的筛选装置100的结构框图。如图1所示,该装置100主要包括:

获取模块101,用于获取受检者的基因测序变异文件;

初步过滤模块102,用于对基因测序变异文件中的变异位点进行初步过滤;

变异注释模块103,用于对初步过滤后的基因测序变异文件中的变异位点进行注释,生成变异注释文件;

二次过滤模块104,用于对变异注释文件中的变异位点进行二次过滤;

筛选模块105,用于基于本地变异库对二次过滤后的变异注释文件中的变异位点进行筛选,得到候选致病基因及变异。

本实施例中,基因测序变异文件中的原始基因测序数据可以是全外显子组测序数据、靶向测序数据和全基因组测序数据中的任一种,对此本实施例不做具体限定。

本实施例中,本地变异库存储有相似HLH表型患者及无表型的家属的基因测序数据。其中,表型是指具有特定基因型的个体,在一定环境条件下,所表现出来的性状特征的总和。所谓性状,即指生物体的形态、结构和生理、生化等特性。

本地变异库将通过临床信息搜集的近千例且不断积累的HLH患者及家属(无表型)测序的数据进行统计,记录每种变异被检测到的次数,每个变异对应的是HLH患者还是无表型的家属,以及检测者所携带的是纯合变异还是杂合变异等。

本地变异库的具体构建过程为:将大量样本的测序数据经过一系列生信分析得到注释文件,对所有样本数据的注释文件进行提取处理,得到以下三个表格:

(1)样本特征表:

样本特征来自于临床信息搜集,样本特征表用于记录样本名称、样本顺序以及其他关于样本信息(例如年龄、性别、是否有HLH表型等)的表格,样本顺序为自定义顺序,一般按样本检测时间先后设置。

(2)第一突变属性表:

包括突变ID和第一突变属性,其中,第一突变属性是指突变自身的属性,可以理解为数据库注释信息,与样本无关,不随样本不同而不同,可由代表突变所在的基因、突变会造成的氨基酸变化和外显子变化、突变对应的rs号(变异在dbSNP中的ID)以及突变在不同数据库中的发生频率这四列组成。

(3)第二突变属性表:

包括突变ID和第二突变属性,其中,第二突变属性包括突变携带方式、突变质量和突变深度等信息,与样本有关,可以理解为未经注释的突变信息,在不同样本中的变现可能不同。

本实施例中,突变ID用于标识突变位置和突变类型,其可以由Chr(染色体序号)、Pos(突变起始位点在染色体上的绝对位置,如764634代表对应染色体上的第764634个碱基开始发生突变)、ALT(发生突变后的碱基情况)和REF(参考基因组的碱基情况)这四列以短划线“-”连接组成。

本地变异库包括样本特征库、第一突变属性库和第二突变属性库。其中,样本特征库用于存储样本特征表中的数据,第一突变属性库用于存储第一突变属性表中的数据,第二突变属性库用于存储第二突变属性表中的数据。

对于任一突变ID,可根据第一突变属性表中查询该突变ID对应的所有相同的普通突变属性,对这些相同普通突变属性进行合并去重。将合并去重后的第一突变属性表的数据与已有的第一突变属性库中的数据进行合并去重,以更新第一突变属性库。

另外,可定期根据突变ID与最新的注释数据库进行对应查找,更新本地存储的本地变异库。

需要说明的是,第一突变属性表和第二突变属性表的区别在于,前者指定位点制定突变的属性,不因样本不同而发生变化,后者则可能在不同样本中存在差异。

一些实施例中,如图2所示,获取模块101包括以下子模块:

质控子模块1011,用于获取受检者的原始测序数据,对原始测序数据进行质控,生成fastq格式文件;

比对子模块1012,用于将fastq格式文件与参考基因组中的碱基序列进行比对,生成sam文件;

转换处理子模块1013,用于将sam文件转换为bam文件,并对bam文件进行预设处理,其中,预设处理包括去重和建立索引;

变异检测子模块1014,用于对第一处理后的bam文件进行变异检测,生成基因测序变异文件。

本实施例中,质控子模块1011是去掉低质量、长度过长、含N碱基数过多的reads,例如,将质量值小于5的碱基比例超过50%的reads、长度小于150bp的reads、含N碱基数超过15个的reads均过滤掉。其中,reads(读长)指的是测序仪单次测序所得到的碱基序列,也就是一连串的ATCGGGTA之类的,并不是基因组中的组成。

变异检测子模块1014将bam文件分析转化为VCF格式的基因测序变异文件。变异位点通常包括点突变(SNV)、短的插入缺失(INDEL)等。对于SNV和INDEL,可以采用GATK、samtools等软件进行检测。

需要说明的是,fastq格式是一种文本形式的格式,主要用于保存核酸序列和测序质量,序列和质量都用ASCII编码来表示,是目前的高通量测序结果的标准。sam文件一般是序列比对程序标准输出文件,sam格式为纯文本格式,以TAB作为分隔符;Bam文件是在sam的二进制编码文件,极大压缩了sam文件的体积。

本实施例中,在生成基因测序变异文件之后,需要通过初步过滤模块102对其中的变异位点进行初步过滤,过滤掉可信度低的变异。可选的,初步过滤条件包括低质量值(原始VCF文件中具有LowQual标记的变异)、测序总深度小于预设深度(例如10)、突变频率小于第一预设频率(例如10%)以及长度不小于预设长度(例如20)的INDEL变异中的至少一种条件。其中,突变频率是突变深度与测序总深度的比值。

由于基因测序变异文件中的变异位点只是告知在基因组的某个位置发生了改变,至于这个改变会不会影响生物学功能,并不清楚,因此需要通过各种变异信息的数据库对检出的变异位点进行注释,将基因组的序列变异数据转化为生物学功能变化的信息,以便对变异进一步筛选和解读。

一些实施中,变异注释文件包括变异基本信息注释、变异在人群频率数据库中的注释、变异相关疾病的注释、变异ACMG评级注释、变异危害性预测注释、变异相关文献注释和HLH疾病相关基因集注释中的至少一种。

下面对上述注释进行具体说明。

(1)变异基本信息注释:

包括变异关联的基因名称,符合人类基因组变异协会HGVS命名的核酸改变、氨基酸改变及转录本编号,变异类型,是否LOF变异(包括无义突变、移码突变、起始密码子缺失、剪接位点突变),先证者及父母的变异携带方式(杂合、纯合、半合子、野生型),突变频率(突变深度/测序总深度),dbSNP数据库(美国国家生物技术信息中心NCBI中专门用于存储物种SNP位点信息的数据库)收录的rs号(变异在dbSNP中的ID),是否新发突变(适用于家系3样本,父母均为野生型,且先证者为杂合或半合子的变异),是否复合杂合突变(先证者在同一个基因上携带2个及以上突变初步判断为复合杂合突变),变异是否位于重复区及重复碱基次数。

(2)变异在人群频率数据库中的注释:

包括公共人群频率数据库(例如gnomAD_Exomes_All,gnomAD_Exomes_EastAsian,gnomAD_Genomes_All,gnomAD_Genomes_EastAsian,1000g2015aug_all,ExAC_ALL),以及积累的HLH先证者及其家属的本地变异库。

(3)变异相关疾病的注释:

包括Clinvar、HGMD、OMIM、Orphanet数据库。

其中,Clinvar数据库是NCBI主办的与疾病相关的人类基因组变异数据库,存储了人类变异位点和表型之间的关系。Clinvar数据库注释的结果包括变异的致病性评级:致病性pathogenic、可能致病性likely pathogenic、不确定性uncertain significance、可能良性likely benign、良性benign等以及审核状态(0星、1星、2星、3星、4星)。

应用人类基因突变数据库HGMD注释的结果包括相关疾病名称,可信度标签{DM-致病突变、DM?-疑似致病突变、DP-疾病相关多态性突变、DFP-疾病相关多态性突变(功能研究支持)、FP-功能多态性(体内/体外实验支持但疾病关系不明)},以及关联的文献PMID号。

OMIM数据库注释的结果包括疾病表型OMIM号、疾病名称、遗传方式、疾病概述和疾病表型。

Orphanet数据库注释的结果包括Orphanet编号及疾病名称。

(4)变异ACMG评级注释:

使用InterVar数据库(属于位点致病性评判数据库)中的ACMG评级作为参考,评级结果展示为致病Pathogenic、可能致病Likely Pathogenic、临床意义不明Uncertainsignificance、可能良性Likely Benign和良性Benign。

(5)变异危害性预测注释:

包括蛋白危害性预测和剪接危害性预测。其中,可通过Polyphen2、SIFT、MutationTaster、REVEL等软件对变异的蛋白危害性进行预测,可通过软件SPLICE-AI、MaxEntScan、dbscSNV等软件对变异的剪接危害性进行预测。

(6)变异相关文献注释:

抓取Clinvar、HGMD等数据库中与变异关联的文献PMID号。

(7)HLH疾病相关基因集注释:

将与HLH相关的(包括EB病毒、巨噬细胞活化综合征、淋巴瘤等)基因集中的变异展示到注释结果表格的HLH_EBV_MAS_lymphoma列,将该基因集外的基因变异展示到others列。

本实施例中,在利用筛选模块105进行候选致病基因与变异的筛选之前,需要先利用二次过滤模块104过滤掉致病可能性低的变异。

一些实施例中,如图3所示,二次过滤模块104包括以下子模块:

第一过滤子模块1041,用于将属于预设变异类型的变异位点确定为第一候选过滤对象,将满足第一保留条件、第二保留条件、第三保留条件、第四保留条件和第五保留条件中的任一种条件的第一候选过滤对象进行保留,并过滤掉其余的第一候选过滤对象;

第二过滤子模块1042,用于将在公共人群频率数据库中所有数据库频率均大于第二预设频率(例如1%)的变异位点确定为第二候选过滤对象,将满足第一保留条件、第二保留条件和第三保留条件中的任一种条件的第二候选过滤对象进行保留,并过滤掉其余的第二候选过滤对象;

第三过滤子模块1043,用于将属于Clinvar数据库中2星以上的良性或者可能良性的变异位点确定为第三候选过滤对象,将满足第二保留条件的第三候选过滤对象进行保留,并过滤掉其余的第三候选过滤对象;

其中,预设变异类型包括未知突变、同义突变、基因间区突变、非编码RNA突变、内含子突变、5`UTR突变、3`UTR突变、上游突变及下游突变中的至少一种;

第一保留条件为属于Clinvar数据库中致病性Pathogenic或可能致病性LikelyPathogenic的变异位点;

第二保留条件为在人类基因突变数据库HGMD中的突变标签是致病突变DM、疑似致病突变DM?以及疾病相关多态性突变DFP中的任一种的变异位点;

第三保留条件为在变异ACMG评级注释中ACMG评级为致病性Pathogenic或可能致病性Likely Pathogenic的变异位点;

第四保留条件为具有所述变异相关文献注释的变异位点;

第五保留条件为变异危害性预测注释中至少一个软件预测为有害的变异位点。

需要说明的是,Clinvar数据库中2星级条目所介绍的变异是来自多个提交者没有冲突的共识,3星、4星级条目是通过ClinGen认证方法的专家小组提交的内容,1星或没有1星是需要谨慎对待的。因此,第三过滤子模块将属于Clinvar数据库中2星以上的良性或者可能良性的变异位点确定为第三候选过滤对象。

另外,未知突变是指未检测到已知的基因突变;同义突变是指某个碱基的变化没有改变产物氨基酸序列的密码子的变化;基因间区突变是指发生在不具有遗传效应的片段内的变异;非编码RNA突变是指发生在不编码蛋白质的区域的变异;内含子突变是指发生在内含子的突变;5`UTR突变是指成熟mRNA位于编码区(CDS)上游、5′端帽下游不编码蛋白质的区域的变异;3`UTR突变是指成熟mRNA位于3′端不编码蛋白质的区域的变异;上游突变是指在转录起始位点上游第一预设区域(例如1Kb、2kb、5kb等)内的变异;而下游突变是指在转录终止位点下游第二预设区域(例如1Kb、2kb、5kb等)内的变异。

需要注意的是,第一过滤子模块1041、第二过滤子模块1042和第三过滤子模块1043之间的先后执行顺序可以任意设置,只不过,在上一个过滤子模块进行过滤后,下一个过滤子模块是在剩余的(未过滤的)变异位点中进行过滤的,以此类推。

当然,二次过滤模块104还可以为其他结构。图4示出了二次过滤模块104的另一种结构示意图,二次过滤模块104包括以下子模块:

判断模块1044,用于判断变异注释文件中的变异位点是否满足第六保留条件、第七保留条件和第八保留条件;

第一保留模块1045,用于对同时满足第六保留条件、第七保留条件和第八保留条件的变异位点进行保留,并将未保留的变异位点作为第一候选保留对象;

第二保留模块1046,用于对第一候选保留对象中满足第二保留条件的变异位点进行保留,并将未保留的变异位点作为第二候选保留对象;

第三保留模块1047,用于对第二候选保留对象中满足第九保留条件的变异位点进行保留,并将未保留的变异位点作为第三候选保留对象;

第四保留模块1048,用于对第三候选保留对象中满足第十保留条件的变异位点进行保留,并将未保留的变异位点过滤掉;

其中,第二保留条件为在人类基因突变数据库HGMD中的突变标签是致病突变DM、疑似致病突变DM?以及疾病相关多态性突变DFP中的任一种的变异位点;

第六保留条件为变异位点的类型不属于未知突变、同义突变、基因间区突变、非编码RNA突变、内含子突变、5`UTR突变、3`UTR突变、上游突变及下游突变中的任一种;

第七保留条件为变异位点在任意公共人群频率数据库中频率不大于第二预设频率(例如1%)或未被任意公共人群频率数据库收录;

第八保留条件为属于Clinvar数据库中除2星以上的良性和可能良性以外的变异位点;

第九保留条件为属于Clinvar数据库中致病性Pathogenic或可能致病性LikelyPathogenic的变异位点,或者在变异ACMG评级注释中ACMG评级为致病性Pathogenic或可能致病性Likely Pathogenic的变异位点;

第十保留条件为具有变异相关文献注释的变异位点,或者在变异危害性预测注释中至少一个软件预测为有害的变异位点。

一些实施例中,候选致病基因及变异包括候选新发突变致病基因及变异、候选复合杂合突变致病基因及变异、候选纯合突变致病基因及变异、候选性染色体突变致病基因及变异和候选AR单杂合突变致病基因及变异中的至少一种。

需要说明的是,新发突变是父母体细胞不携带但孩子携带的突变;可以包括大型(染色体病)、中型(基因外显子缺失重复)、小型(点突变)各类变异形式。通常符合常染色体显性遗传、X连锁显性遗传、Y染色体遗传的杂合或体细胞突变或X连锁隐性遗传的半合子突变即可导致疾病表型的发生。复合杂合突变是患者的一对染色体的两条染色体上等位基因不同位置发生了杂合突变。纯合突变是指一对等位基因相同位置都存在突变。

如图4所示,针对上述不同类型的候选致病基因及变异,筛选模块105可以由以下至少一种子模块构成。

(1)新发突变筛选子模块1051:

用于筛选OMIM遗传方式为常染色体显性AD、体细胞突变Smu,X连锁显性XLD、X连锁隐性XLR、Y连锁YL以及空白的变异;

筛选本地变异库中杂合或半合子携带个数小于第一预设值(例如5)或者本地变异库中人群携带频率小于第一预设频率(例如1%)的变异;

如果为标准家系三样本(先证者、父亲和母亲),则筛选父亲和母亲变异携带方式均为野生型,先证者为杂合的变异;

如果为非标准家系二样本(先证者和父亲或母亲),则筛选父亲或母亲为野生型,先证者为杂合的变异;

如果为单人样本(先证者),则筛选先证者为杂合的变异;

选取HLH_EBV_MAS_lymphoma列中的基因,作为候选的可解释先证者表型的新发突变致病基因及变异集。

进一步,优先选取LOF变异,或任意2个或2个以上蛋白危害性预测软件或剪接预测软件预测为有害突变的变异,或Clinvar数据库报道为Pathogenic或Likely Pathogenic的变异,或HGMD数据库收录为DM或DM?的变异,或本地变异库中已有先证者携带相同变异且有相似表型的变异,或ACMG评级为Pathogenic或Likely Pathogenic的变异,或有文献报道的进一步人工评级为Pathogenic或Likely Pathogenic的变异作为候选的可解释先证者表型的致病基因及变异。

选取others列中的基因进一步筛选,优先选取LOF变异,或所有蛋白危害性预测软件或剪接预测软件预测均为有害突变的变异,或Clinvar数据库报道为Pathogenic或Likely Pathogenic的变异,或ACMG评级为Pathogenic或Likely Pathogenic的变异,或有文献报道的进一步人工评级为Pathogenic或Likely Pathogenic的变异作为和先证者表型不相关,但可能致病的候选的新发突变致病基因及变异。

(2)复合杂合突变筛选子模块1052:

筛选OMIM遗传方式为常染色体隐性AR和空白的变异。

筛选本地变异库中纯合携带个数小于第二预设值(例如10)或者本地变异库中人群携带频率小于第二预设频率(例如1%)的变异。

如果为标准家系三样本,选取先证者在同一个基因上携带2个或以上的杂合变异,且其中1个变异父亲为杂合携带,母亲为野生型,另1个或多个变异母亲为杂合携带,父亲为野生型的变异;或其中1个变异母亲为杂合携带,父亲为野生型,另1个或多个变异父亲为杂合携带,母亲为野生型的变异;或其中1个变异父母均为野生型,另1个或多个变异父母一方为杂合携带,另一方为野生型的变异。

如果为非标准家系二样本,选取先证者在同一个基因上携带2个或以上的杂合变异,且其中1个变异父亲或母亲为杂合携带,另1个或多个变异父亲或母亲为野生型的变异,或其中1个变异父亲或母亲为野生型,另1个或多个变异父亲或母亲为杂合的变异。

如果为单人样本,选取先证者在同一个基因上携带2个或以上的杂合变异。

选取HLH_EBV_MAS_lymphoma列中的基因,作为候选的可解释先证者表型的复合杂合突变致病基因及变异集。

进一步,优先选取LOF变异,或任意2个或2个以上蛋白危害性预测软件或剪接预测软件预测为有害突变的变异,或Clinvar数据库报道为Pathogenic或Likely Pathogenic的变异,或HGMD数据库收录为DM或DM?的变异,或本地变异库中已有先证者携带相同变异且有相似表型的变异,或ACMG评级为Pathogenic或Likely Pathogenic的变异,或有文献报道的进一步人工评级为Pathogenic或Likely Pathogenic的变异作为候选的可解释先证者表型的复合杂合突变致病基因及变异。

选取others列中的基因进一步筛选,优先选取LOF变异,或所有蛋白危害性预测软件或剪接预测软件预测均为有害突变的变异,或Clinvar数据库报道为Pathogenic或Likely Pathogenic的变异,或ACMG评级为Pathogenic或Likely Pathogenic的变异,或有文献报道的人工评级为Pathogenic或Likely Pathogenic的变异作为和先证者表型不相关,但可能致病的候选的复合杂合突变致病基因及变异。

(3)纯合突变筛选子模块1053:

筛选OMIM遗传方式为常染色体隐性AR和空白的变异。

筛选在所有公共人群频率数据库中纯合携带个数小于第三预设值(例如10)的变异,且本地变异库中纯合携带个数小于第四预设值(例如10)的变异;或者筛选本地变异库中人群携带频率小于第三预设频率(例如1%)的变异。

如果为标准家系三样本,选取先证者为纯合,且父亲为杂合,母亲为杂合,或父亲为杂合,母亲为野生型,或母亲为杂合,父亲为野生型的变异。

如果为非标准家系二样本,选取先证者为纯合,且父亲或者母亲为杂合的变异,或先证者为纯合,父亲或者母亲为野生型的变异。

如果为单人样本,选取先证者为纯合的变异。

选取HLH_EBV_MAS_lymphoma列中相关基因,作为候选的可解释先证者表型的纯合突变致病基因及变异集。

进一步,优先选取LOF变异,或任意2个或2个以上蛋白危害性预测软件或剪接预测软件预测为有害突变的变异,或Clinvar数据库报道为Pathogenic或Likely Pathogenic的变异,或HGMD数据库收录为DM或DM?的变异,或本地变异库中已有先证者携带相同变异且有相似表型的变异,或ACMG评级为Pathogenic或Likely Pathogenic的变异,或有文献报道的人工评级为Pathogenic或Likely Pathogenic的变异作为候选的可解释先证者表型的纯合突变致病基因及变异。

选取others列中的基因进一步筛选,优先选取LOF变异,或所有蛋白危害性预测软件或剪接预测软件预测均为有害突变的变异,或Clinvar数据库报道为Pathogenic或Likely Pathogenic的变异,或ACMG评级为Pathogenic或Likely Pathogenic的变异,或有文献报道的人工评级为Pathogenic或Likely Pathogenic的变异作为和先证者表型不相关,但可能致病的候选的纯合突变致病基因及变异。

(4)性染色体突变筛选子模块1054:

筛选OMIM遗传方式为X连锁显性XLD、X连锁隐性XLR和Y连锁YL的变异。

筛选在所有公共人群频率数据库中半合子或纯合携带个数小于第五预设值(例如5)的变异,且本地变异库中半合子或纯合携带个数小于第六预设值(例如5)的变异;或者筛选本地变异库中人群携带频率小于第四预设频率(例如1%)的变异。

如果为标准家系三样本,选取先证者为纯合或半合子,且父亲为野生型,母亲为杂合的变异。

如果为非标准家系二样本,选取先证者为纯合或半合子,且父亲为野生型的变异,或先证者为纯合或半合子,且母亲为杂合的变异。

如果为单人样本,选取先证者为纯合或半合子的变异。

选取HLH_EBV_MAS_lymphoma列中相关的基因,作为候选的可解释先证者表型的性染色体突变致病基因及变异集。

进一步,优先选取LOF变异,或任意2个或2个以上蛋白危害性预测软件或剪接预测软件预测为有害突变的变异,或Clinvar数据库报道为Pathogenic或Likely Pathogenic的变异,或HGMD数据库收录为DM或DM?的变异,或本地变异库中已有先证者携带相同变异且有相似表型的变异,或ACMG评级为Pathogenic或Likely Pathogenic的变异,或有文献报道的人工评级为Pathogenic或Likely Pathogenic的变异作为候选的可解释先证者表型的性染色体突变致病基因及变异。

选取others列中的基因进一步筛选,优先选取LOF变异,或所有蛋白危害性预测软件或剪接预测软件预测均为有害突变的变异,或Clinvar数据库报道为Pathogenic或Likely Pathogenic的变异,或ACMG评级为Pathogenic或Likely Pathogenic的变异,或有文献报道的人工评级为Pathogenic或Likely Pathogenic的变异作为和先证者表型不相关,但可能致病的候选的性染色体突变致病基因及变异。

(5)AR单杂合突变筛选子模块1055:

筛选OMIM遗传方式为常染色体隐性AR的变异。

筛选在所有公共人群频率数据库中纯合携带个数小于第七预设值(例如10)的变异,且本地变异库中纯合携带个数小于第八预设值(例如10)的变异;或者筛选本地变异库中人群携带频率小于第五预设频率(例如1%)的变异。

筛选同一个基因上只携带1个突变的杂合变异。

如果为标准家系三样本,选取先证者为杂合,且父亲为杂合,母亲为野生型,或母亲为杂合,父亲为野生的变异。

如果为非标准家系二样本,选取先证者为杂合,且父亲或者母亲为杂合的变异,或先证者为杂合,父亲或者母亲为野生型的变异。

如果为单人样本,选取先证者为杂合的变异。

选取HLH_EBV_MAS_lymphoma列中相关的基因,作为候选的可解释先证者表型的AR单杂合突变致病基因及变异集。

进一步,优先选取LOF变异,或任意2个或2个以上蛋白危害性预测软件或剪接预测软件预测为有害突变的变异,或Clinvar数据库报道为Pathogenic或Likely Pathogenic的变异,或HGMD数据库收录为DM或DM?的变异,或本地变异库中已有先证者携带相同变异且有相似表型的变异(此为重点查看),或ACMG评级为Pathogenic或Likely Pathogenic的变异,或有文献报道的人工评级为Pathogenic或Likely Pathogenic的变异作为候选的可解释先证者表型的AR单杂合突变致病基因及变异。

下面以实验室1例单人样本全外显子组测序数据筛选为例,分别以加入本地变异库和未加入本地变异库的筛选方法对HLH候选致病基因与变异进行筛选,对比结果见表1。

表1

由表1可见,加入本地变异库的筛选,最终和先证者表型相关的候选致病变异总数有68个,相比未加入本地库筛选的变异总数122个,保留的候选致病行位点数减少(122-68)/122=44.26%,其中,新发突变候选致病位点个数减少(66-25)/66=62.12%。

本申请实施例中的各功能模块可以集成在一起形成一个独立的单元,例如集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成形成一个独立的单元。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本申请实施例提供的一种电子设备500的结构框图。如图5所示,电子设备500包括存储器501、处理器502、通信总线503;存储器501、处理器502通过通信总线503相连。

存储器501可用于存储指令、程序、代码、代码集或指令集。存储器501可以包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令以及用于实现上述实施例提供的噬血细胞综合征候选致病基因与变异的筛选装置功能的指令等;存储数据区可存储上述实施例提供的噬血细胞综合征候选致病基因与变异的筛选装置中涉及到的数据等。

处理器502可以包括一个或者多个处理核心。处理器502通过运行或执行存储在存储器501内的指令、程序、代码集或指令集,调用存储在存储器501内的数据,执行本申请的各种功能和处理数据。处理器502可以为特定用途集成电路(Application SpecificIntegrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器和微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器502功能的电子器件还可以为其它,本申请实施例不作具体限定。

通信总线503可包括一通路,在上述组件之间传送信息。通信总线503可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。通信总线503可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双箭头表示,但并不表示仅有一根总线或一种类型的总线。且图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供一种计算机可读存储介质,存储有能够被处理器加载并执行实现上述实施例提供的噬血细胞综合征候选致病基因与变异的筛选装置功能的计算机程序。

本实施例中,计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。具体的,计算机可读存储介质可以是便携式计算机盘、硬盘、U盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、讲台随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、光盘、磁碟、机械编码设备以及上述任意组合。

在本申请所提供的实施例中,应该理解到,所揭露的系统、装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,需要理解的是,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号