首页> 中国专利> 群体频率与突变预测相结合的突变致病性检测方法及系统

群体频率与突变预测相结合的突变致病性检测方法及系统

摘要

本发明公开了一种群体频率与突变预测相结合的突变致病性检测方法及系统,本发明的实施步骤包括:获取归一化后的突变预测检测结果A、群体频率检测结果B;将群体频率检测结果B通过预设的多项式拟合函数转换得到函数转换结果f(B),所述多项式拟合函数为将突变预测检测结果A作为函数值、群体频率检测结果B作为自变量进行拟合得到;将突变预测检测结果A、函数转换结果f(B)两者进行加权求和,得到群体频率与突变预测相结合的突变致病性检测结果。本发明实现了群体频率与突变预测两者的更科学地结合,能够提高突变致病性检测的准确度,具有致病性检测值准确率高、通用性好、扩展性高的优点。

著录项

  • 公开/公告号CN109390038A

    专利类型发明专利

  • 公开/公告日2019-02-26

    原文格式PDF

  • 申请/专利权人 人和未来生物科技(长沙)有限公司;

    申请/专利号CN201811591411.7

  • 申请日2018-12-25

  • 分类号G16B20/50(20190101);G16B30/00(20190101);

  • 代理机构43008 湖南兆弘专利事务所(普通合伙);

  • 代理人邹大坚;谭武艺

  • 地址 410000 湖南省长沙市开福区长沙高新开发区文轩路27号麓谷钰园C2栋1101号

  • 入库时间 2024-02-19 06:56:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-02-04

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G16B20/50 变更前: 变更后: 申请日:20181225

    专利权人的姓名或者名称、地址的变更

  • 2020-01-14

    授权

    授权

  • 2019-03-22

    实质审查的生效 IPC(主分类):G16B20/50 申请日:20181225

    实质审查的生效

  • 2019-02-26

    公开

    公开

说明书

技术领域

本发明涉及基因测序结果的解读技术,具体涉及一种群体频率与突变预测相结合的突变致病性检测方法及系统。

背景技术

对基因测序的结果进行解读时,同一个基因往往存在多个基因突变,基因突变并不意味着疾病,但是基因突变可以作为致病性参考的指标。用户总是更关心致病性强的突变,如何准确检测突变的致病性,成为基因解读的关键。

目前针对突变致病性检测方法可以分为突变预测和群体频率两种检测角度。(1)突变预测是基于个体的检测的角度,突变预测目前已经有多种突变预测方法,如SIFT、PolyPhen2、MutationTaster、DANN、CADD、primateAI等软件分别使用的方法,这些软件从不同的方面分析错义突变对蛋白质功能的影响,由此来预测突变可能的危害。例如,SIFT通过同源蛋白氨基酸的保守性实现突变预测;PolyPhen2通过分析突变对蛋白质折叠和蛋白质相互间作用实现突变预测;primateAI则对不同灵长类动物的基因突变数据进行学习,将结果用于人类突变预测等等。这六种突变预测软件的输出结果均可将转化为[0,1]区间内的取值,取值越高,则表示突变对蛋白质功能的影响更大,致病的可能性也越大。(2)群体频率MAF(Minor Allele Frequency)是突变的群体频率,它从另一个维度探讨了突变的致病性,即突变在人群中越罕见,对应的群体频率值越小,则认为致病的可能性越大;相反,群体频率MAF的值越大,说明有较多的正常人群都具有这一突变,突变的致病性就越小。常见群体数据库有1000Genomes Project,Exome Variant Server,The Exome AggregationConsortium等,对应的群里频率值分别用1KG MAF、EVS MAF、ExAC MAF表示。

由于突变预测和群体频率两种检测角度截然不同,为了提高检测的准确度,可以将其进行综合。为了将群体频率结果和预测软件的结果进行组合,需要将群体频率的结果与突变预测的结果转化到具有相同分布和含义的区间内,目前常见的综合方式一般采用将所有结果取值归一化到[0,1]区间内再进行加权求和。但是,由于突变预测和群体频率两者的结果值对致病性的含义不同,不能直接利用加权平均的方式进行结果组合。例如群体频率MAF的值越小,致病的可能性越大,通常低于0.01才有较大的可能性致病,导致可能致病的结果取值区间范围非常小,如果直接与突变预测的结果进行加权平均,则无法突出群体频率MAF的值很小时对致病性的影响。

因此,如何实现突变预测和群体频率两种检测角度的结合来提高突变致病性检测的准确度,已经成为一项亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题:针对现有技术的上述问题,提供一种群体频率与突变预测相结合的突变致病性检测方法及系统,本发明将群体频率的值转化为突变预测值对应的区间,使它们的输出处于相同的取值范围具有相同的含义,然后利用加权求和的方法对它们的取值进行组合,形成突变的致病性检测结果,从而实现了群体频率与突变预测两者的更科学地结合,能够提高突变致病性检测的准确度,具有致病性检测值准确率高、通用性好、扩展性高的优点。

为了解决上述技术问题,本发明采用的技术方案为:

本发明提供一种群体频率与突变预测相结合的突变致病性检测方法,实施步骤包括:

1)获取归一化后的突变预测检测结果A、群体频率检测结果B;

2)将群体频率检测结果B通过预设的多项式拟合函数f(x)转换得到函数转换结果f(B),所述多项式拟合函数为将大量突变的突变预测检测结果A作为因变量、群体频率检测结果B作为自变量进行多项式拟合得到;

3)将突变预测检测结果A、函数转换结果f(B)两者进行加权求和,得到群体频率与突变预测相结合的突变致病性检测结果。

可选地,步骤1)中获取归一化后的突变预测检测结果A具体是指获取一种突变预测方法的检测结果进行归一化后作为突变预测检测结果A,或者获取两种或两种以上突变预测方法的检测结果分别进行归一化后再取平均值作为突变预测检测结果A。

可选地,步骤1)中获取群体频率检测结果B具体是指获取一种群体频率检测方法的归一化检测结果作为群体频率检测结果B,或者获取两种或两种以上群体频率检测方法的归一化检测结果取平均值作为群体频率检测结果B。

可选地,步骤2)中多项式拟合函数的函数表达式如式(1)所示;

式(1)中,f(x)为转换函数,ai为i次项的拟合系数,n为拟合多项式函数f(x)的次数。

可选地,步骤3)中将突变预测检测结果A、函数转换结果f(B)两者进行加权求和的函数表达式如式(2)所示;

GTX_s=w1A+w2f(B)(2)

式(2)中,GTX_s为得到的群体频率与突变预测相结合的突变致病性检测结果,A为突变预测检测结果A,f(B)为函数转换结果,w1和w2为权重系数。

可选地,权重系数w1取值为0.7,权重系数w2取值为0.3。

本发明还提供一种群体频率与突变预测相结合的突变致病性检测系统,包括计算机设备,所述计算机设备被编程以执行本发明前述群体频率与突变预测相结合的突变致病性检测方法的步骤,或者所述计算机设备的存储介质存储有被编程以执行本发明前述群体频率与突变预测相结合的突变致病性检测方法的计算机程序。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有被编程以执行本发明前述群体频率与突变预测相结合的突变致病性检测方法的计算机程序。

本发明还提供一种群体频率与突变预测相结合的突变致病性检测系统,包括:

归一化程序单元,用于获取归一化后的突变预测检测结果A、群体频率检测结果B;

多项式拟合程序单元,用于将群体频率检测结果B通过预设的多项式拟合函数转换得到函数转换结果f(B),所述多项式拟合函数为将大量突变的突变预测检测结果A作为因变量、群体频率检测结果B作为自变量进行多项式拟合得到;

加权求和程序单元,用于将突变预测检测结果A、函数转换结果f(B)两者进行加权求和,得到群体频率与突变预测相结合的突变致病性检测结果。

可选地,所述多项式拟合程序单元所使用多项式拟合函数的函数表达式如式(1)所示;

式(1)中,f(x)为转换函数,ai为i次项的拟合系数,n为拟合多项式函数f(x)的次数。

和现有技术相比,本发明具有下述优点:

1、本发明通过多项式拟合函数建立了群体频率的群体频率检测结果B与突变预测检测结果A之间的关系,使得突变预测检测结果A和函数转换结果f(B)的取值范围及其对应的含义一致,本发明将群体频率检测结果B的值转化为突变预测检测结果A对应的区间,使它们的输出处于相同的取值范围具有相同的含义,然后利用加权求和的方法对它们的取值进行组合形成突变的致病性检测结果,即能够利用加权平均的方式对两组不同类型的结果进行组合,从而得出突变的致病性检测值,具有致病性检测值准确率高的优点。

2、本发明群体频率与突变预测相结合的突变致病性检测方法通过将群体频率与突变预测相结合,不局限于某一种群体频率检测方法、也不局限于某一种突变预测方法,群体频率方法与突变预测方法的数量可以根据需要进行灵活选择,不仅可以利用现有的,群体频率方法与突变预测方法,而且还可以适用于以后出现的新的群体频率方法与突变预测方法,具有通用性好、扩展性高的优点。

附图说明

图1为本发明实施例一方法的基本流程示意图。

图2为本发明实施例一中拟合得到的多项式拟合函数的曲线。

具体实施方式

实施例一:

下文将以1000Genomes Project数据库的群体频率(简称为:1KG MAF)、ExomeVariant Server数据库的群体频率(简称为:EVS MAF)、The Exome AggregationConsortium数据库(简称为:ExAC MAF)三种群体频率的检测结果,以及SIFT、PolyPhen2、MutationTaster、DANN、CADD、primateAI六种突变预测的检测结果为例,对本发明群体频率与突变预测相结合的突变致病性检测方法及系统进行进一步的详细说明。

如图1,本实施例群体频率与突变预测相结合的突变致病性检测方法的实施步骤包括:

1)获取归一化后的突变预测检测结果A、群体频率检测结果B;

2)将群体频率检测结果B通过预设的多项式拟合函数转换得到函数转换结果f(B),所述多项式拟合函数为将大量突变的突变预测检测结果A作为因变量、群体频率检测结果B作为自变量进行多项式拟合得到;

3)将突变预测检测结果A、函数转换结果f(B)两者进行加权求和,得到群体频率与突变预测相结合的突变致病性检测结果。

本实施例中,SIFT、PolyPhen2、MutationTaster、DANN、CADD、primateAI六种突变预测的检测结果构成突变预测检测结果集合Φ,即:

Φ={SIFT,PolyPhen2,MutationTaster,DANN,CADD,PrimateAI}

突变预测检测结果集合Φ中的各个元素分别为对应名称的突变预测的检测结果。因此,需要将突变预测检测结果集合Φ中的各个元素分别进行归一化,然后再取平均值作为突变预测检测结果A,其表达式如下:

上式中,A表示突变预测检测结果,Φ表示突变预测方法集合,α表示突变预测集合中的某一种突变预测方法,val(α)为突变预测方法α的突变预测检测结果,|Φ|为所有突变预测方法的数目。

本实施例中,1KG MAF、EVS MAF、ExAC MAF三种群体频率的检测结果取平均值作为群体频率检测结果B,其表达式如下:

上式中,B表示群体频率检测结果,val(1KG MAF)表示1000Genomes Project数据库对应的群体频率检测结果,val(EVS MAF)表示Exome Variant Server数据库对应的群体频率检测结果,val(ExAC MAF)表示The Exome Aggregation Consortium数据库对应的群体频率检测结果。

多项式拟合函数建立了群体频率的群体频率检测结果B与突变预测检测结果A之间的关系,使得突变预测检测结果A和函数转换结果f(B)的取值范围及其对应的含义一致,从而能够利用加权平均的方式对两组不同类型的结果进行组合,并得出突变的致病性检测值。本实施例中,步骤2)中多项式拟合函数的函数表达式如式(1)所示;

式(1)中,f(x)为转换函数,ai为i次项的拟合系数,n为拟合多项式函数f(x)的次数。在应用中,群体频率检测结果B作为自变量代入拟合函数f(x),得到的f(B)即为转化后的结果。

通过大量的训练数据,将各种不同突变的突变预测检测结果A作为函数的因变量f(x)、群体频率检测结果B作为自变量x进行拟合,即可得到如式(1)所示多项式拟合函数。本实施例中,具体利用DDD数据库中带HPO表型的305个vcf文件,获得305个vcf文件中所有突变在SIFT、PolyPhen2、MutationTaster、DANN、CADD、primateAI这六种突变预测软件中的检测结果,和1KG MAF、EVS MAF、ExAC MAF三种群体频率的检测结果。计算DDD数据库中的305个vcf文件中所有突变对应的突变预测检测结果A和群体频率检测结果B,将A值看作函数的因变量y,将B值看作函数的自变量x,进行四次多项式拟合,获得的步骤2)中多项式拟合函数的形式具体如下式所示:

y=f(x)=0924-3.413x+8.278x2-10.03x3+4.296x4

上述多项式拟合函数的曲线如图2所示。

参见上式可知,本实施例中,多项式拟合函数的拟合项数n为4,此外也可以根据需要设置更多的拟合项数,拟合项数越多则转换的精确度越高,但是计算量会更大一些。

本实施例中,步骤3)中将突变预测检测结果A、函数转换结果f(B)两者进行加权求和的函数表达式如式(2)所示;

GTX_s=w1A+w2f(B)(2)

式(2)中,GTX_s为得到的群体频率与突变预测相结合的突变致病性检测结果,A为突变预测检测结果A,f(B)为函数转换结果,w1和w2为权重系数。根据经验和实验结果,本实施例中权重系数w1取值为0.7,权重系数w2取值为0.3。

本实施例还提供一种群体频率与突变预测相结合的突变致病性检测系统,包括计算机设备,该计算机设备被编程以执行本发明前述群体频率与突变预测相结合的突变致病性检测方法的步骤。本实施例还提供一种群体频率与突变预测相结合的突变致病性检测系统,包括具有存储介质的计算机设备,该计算机设备的存储介质存储有被编程以执行本发明前述群体频率与突变预测相结合的突变致病性检测方法的计算机程序。

本实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有被编程以执行本发明前述群体频率与突变预测相结合的突变致病性检测方法的计算机程序。

本实施例还提供一种群体频率与突变预测相结合的突变致病性检测系统,包括:

归一化程序单元,用于获取归一化后的突变预测检测结果A、群体频率检测结果B;

多项式拟合程序单元,用于将群体频率检测结果B通过预设的多项式拟合函数转换得到函数转换结果f(B),所述多项式拟合函数为将大量突变的突变预测检测结果A作为因变量、群体频率检测结果B作为自变量进行多项式拟合得到;

加权求和程序单元,用于将突变预测检测结果A、函数转换结果f(B)两者进行加权求和,得到群体频率与突变预测相结合的突变致病性检测结果。

可选地,所述多项式拟合程序单元所使用多项式拟合函数的函数表达式如式(1)所示;

式(1)中,f(x)为转换函数,ai为i次项的拟合系数,n为拟合多项式函数f(x)的次数。。在应用中,群体频率检测结果B作为自变量代入拟合函数f(x),得到的f(B)即为转化后的结果。

需要说明的是,本实施例中SIFT、PolyPhen2、MutationTaster、DANN、CADD、primateAI六种突变预测的检测结果分别是从不同的方面分析错义突变对蛋白质功能的影响由此来预测突变可能的危害,此外也可以采用其他以个体作为对象(相对群体频率检测而言)的突变预测方法。

实施例二:

本实施例与实施例一基本相同,其主要区别点为:本实施例中,步骤1)中获取归一化后的突变预测检测结果A具体是指获取一种突变预测方法的检测结果进行归一化后作为突变预测检测结果A,通过该方式同样也可以利用加权平均的方式对两组不同类型的结果进行组合,从而得出突变的致病性检测值。

实施例三:

本实施例与实施例一基本相同,其主要区别点为:本实施例中,步骤1)中获取归一化后的突变预测检测结果A具体是指两种突变预测方法的检测结果分别进行归一化后再取平均值作为突变预测检测结果A,通过该方式同样也可以利用加权平均的方式对两组不同类型的结果进行组合,从而得出突变的致病性检测值。

实施例四:

本实施例与实施例一基本相同,其主要区别点为:本实施例中,步骤1)中获取群体频率检测结果B具体是指获取一种群体频率检测方法的归一化检测结果作为群体频率检测结果B,通过该方式同样也可以利用加权平均的方式对两组不同类型的结果进行组合,从而得出突变的致病性检测值。

实施例五:

本实施例与实施例一基本相同,其主要区别点为:本实施例中,步骤1)中获取群体频率检测结果B具体是指两种群体频率检测方法的归一化检测结果取平均值作为群体频率检测结果B,通过该方式同样也可以利用加权平均的方式对两组不同类型的结果进行组合,从而得出突变的致病性检测值。

此外,还可以根据需要获取更多突变预测方法的检测结果分别进行归一化后再取平均值作为突变预测检测结果A,以及获取更多群体频率检测方法的归一化检测结果取平均值作为群体频率检测结果B,而且突变预测检测结果A和群体频率检测结果B之间的数量可以根据需要进行独立调整。本发明通过将群体频率与突变预测相结合,不局限于某一种群体频率检测方法、也不局限于某一种突变预测方法,群体频率方法与突变预测方法的数量可以根据需要进行灵活选择,不仅可以利用现有的,群体频率方法与突变预测方法,而且还可以适用于以后出现的新的群体频率方法与突变预测方法,具有通用性好、扩展性高的优点。

以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号