公开/公告号CN113066527A
专利类型发明专利
公开/公告日2021-07-02
原文格式PDF
申请/专利权人 吉优诺(上海)基因科技有限公司;
申请/专利号CN202110397409.1
申请日2021-04-14
分类号G16B15/30(20190101);G16B30/00(20190101);
代理机构31325 上海市汇业律师事务所;
代理人王函
地址 201203 上海市浦东新区中国(上海)自由贸易试验区蔡伦路781号502室
入库时间 2023-06-19 11:42:32
技术领域
本发明属于生物信息领域,具体涉及一种siRNA敲减mRNA的靶点预测方法。此外,本发明还涉及一种siRNA敲减mRNA的靶点预测系统。
背景技术
大量生物试验表明,结合在同一mRNA不同靶点的siRNA具有不同的敲减效率。鉴于通过生物实验的方式寻找mRNA上合适的siRNA结合靶点效率低、成本高、周期长、干扰因素多,借助计算机技术预测mRNA上合适的siRNA结合靶点具有显著意义。早期,siRNA敲减mRNA的靶点预测主要依据研究人员观察siRNA结合mRNA靶点样本上各种碱基出现的频次,效率较低,也难以得到最优结果。随着siRNA结合mRNA靶点样本的增加以及机器学习方法的兴起,通过提取siRNA结合mRNA靶点的碱基序列特征,再利用大样本数据训练预测模型,大幅提高了siRNA敲减mRNA的靶点预测效率和准确性。但是,现有的预测模型仅考虑siRNA结合mRNA靶点的碱基序列特征,并没有考虑结合mRNA靶点处的RNA二级结构特征,导致预测效果仍不能令人满意。
因此,本发明提出一种新的siRNA敲减mRNA的靶点预测方法。该方法除了考虑mRNA目标结合靶点及其对应siRNA的碱基序列特征,还考虑了mRNA目标结合靶点处的RNA二级结构特征,有效提高了siRNA敲减mRNA的靶点预测效果。
发明内容
本发明要解决的技术问题是提供一种siRNA敲减mRNA的靶点预测方法,该方法能有效提高siRNA敲减mRNA的靶点预测准确性,为siRNA敲减mRNA的靶点选择提供有力而可靠的依据。此外,本发明还提供一种siRNA敲减mRNA的靶点预测系统。
为解决上述技术问题,本发明采用如下技术方案:
在本发明的一方面,提供一种考虑RNA二级结构特征的siRNA敲减mRNA的靶点预测方法。该方法为:首先提取mRNA目标结合靶点的碱基序列特征,然后提取目标结合靶点处的RNA二级结构特征,进而通过siRNA敲减mRNA的靶点预测模型实现siRNA敲减mRNA的靶点预测。
该方法包括以下步骤:
步骤1、输入要敲减的mRNA碱基序列,根据碱基互补配对原则得到mRNA上所有候选目标靶点对应的siRNA序列;
步骤2,根据mRNA目标结合靶点的碱基序列,提取目标靶点及其对应siRNA每个位置的碱基种类及其每个碱基种类的出现频率碱基序列特征;
步骤3,提取mRNA目标结合靶点处的二级结构特征及其对应siRNA反义链的二级结构特征;
步骤4,将提取的所有特征输入预测模型,模型输出mRNA目标结合靶点与其对应siRNA反义链的结合概率值;
步骤5,根据模型输出的概率值,筛选出合适的siRNA敲减mRNA的靶点。
作为本发明优选的技术方案,步骤3具体包括如下步骤:
步骤A,如式(1)所示,计算mRNA目标结合靶点处mRNA单链上每个碱基i与整个mRNA单链上其它碱基j配对结合的概率P
其中,k为mRNA单链可能形成的众多二级结构中碱基i与碱基j发生配对的任意一种二级结构,S为mRNA单链所有可能形成的二级结构中的任意一种,ΔG
步骤B,对步骤A中提取的目标结合靶点上每个碱基的概率和S
F
步骤C,对mRNA目标结合靶点对应的siRNA反义链也按照步骤A、B进行特征提取。此时,m=n。
mRNA与siRNA反义链结合区域特征包含每个位置的碱基与其他所有碱基配对概率和共n个特征,这n个数的最大值,以及这n个数的加权和,共n+2个特征。对siRNA反义链上的n个碱基以同样的方式提取特征也得到n+2个特征,这样,步骤3总共提取反应mRNA目标结合靶点处RNA二级结构的特征2n+4个。
作为本发明优选的技术方案,所述siRNA敲减mRNA的靶点预测模型由三个不同参数的LightGBM回归模型构成,对三个模型的预测结果取平均作为最终预测结果;LightGBM回归模型结构如下式:
式(4)中,f
作为本发明优选的技术方案,所述siRNA敲减mRNA的靶点预测模型训练过程中,首先根据训练集按预先定义的参数和决策树分裂规则得出第1棵树,然后每次增加1棵树;第t棵树的训练目标为拟合样本中前t-1棵树的输出值与真实值之差;重复该过程,直至模型输出不随树的增加而变化或者t等于预先设定的超参数num_iterations;此时,模型由t棵树构成,其输出值为这t棵树的输出值之和;
在训练每个新增加的树时,模型训练的损失函数L为:
式中y
式中G
作为本发明优选的技术方案,所述三个LightGBM回归模型的超参数设置如下:
1:num_iterations:79,learning_rate:0.1,max_depth:11,bagging_fraction:0.93,bagging_fraq:1,feature_fraction:0.147,γ:0.28,λ:1.9。
2:num_iterations:78,learning_rate:0.1,max_depth:11,bagging_fraction:0.93,bagging_fraq:1,feature_fraction:0.147,γ:0.07,λ:2.15。
3:num_iterations:83,learning_rate:0.1,max_depth:11,bagging_fraction:0.93,bagging_fraq:1,feature_fraction:0.147,γ:0.18,λ:1.05。
在本发明的第二方面,提供一种siRNA敲减mRNA的靶点预测系统,包括:
输入mRNA序列模块,用于输入要敲减的mRNA碱基序列,根据碱基互补配对原则得到所有候选mRNA上的目标靶点及其对应siRNA序列;
序列特征提取模块,用于提取mRNA目标结合靶点的碱基序列特征;
二级结构特征提取模块,用于提取目标结合靶点处的RNA二级结构特征;
预测模型筛选模块,用于将提取的所有特征输入预测模型,预测模型输出预测值,根据预测值筛选出合适的siRNA敲减mRNA的靶点。
作为本发明优选的技术方案,所述序列特征提取模块根据mRNA目标结合靶点的碱基序列,提取目标靶点及其对应siRNA每个位置的碱基种类及其每个碱基种类的出现频率碱基序列特征。
作为本发明优选的技术方案,所述二级结构特征提取模块提取mRNA目标结合靶点处的二级结构特征及其对应siRNA反义链的二级结构特征。
作为本发明优选的技术方案,所述预测模型筛选模块将提取的所有特征输入预测模型,模型输出mRNA目标结合靶点与其对应siRNA反义链的结合概率值;然后,根据模型输出的概率值,筛选出合适的siRNA敲减mRNA的靶点。
本发明实现siRNA敲减mRNA的靶点预测的原理是:siRNA与mRNA靶点结合与靶点处mRNA和siRNA的碱基序列,以及靶点处RNA二级结构等因素相关。利用机器学习技术,将这些因素量化为具体特征,进而通过机器学习模型实现对siRNA敲减mRNA的靶点的预测。
与现有技术相比,本发明的有益效果在于:本发明除了考虑mRNA目标结合靶点及其对应siRNA的碱基序列特征,还考虑了mRNA目标结合靶点处的RNA二级结构特征,有效提高了siRNA敲减mRNA的靶点预测效果。经对比试验验证,采用本发明预测方法得到的斯皮尔曼相关值要远远高于目前常用的四种预测方法(Biopredsi,i-score,DSIR和ThermoComposition),大大提高了siRNA敲减mRNA的靶点预测准确性,达到了现有方法所预料不到的技术效果,为siRNA的筛选提供有力依据。研究人员使用本发明的预测系统无需生物实验即可得出靶向任意mRNA序列的所有siRNA的敲减效率,根据敲减效率由高到低依次选择高效的siRNA进行实验验证可以快速选择出最有效的siRNA序列。由于本发明的预测系统预测准确性更高,通常情况下只需试验10条以内预测结果较高的siRNA便可找出有效siRNA序列。如果选择其他准确性较低的方法例如按照Tuschl规则筛选高效siRNA可能会选出大量符合规则的siRNA,需要对大量siRNA进行实验验证才能确定出高效的siRNA。
附图说明
图1是本发明预测方法的流程图;
具体实施方式
下面对本发明方法的实施过程进行描述:
如图1所示,本发明一种考虑RNA二级结构特征的siRNA敲减mRNA的靶点预测方法,包括如下步骤:
1、输入要敲减的mRNA碱基序列,根据碱基互补配对原则得到mRNA上所有候选目标靶点对应的siRNA序列;
2、根据mRNA目标结合靶点的碱基序列,提取目标靶点及其对应siRNA的每个位置的碱基种类和每个碱基种类的出现频率等碱基序列特征;
3、提取mRNA目标结合靶点处的二级结构特征及其对应siRNA反义链的二级结构特征;
4、将提取的所有特征输入预测模型,模型输出mRNA目标结合靶点与其对应siRNA反义链的结合概率值;
5、根据模型输出的概率值,筛选出合适的siRNA敲减mRNA的靶点。
实施例1实验验证
本实验选取LightGBM回归模型为siRNA敲减mRNA的靶点预测模型。
LightGBM回归模型结构如下式:
式(4)中,f
模型训练过程中,首先根据训练集按预先定义的参数和决策树分裂规则得出第1棵树,然后每次增加1棵树。第t棵树的训练目标为拟合样本中前t-1棵树的输出值与真实值之差。重复该过程,直至模型输出不随树的增加而变化或者t等于预先设定的超参数num_iterations。此时,模型由t棵树构成,其输出值为这t棵树的输出值之和。
在训练每个新增加的树时,模型训练的损失函数L为:
式中y
式中G
实验中,所述siRNA敲减mRNA的靶点预测模型由三个不同参数的LightGBM回归模型构成,对三个模型的预测结果取平均作为最终预测结果;三个LightGBM回归模型所有超参数设置如下:
1:num_iterations:79,learning_rate:0.1,max_depth:11,bagging_fraction:0.93,bagging_fraq:1,feature_fraction:0.147,γ:0.28,λ:1.9。
2:num_iterations:78,learning_rate:0.1,max_depth:11,bagging_fraction:0.93,bagging_fraq:1,feature_fraction:0.147,γ:0.07,λ:2.15。
3:num_iterations:83,learning_rate:0.1,max_depth:11,bagging_fraction:0.93,bagging_fraq:1,feature_fraction:0.147,γ:0.18,λ:1.05。
为了测试我们预测方法的预测效果,我们做了生物实验,并将我们的预测结果与目前常用的四种预测算法(Biopredsi,i-score,DSIR和ThermoComposition)的预测结果进行对比。
实验如下:
我们选择PD-1基因对应的mRNA(其在Genbank中的序号为NM_005018.3)作为敲减对象。这一mRNA并未在本发明和其他各方法训练模型的过程中出现过。按照本发明的方法进行如下步骤可得出敲减此mRNA的最佳siRNA:
1、根据碱基互补配对原则得到mRNA上所有候选目标靶点对应的siRNA序列;
2、根据mRNA目标结合靶点的碱基序列,提取目标靶点及其对应siRNA的每个位置的碱基种类和每个碱基种类的出现频率等碱基序列特征;
3、提取mRNA目标结合靶点处的二级结构特征及其对应siRNA反义链的二级结构特征;
4、将提取的所有特征输入预测模型,模型输出mRNA目标结合靶点与其对应siRNA反义链的结合概率值;
5、根据模型输出的概率值由高到低排序选择效率排在前十位的siRNA进行实验测量,再根据实验值选择出最佳的siRNA。
从候选目标靶点中随机选取10个目标靶点及其对应siRNA,siRNA的长度为19个碱基。分别用五种预测方法预测这10个siRNA敲减PD-1基因的概率。然后,通过生物手段将这些siRNA合成出来,再分别导入HELA细胞,检测细胞中经过siRNA敲减后的PD-1蛋白衰减量来计算这些siRNA的真实敲减效率。
我们共做了两次实验,分别采用不同的测量方式来测定这10条siRNA的真实敲减效率。每次实验中,每一条siRNA都做了三组重复实验,取三组的平均值作为最终测量结果。表1显示了针对这10条siRNA,五种预测方法的预测敲减概率及其实验测得的真实敲减效率,实验值越低表示敲减效率越高。
表1是本发明预测方法与其他四种常用预测方法针对10个siRNA的预测敲减概率及其实验测得的真实敲减效率(实验值越低,敲减效率越高);根据表1的数据,我们可以计算五种预测方法的预测敲减概率与实验测得的真实敲减效率的斯皮尔曼相关值,计算结果如表2所示。
表2是本发明预测方法与其他四种常用预测方法的预测敲减概率与实验测得的真实敲减效率之间的斯皮尔曼相关系数。根据表2的分析结果,可以看出两次实验中,本发明预测方法的预测效果最好,采用本发明方法的斯皮尔曼相关值要远远高于对照组(即目前常用的四种预测方法(Biopredsi,i-score,DSIR和ThermoComposition)),大大提高了siRNA敲减mRNA的靶点预测准确性,达到了现有方法所预料不到的技术效果。
表1
表2
机译: 一种盒式基因构建体,表达两种有效攻击俄罗斯患者HIV-1亚型A逆转录酶mRNA靶标的生物活性siRNA,以及一种针对CCR5基因mRNA的siRNA
机译: 有效的siRNA敲减结构
机译: 有效的siRNA敲减结构