首页> 中国专利> 一种使用序列k-mer频率优化特征精准识别土壤致病菌污染的方法

一种使用序列k-mer频率优化特征精准识别土壤致病菌污染的方法

摘要

本发明公开了一种使用序列k‑mer频率优化特征精准识别土壤致病菌污染的方法,其步骤为:步骤一、选取合适的k‑mer片段长度,进行频率特征提取;步骤二、对提取的数据进行归一化处理;步骤三、构建交叉融合神经网络;网络由输入层、残差网络、深度网络、交叉网络和特征合并层组成;步骤四、模型预测;第一次使用先训练神经网络参数,再将待预测细菌DNA序列通过步骤一方法提取频率特征,送入训练好的残差神经网络,输出预测结果。本发明准确率优于现有k‑mer特征预测算法;自动地将k‑mer特征组合在一起,高效学习低维特征交叉和高维非线性特征,生成更优的模型。模型不需要人工特征工程或遍历搜索,具有较低的计算成本。

著录项

  • 公开/公告号CN114842908A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 南京农业大学;

    申请/专利号CN202210294418.2

  • 申请日2022-03-24

  • 分类号G16B30/00(2019.01);G16B40/00(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构南京天华专利代理有限责任公司 32218;南京天华专利代理有限责任公司 32218;

  • 代理人许轲;徐冬涛

  • 地址 210095 江苏省南京市玄武区卫岗1号

  • 入库时间 2023-06-19 16:12:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    实质审查的生效 IPC(主分类):G16B30/00 专利申请号:2022102944182 申请日:20220324

    实质审查的生效

  • 2022-08-02

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及生物信息学与土壤生物学领域,具体是一种使用DNA序列的k-mer频率优化特征信息预测细菌致病性,实现土壤中致病菌污染的精准识别检测方法。

背景技术

土壤致病菌(简称致病菌)指在土壤中生存或通过土壤传播的人畜致病菌和植物致病菌,囊括大多数高风险致病菌,如破伤风杆菌、结核杆菌和大肠杆菌等。近年来,新型致病菌的种类和数量日益扩大,加剧抗生素滥用,恶化致病菌耐药风险。致病菌的识别和检测公共卫生、食品安全和动植物检疫检验等领域意义重大。据世界卫生组织统计,由医学致病菌导致的感染性疾病患者死亡人数占全球死亡人数的25%以上,每年约1300万儿童死于感染性疾病。植物致病菌的危害也不容乐观,土传病害爆发加剧土壤生物多样性退化,导致粮食减产或绝收。这些病原菌或在土壤中存活,或通过食物链进行传播,维护公共安全。因此,建立快速灵敏的致病菌检测新技术和新方法迫在眉睫。

当前,致病菌的检测方法种类多,主要分为培养和非培养两类。临床公认的“金标准”是分离培养和生化鉴定,但操作周期长、失败率高,而且很多致病菌难以分离培养。利用PCR扩增技术也可以简单、快速地定量检测致病菌,但需要设计特异性引物,而且只能检测致病菌基因组中的微小序列,缺乏代表性。质谱技术具有灵敏度高、特异性强和可高通量化等特点,被广泛用于致病菌蛋白质、多肽等的研究,但需要针对单一致病菌开展大量培养试验,检测内容也仅限于致病菌的分型。

二代测序技术(NGS)技术已逐步应用于致病菌的检测。NGS检测无需对致病菌进行分离培养,直接检测基因序列,大大缩减检测时间并提高了灵敏度,通过与病原菌数据库进行比对,基于序列相似性来判断样本中所包含的病原微生物种类,能够快速、客观地检测临床样本中的病原微生物(包括病毒、细菌、真菌、寄生虫)。而对致病菌的基因组测序获得细菌草图和完成图将有助于对致病菌的病理机制和进化动力学进行精细解析研究,快速推进了人类对致病微生物的认知。

然而,当前利用NGS鉴定土壤致病菌仍面临一些问题。数据库缺乏,大部分的病原菌数据库是通过人工筛选整理后获得,数据库中致病菌的类型有限、收录信息存在错误、数据库冗余和更新缓慢等都是常见问题。而随着测序的菌株增多,人类获得的微生物的基因组的序列也越来越多,病原微生的物种类也在不断增多,病原微生物的数据库的全面性始终将会是无法逾越的瓶颈。同时宏基因组测序技术的推进将使人类获取更多的无法培养的微生物的参考基因组,进一步推动基因组学研究深度。而常规的通过数据库注释病原微生物也将不再适用于不断更新的培养及无法培养的微生物基因组,有限的信息制约了致病菌的检测和识别能力,急需建立一种新的不依赖数据库序列比对的快速精确检测方法。

k-mer是指在reads上,从第一个碱基开始,按照1bp为窗口向前移动,截取长度为k的DNA序列切片,常用于基因组组装以及物种基因组大小、杂合度、重复序列、样品污染的评估。随着k-mer的广泛应用,越来越多的基于k-mer算法的软件快速推动了物种的基因组研究,极大丰富了人类对物种起源、进化等方面的认知。然而,k-mer频率衡量基因组中片段的重要性不够全面,无法体现片段或特征间的关联性。因此建立一种全基因组层面k-mer频率交叉融合模型预测细菌致病性,用于精准识别土壤致病菌污染的方法。

发明内容

本发明的目的在于提供一种使用序列k-mer频率优化特征精准识别土壤致病菌污染的方法,通过将k-mer频率分布作为基因组序列的初始特征描述,运用人工智能的方法提取基因组的高级特征实现细菌致病性预测。

本发明采取的技术方案是:一种使用序列k-mer频率优化特征精准识别土壤致病菌污染的方法,其包括如下步骤:

步骤一、选取合适的k-mer片段长度,进行频率特征提取;

步骤二、对提取的数据进行归一化处理;

步骤三、构建交叉融合神经网络;网络由输入层、残差网络、深度网络、交叉网络和特征合并层组成;k-mer特征向量并行送入残差网络、深度网络、交叉网络,特征向量各元素并行计算,最终特征合并实现特征交叉;并行接入的特征合并层主要目的在于,保留原始k-mer特征,增加模型的非线性表达能力。模型既有低阶交叉项又有高阶交叉项,具有较好的模型表征能力。输入为1)中X

步骤四、模型预测;第一次使用先训练神经网络参数,再将待预测细菌DNA序列通过步骤一方法提取频率特征,送入训练好的残差神经网络,输出预测结果。

进一步的,所述步骤一中,定义k-mer包含k个碱基,碱基的组合数v=4

进一步的,所述步骤二中,将频率特征中的值进行标准差标准化,将数据转化为均值为零,方差为一的数据,形如标准正态分布。

进一步的,所述步骤三中,构建的交叉融合神经网络在特征优化上包括以下三个部分:

(a)4层残差网络生成交叉特征

X

l=1,2,…,5,ReLU是线性整流函数,X

(b)4层深度神经网络对原始序列特征降维

三层神经元个数分别为8192、4096、2048、1024,每层输出值如下:

H

i=1,2,3,4,H

(c)交叉神经网络

交叉网络以直接的方式显式k-mer特征交叉,交叉网络由交叉层组成,每个层具有以下公式:

C

其中:l=1,2,…,N

打分层使用逻辑回归模型:

F=sigmoid(W

F最终致病性输出,1为致病,0非致病;W

本发明的有益效果是:本发明通过将k-mer频率分布作为基因组序列的初始特征描述,运用人工智能的方法提取基因组的高级特征实现细菌致病性预测。本发明的准确率优于现有k-mer特征预测算法;自动地将k-mer特征组合在一起,高效学习低维特征交叉和高维非线性特征,生成更优的模型。模型不需要人工特征工程或遍历搜索,具有较低的计算成本。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

图1是致病性预测流程图;

图2是特征交叉融合神经网络结构图;

图3是实施例的基因序列图;

图4是致病性与非致病性序列长度分布密度图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

收集21份NCBI医学病原菌数据库,包括Gu、Barbara N Kunkel病原菌论文和数据库网站(https://www.ncbi.nlm.nih.gov/pathogens/)中所有种水平病原细菌拉丁名,去冗余后得到2070个种水平病原细菌。为了尽可能多的涵盖更多的涵盖细菌的门类,从中挑了1478个completegenome,包含1217个属,其中致病性细菌530个属,非致病性细菌687个属。基因序列文件内部数据如下图3,包括序列拉丁名称和序列。序列长度密度图为下图4所示。选取合适的k-mer片段长度,进行频率特征提取,共提取到1480条序列的10952维特征。其中80%即1184条选做训练集,剩余20%即296条选做验证集,用来评估训练所得模型。具体实施步骤如下:

(1)k-mer频率提取

选用k=3,4,5,6,7,X0=[P3,P4,P5,P6,P7],X0维数10952,共得到1480*10952的二维特征矩阵。

(2)数据标准化

将频率特征中的值进行标准差标准化,将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布)。

(3)构建交叉融合神经网络

第一次使用需要训练神经网络参数。batch size=512为每一批数据规模,网络使用Adam优化器。

特征交叉融合神经网络结构如下:

Layer1:输入层,将所有特征进行拼接,作为神经网络的输入层(输入维度10952*batch size),输入层数据为Tensor

Layer2:交叉网络层共7层,输入参数为Tensor

Layer3:残差网络第1层,输入参数为Tensor

Layer4:Dropout(p=0.2),即让20%隐藏层神经元权重不工作,防止模型过拟合。

Layer5:残差网络第2层,Linear1(输入维度=10952*batch size,输出维度=2048*batch size),ReLU激活函数(),Linear2(输入维度=2048*batch size,输出维度=10952*batch size),再与最初输入数据相加,构成残差网络,最后再经过一次ReLU()。

Layer6:Dropout(p=0.2),即让20%隐藏层神经元权重不工作,防止模型过拟合。

Layer7:残差网络第3层,Linear1(输入维度=10952*batch size,输出维度=1024*batch size),ReLU激活函数(),Linear2(输入维度=1024*batch size,输出维度=10952*batch size),再与最初输入数据相加,构成残差网络,最后再经过一次ReLU()。

Layer8:Dropout(p=0.2),即让20%隐藏层神经元权重不工作,防止模型过拟合。

Layer9:残差网络第4层,Linear1(输入维度=10952*batch size,输出维度=512*batch size),ReLU()激活函数,Linear2(输入维度=512*batch size,输出维度=10952*batch size),再与最初输入数据相加,构成残差网络,最后再经过一次ReLU()。

Layer10:Dropout(p=0.2),即让20%隐藏层神经元权重不工作,防止模型过拟合。最后再经过ReLU激活函数(输入维度=10952*batch size,输出维度=1024*batchsize)。保存神经元特征数据为Tensor

Layer11:深度神经网络第1层,输入参数为Tensor

Layer12:深度神经网络第2层,BatchNorm1d(输入维度=8192*batch size,输出维度=8192*batch size),Linear1(输入维度=8192*batch size,输出维度=4096*batchsize),ReLU()激活函数。

Layer13:深度神经网络第3层,BatchNorm1d(输入维度=4096*batch size,输出维度=4096*batch size),Linear1(输入维度=4096*batch size,输出维度=2048*batchsize),ReLU()激活函数。

Layer14:深度神经网络第4层,BatchNorm1d(输入维度=2048*batch size,输出维度=2048*batch size),Linear1(输入维度=2048*batch size,输出维度=1024*batchsize),ReLU()激活函数。保存神经元特征数据为Tensor

Layer15:特征合并全连接层,将交叉神经网络、残差神经网络、深度神经网络最终输出神经元特征进行特征拼接,执行Tensor

经过300次迭代网络达到较好状态,保存相应网络参数模型用于细菌序列致病性预测。

(4)模型预测

第一次使用需要训练残差神经网络参数。将待预测细菌DNA序列通过(1)方法提取频率特征,送入训练好的残差神经网络,输出预测结果,即本条序列的致病性与非致病性的概率,可设置阈值进行进一步划分。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的普通技术人员应该了解,上述实施例不以任何形式限制本发明的保护范围,凡采用等同替换等方式所获得的技术方案,均落于本发明的保护范围内。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号