首页> 中国专利> 基于皮肤宏基因组数据的身份鉴定特征提取方法及系统

基于皮肤宏基因组数据的身份鉴定特征提取方法及系统

摘要

本发明公开了一种基于皮肤宏基因组数据的身份鉴定特征提取方法及系统。该方法包括:获取由多个个体多次采样的皮肤数据样本构成的数据样本集,皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;将存在于A类数据中而不存在于B类数据中的k‑tuple确定为特异性k‑tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差异显著的k‑tuple确定为特异性k‑tuple,其中,A类数据由数据样本集中身份特征待提取个体的皮肤数据样本组成,B类数据由数据样本集中除身份特征待提取个体外的多个个体的皮肤数据样本组成。本发明基于特异性k‑tuple进行个体的身份鉴定,丰富了身份鉴别方法。

著录项

  • 公开/公告号CN112863593A

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利权人 厦门大学;

    申请/专利号CN202110158603.4

  • 发明设计人 王颖;郑艺銮;

    申请日2021-02-05

  • 分类号G16B20/00(20190101);G06K9/62(20060101);

  • 代理机构11569 北京高沃律师事务所;

  • 代理人张琳丽

  • 地址 361005 福建省厦门市思明南路422号

  • 入库时间 2023-06-19 11:06:50

说明书

技术领域

本发明涉及身份鉴定技术领域,特别是涉及一种基于皮肤宏基因组数据的身份鉴定特征提取方法及系统。

背景技术

现有犯罪嫌疑人身份鉴定主要是利用指纹来区分,方式比较单一,当前,亟需丰富身份鉴定方法。

发明内容

本发明的目的是提供一种基于皮肤宏基因组数据的身份鉴定特征提取方法及系统。

为实现上述目的,本发明提供了如下方案:

一种基于皮肤宏基因组数据的身份鉴定特征提取方法,包括:

获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;

将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。

可选的,所述方法还包括:

验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple在C类数据中与在D类数据中是否都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除所述身份特征待提取个体和B类数据外的多个个体的皮肤数据样本组成。

可选的,所述方法还包括:

将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,所述长序列用于所述身份特征待提取个体的身份鉴定。

可选的,所述将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,具体包括:

根据

将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。

可选的,所述利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,具体包括:

获取k-tuple特征矩阵

对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuple

一种基于皮肤宏基因组数据的身份鉴定特征提取系统,包括:

数据样本集获取模块,用于获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;

特异性k-tuple确定模块,用于将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。

可选的,所述系统还包括:

特异性k-tuple验证模块,用于验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple在C类数据中与在D类数据中都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除所述身份特征待提取个体和B类数据外的多个个体的皮肤数据样本组成。

可选的,所述系统还包括:

个体稳定的特异性生物标记序列识别模块,用于将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,所述长序列用于所述身份特征待提取个体的身份鉴定。

可选的,所述特异性k-tuple确定模块,具体包括:

ASS值计算单元,用于根据

特异性k-tuple确定单元,用于将ASS值大于第一设定阈值的k-tuple确定为特异性k-tuple。

可选的,所述特异性k-tuple确定模块,具体包括:

k-tuple特征矩阵获取单元,用于获取k-tuple特征矩阵

秩和检验单元,用于对由A类数据和B类数据构成的k-tuple特征矩阵F中的k-tuple

特异性k-tuple确定单元,用于在秩和检验结果小于第二设定阈值时,采用逻辑回归分类器预测k-tuple特征矩阵中k-tuple

根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于皮肤宏基因组数据的身份鉴定特征提取方法及系统,利用稳定的存在于人体皮肤表面的、存储着每个个体独一无二的微生物基因信息来对个体进行身份识别,丰富了个体身份识别的方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的基于皮肤宏基因组数据的身份鉴定特征提取方法的流程示意图;

图2为本发明实施例2提供的基于皮肤宏基因组数据的身份鉴定特征提取系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

皮肤是人类最大的一个器官,肤质有干燥、潮湿、油脂之分,并且含有大量的微生物。身体不同部位的皮肤有着不一样的微生物组,或者微生物的含量不同,又因每个个体的生活习惯不同等因素导致每个人的皮肤的微生物组都具有个体特异性。在法医现场的证据分析中,可以采集嫌疑人的皮肤样本数据并寻找其特异性生物标记序列,在分析犯罪现场采集的样本时,若出现了某一个体的多个特异性生物标记序列片段,则可作为该嫌疑人在场的辅助证据。由于皮肤中的微生物组能稳定存在于人体皮肤表面,因此利用人体表面的皮肤数据获得的特异性生物标记序列对犯罪嫌疑人进行身份鉴定具有极大的优势。

实施例1

参见图1,一种基于皮肤宏基因组数据的身份鉴定特征提取方法,该方法包括:

步骤101:获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;

步骤102:将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。

其中,步骤102中确定特异性k-tuple的方法可以具体如下:

根据

步骤102中确定特异性k-tuple的方法还可以具体如下:

获取k-tuple特征矩阵

作为本实施例的一个优选的实施方式,本实施例提供的方法还包括:

步骤103:验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple是否在C类数据中与在D类数据中都出现且频度差大于设定值。在该种实施方式中,步骤102中C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除B类数据和所述身份特征待提取个体外的多个个体的皮肤数据样本组成。验证的过程是对C类数据和D类数据进行如步骤102中所述A类数据和B类数据处理过程,验证步骤102中确定的特异性k-tuple是否在步骤103中也是特异性k-tuple,并将通过验证的特异性k-tuple作为最终用于鉴定个体身份的特异性k-tuple。

作为本实施例的一个优选的实施方式,本实施例提供的方法还包括:

步骤104:将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,即可获得个体的稳定的特异性生物标记序列。基于获得的个体的稳定的特异性生物标记序列可进行个体的身份鉴定。

在本实施例中,首先划分出AB两类数据作为第一组数据,用于识别个体的特异性k-tuple,其中A类是随机抽样身份特征待提取个体多个部位多个采样时间的数据,B类则是在其余所有个体中各自随机抽样得到的多部位多采样时间的样本。再分出剩余的CD两类数据作为第二组数据,用于检验身份特征待提取个体的特异性k-tuple,其中C类是身份特征待提取个体在抽取A类数据时中未被抽中的所有数据,D类则是在去除B类数据后其余所有个体中各自随机抽样得到的多部位多采样时间的样本。针对一段DNA序列G使用长度为k的滑动窗口从头到尾扫描整段DNA序列,计算每个k-tuple在整段DNA序列中出现的次数(频度),得到k-tuple频度向量后并归一化处理,如公式(1)所示,其中f

对第一组的每个测序数据都进行上述操作获得数据的k-tuple特征矩阵F,如公式(2)所示,其中S

根据k-tuple的频度差异获得身份特征待提取个体的特异性k-tuple。特异性k-tuple可以采取以下两种方式获得:

a)逻辑型类别特异性k-tuple

这是指仅在k-tuple特征矩阵F中的A类数据中存在而不存在于B类数据的k-tuple,即该k-tuple仅存在于某一个体的皮肤宏基因组数据中而不存在于其余个体中。将k-tuple特征矩阵F中的k-tuple频度逻辑化,即非0值对应逻辑值1,其余的对应逻辑值0。用公式(3)计算k-tuple的ASS值,并筛选出ASS值超过某一阈值的k-tuple,称其为特异性k-tuple。

其中,i=1,2,…,m,TP是指A类数据中k-tuple

b)数值型类别特异性k-tuple

利用秩和检验判断某一k-tuple在AB两类数据中的频度是否存在差异,若秩和检验的p值小于给定阈值则认为该k-tuple在第一组的AB两类数据中的频度具有显著差异。具体方法如下:对k-tuple特征矩阵F中各行行内的所有元素按大小进行排序,并赋值对应秩次;利用秩和检验判断该k-tuple在A类数据中与在B类数据中频度是否具有差异性,若秩和检验结果p值小于给定阈值则认为该k-tuple在AB两类数据中的频度具有差异性。逻辑回归分类器预测在AB两类数据构成的k-tuple特征矩阵中具有频度显著差异的k-tuple

实施例2

参见图2,本实施例通过了一种基于皮肤宏基因组数据的身份鉴定特征提取系统,该系统包括:

数据样本集获取模块201,用于获取由多个个体多次采样的皮肤数据样本构成的数据样本集,所述皮肤数据样本为对采集于皮肤表面的微生物样本进行宏基因组测序所得到的数据样本;

特异性k-tuple确定模块202,用于将存在于A类数据中而不存在于B类数据中的k-tuple确定为特异性k-tuple,或利用秩和检验将在A类数据中与在B类数据中都出现且频度差大于设定值的k-tuple确定为特异性k-tuple,其中,所述A类数据由所述数据样本集中身份特征待提取个体的皮肤数据样本随机抽样组成,所述B类数据由所述数据样本集中除所述身份特征待提取个体外的多个个体的皮肤数据样本组成;所述特异性k-tuple用于所述身份特征待提取个体的身份鉴定。

其中,作为本实施例的一种实施方式,特异性k-tuple确定模块202,可以包括:ASS值计算单元和特异性k-tuple确定单元。ASS值计算单元用于根据

作为本实施例的一种实施方式,特异性k-tuple确定模块202,还可以包括:k-tuple特征矩阵获取单元、秩和检验单元以及特异性k-tuple确定单元。其中,k-tuple特征矩阵获取单元用于获取k-tuple特征矩阵

作为本实施例的一种实施方式,本实施例提供的系统还包括:

特异性k-tuple验证模块203,用于验证所述特异性k-tuple是否存在于C类数据中且不存在于D类数据中,或验证所述特异性k-tuple是否在C类数据中与在D类数据中都出现且频度差大于设定值,其中,所述C类数据由所述数据样本集中除A类数据外的身份特征待提取个体的皮肤数据样本组成,所述D类数据由所述数据样本集中除B类数据和所述身份特征待提取个体外的多个个体的皮肤数据样本组成。

作为本实施例的一种实施方式,本实施例提供的系统还包括:

个体稳定的特异性生物标记序列识别模块204,用于将所述特异性k-tuple匹配回原始测序数据中,并筛选出被特异性k-tuple完全匹配上的测序读段,拼装为长序列,将该长序列用于所述身份特征待提取个体的身份鉴定。

本发明基于许多个体皮肤宏基因组数据,利用k-tuple的频度向量的差异作为特征寻找个体的特异性k-tuple后拼装得到个体稳定的特异生物标记序列,基于个体稳定的特异性生物标记序列可以在多位犯罪嫌疑人中唯一的识别出某一个体。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号