公开/公告号CN105447569A
专利类型发明专利
公开/公告日2016-03-30
原文格式PDF
申请/专利权人 北京柏惠维康科技有限公司;
申请/专利号CN201510958620.0
申请日2015-12-18
分类号G06N3/08(20060101);G06K9/00(20060101);
代理机构11260 北京凯特来知识产权代理有限公司;
代理人郑立明;郑哲
地址 100191 北京市海淀区花园东路乙9号3号楼303室
入库时间 2023-12-18 15:12:07
法律状态公告日
法律状态信息
法律状态
2022-08-16
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06N 3/08 专利号:ZL2015109586200 变更事项:专利权人 变更前:北京柏惠维康科技有限公司 变更后:北京柏惠维康科技股份有限公司 变更事项:地址 变更前:100191 北京市海淀区花园东路乙9号3号楼303室 变更后:100191 北京市海淀区花园北路35号9号楼5层501
专利权人的姓名或者名称、地址的变更
2018-10-19
授权
授权
2016-04-27
实质审查的生效 IPC(主分类):G06N3/08 申请日:20151218
实质审查的生效
2016-03-30
公开
公开
技术领域
本发明涉及细胞特征分析技术领域,尤其涉及一种基于深度学习的乳腺癌细胞特征分 析系统。
背景技术
深度学习是目前机器学习中的热点技术,概念起源于人工神经网络的研究,其核心 思想是使用无监督的逐层预训练,有效防止了梯度弥散问题,使得神经网络在拥有更多 层的时候也可以进行有效的训练。而更多的层就意味着网络可以表达更加复杂的函数, 可以学习到更加高级的特征。从而实现更好的识别性能。
其本质上是构建含有多隐层的架构模型,通过大规模数据进行训练,得到大量更具 代表性的特征信息,从而对样本进行分类和预测,提高分类和预测的精度。深度学习高 精度的分类和预测在语音识别、对象识别和自然语言处理等领域有很好的表现。而且也 有研究者将深度学习用于识别乳腺癌组织学图像中处于有丝分裂阶段的细胞。但目前用 基于非结构化数据的端到端技术对乳腺癌细胞进行分析识别,还不能做到很好地识别效 果。所以需要从细胞组织切片中提取相关的细胞学特征,将数据组织成结构化的数据, 并利用这些结构化的数据去训练一个深度神经网络,可以达到更好的分析正确率。
现有技术中,还没有进行乳腺癌细胞特征分析的相关方案,因此,有必要研发一套 可自动对乳腺癌细胞的特征进行分析的设备。
发明内容
本发明的目的是提供一种基于深度学习的乳腺癌细胞特征分析系统,不仅实现了深 度学习用于处理有结构的数据,还可以实现乳腺癌细胞特征的自动分析。
本发明的目的是通过以下技术方案实现的:
一种基于深度学习的乳腺癌细胞特征分析系统,包括:
数据集构建模块,用于从历史数据库中调用历史数据来构建带有标签的数据集;
乳腺癌细胞分析模型构建模块,用于对所述数据集中所有数据进行归一化处理,并 建立卷积神经网络模型,所建立的卷积神经网络模型包含相互交替的卷积层与池化层、 全连接层及Logistic分类器;对所述卷积层与全连接层进行无监督的预训练,基于数据集 的标签对Logistic分类器进行有监督的预训练,获得训练后的乳腺癌细胞分析模型;
分析模块,用于基于所述训练后的乳腺癌细胞分析模型实现乳腺癌细胞的特征分 析。
进一步的,所述乳腺癌细胞分析模型构建模块还用于,在获得训练后的乳腺癌细胞 分析模型之后对整个乳腺癌细胞分析模型的参数进行微调,以及利用交叉验证技术来选 择使得模型泛化性能最好的超参。
进一步的,所述数据集构建模块,用于从历史数据库中调用历史数据来构建带有标 签的数据集包括:
所述历史数据包括:乳腺细胞组织的切片样本,以及对应的分析结果;
对所述切片样本进行特征提取,每一切片样本均提取n个特征,然后对每一个特征均 计算其平均值、标准误差和三个最大值的平均值,则对于每一切片样本而言提取出3n个 特征;若用xij表示第j个切片样本的第i个特征的特征向量,则一个切片样本的特征向量 为一个3n维的向量,表示为:
Xj=(x1j,x2j,…x(3n)j)T;
如果收集了m个切片样本,则整个数据集用矩阵X表示:
X=(X1,X2,…Xm)=(xij)3n×m;
其中,矩阵X的每一列代表一个切片样本的数据;
再将对应的分析结果作为标签,对应到矩阵X的每一列,从而获得带有标签的数据 集。
进一步的,所述对所述数据集中所有数据进行归一化处理包括:
对数据集中每个元素按照如下公式进行归一化:
其中,表示第j个切片样本的第i个特征的特征向量xij的归一化结果;mean(xi*) 表示对数据集第i行所有元素求平均值;std(xi*)表示对数据集第i行所有元素求标准差。
进一步的,所建立的卷积神经网络模型包括:
卷积层1、池化层1、卷积层2、池化层2、全连接层及Logistic分类器;
第一层为卷基层1,其表达式为:
其中,X为数据集,表示第1层第i个特征向量的输入,表示第1层第i个卷积 核,*表示卷积运算,表示第1层第i个特征向量的激活值,ReLU为卷积层的激活函 数;
第二层为池化层1,其表达式为:
其中,表示第2层第i个特征向量的输入,表示第2层第i个特征向量的激活值, Pooling为池化运算;
第三层为卷基层2,其表达式为:
其中,表示第3层第j个特征向量的输入,表示第3层第j个卷积核,表示 第3层第j个特征向量的激活值;
第四层为池化层2,其表达式为:
其中,表示第4层第i个特征向量的激活值,表示第4层第i个特征向量的输入;
第五层为串联层,其将前述四层所有的特征向量串联起来:
其中,concatenate表示串联操作,z(5)表示第5层特征向量的输入,a(5)表示第5层特 征向量的激活值;
第六层为全连接层,其表达式为:
z(6)=Wa(5);
a(6)=ReLU(z(6));
其中,z(6)表示第6层特征向量的输入,a(6)表示第6层特征向量的激活值,W表示第 五层到第六层的权重矩阵;
全连接层输出的a(6)则为Logistic分类器的输入。
进一步的,所述对所述卷积层与全连接层进行无监督的预训练包括:
从数据集中选取一部分数据作为训练集;
对于卷积层1,每次选取训练集中相邻的ks1维特征向量,作为稀疏自编码器的输入 进行预训练,其中,稀疏自编码器的隐藏层节点个数是nf1,该节点个数nf1对应于卷积层 1中特征向量的总个数,所选取特征向量的维数ks1对应于卷积层1的卷积核长度;用预训 练后的权重初始化卷积层1的卷积核,训练样本通过卷积层1后得到之后通过池化层 1做平均池化得到
卷积层2以为输入,每次选取训练集中所有的ks2维特征向量,作为稀疏自编码器 的输入进行预训练,其中,稀疏自编码器的隐藏层节点个数是nf2该节点个数nf2对应于卷 积层2中特征向量的总个数,所选取特征向量的维数ks2对应于卷积层2的卷积核长度;用 预训练后的权重初始化卷积层2的卷积核,训练样本通过卷积层2后得到之后通过池 化层2做平均池化得到
将所有的池化层2的输出串联成一个特征向量,并以此为输入对全连接层进行预 训练,全连接层节点个数由交叉验证最终确定。
进一步的,所述基于数据集的标签对Logistic分类器进行有监督的预训练包括:
以全连接层输出的特征向量,及特征向量对应的标签,构成带有标签的训练集;
对于给定的输入x=a(6),用一个假设函数针对切片分析结果进行估算;Logistic分类 器的假设函数为Sigmoid函数:
其代价函数为:
其中,m表示切片样本的个数,y(i)表示第i个切片样本的标签,x(i)表示第i个切片 样本,hθ(x(i))表示第i个切片样本的输出值,θ表示Logistic分类器的权重,λ表示权重衰 减参数,是权重衰减项;
Logistic按如下公式计算代价函数J(θ)对于权重参数的梯度:
通过最小化代价函数J(θ),得到权重θ,将得到的θ代入Logistic分类器,即实现了 Logistic分类器的预训练。
进一步的,所述在获得训练后的乳腺癌细胞分析模型之后对整个乳腺癌细胞分析模 型的参数进行微调包括:
通过BP与Dropout相结合的方法进行参数微调,其步骤为:将每N个切片样本为一个 批次做梯度下降,每次梯度下降的时候每个全连接层的隐藏节点以概率s随机忽略,每个 串联层节点以概率q随机忽略,每次的权重更新只更新保留下来的节点所对应的权重,每 次权重更新的过程都要从所有的节点中随机选择,更新也是在上次更新后的基础之上进 行更新,从而得到最终的微调后的参数。
进一步的,所述利用交叉验证技术来选择使得模型泛化性能最好的超参包括:
在模型训练的过程中预先确定若干个参数,将这若干个参数作为超参;
再交叉验证技术选择使得模型泛化性能最好的超参,其步骤为:
首先,固定超参,再将训练集随机等分为P份,将第1份做为验证集,剩下的P-1份作 为训练集,对模型进行训练;将验证集数据输入到训练后的模型里,得到模型的诊断准 确率;
然后,将第2份最为验证集,剩下的P-1份作为训练集,对模型进行训练,将验证集 数据输入到训练后的模型里面,得到模型的诊断准确率;
重复上述步骤,直至获得P个诊断准确率,对这P个准确率进行平均,得到在这组超 参下所训练出来的模型的准确率;然后更换一组超参,重复上述步骤,选出使得准确率 最高的超参组合作为最终对于超参的设定。
进一步的,所述分析模块,用于基于所述训练后的乳腺癌细胞分析模型实现乳腺癌 细胞的特征分析包括:
对待检测的数据进行特征提取,再进行归一化处理后;
将归一化处理后的结果作为训练后的乳腺癌细胞分析模型的输入,从而获得乳腺癌 细胞的特征分析结果。
由上述本发明提供的技术方案可以看出,以深度学习为基础,构建多层次的卷积神 经网络,实现了多级特征提取,这样可以达到更高分析准确度;本发明中模型的激活函 数使用的是非饱和的ReLU函数,其具有更快的收敛特性;本发明中的池化层采用了有重 叠的池化操作,通过交叉验证可以证明,与传统的非重叠的池化层相比,有重叠的池化 可以进一步提高分析准确度;本发明采用了稀疏自编码器预训练+Dropout微调的训练模 式,有效降低了模型的过拟合,增强了训练后所得模型的泛化能力,从而可以进一步提 高分析准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的 附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得 其他附图。
图1为本发明实施例提供的一种基于深度学习的乳腺癌细胞特征分析系统结构示意 图;
图2为本发明实施例提供的深度学习中卷积神经网络的构架示意图;
图3为本发明实施例提供的稀疏自编码器的原理示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明的保护范围。
本发明实施例提供一种基于深度学习的乳腺癌细胞特征分析系统,其结构如图1所 示,主要包括:数据集构建模块、乳腺癌细胞分析模型构建模块及分析模块;其中:
数据集构建模块,用于从历史数据库中调用历史数据来构建带有标签的数据集;
乳腺癌细胞分析模型构建模块,用于对所述数据集中所有数据进行归一化处理,并 建立卷积神经网络模型,所建立的卷积神经网络模型包含相互交替的卷积层与池化层、 全连接层及Logistic分类器;对所述卷积层与全连接层进行无监督的预训练,基于数据集 的标签对Logistic分类器进行有监督的预训练,获得训练后的乳腺癌细胞分析模型;
分析模块,用于基于所述训练后的乳腺癌细胞分析模型实现乳腺癌细胞的特征分 析。
需要强调的是,本发明实施例所要求保护的系统为一套整体硬件结构,除了前述必 要的三个硬件结构外,还可以根据实际情况来搭配选择其他硬件结构,比如,用于移动 或固定上述三个硬件结构的装置,或者用于将分析结果向外传输的通信模块或通信接口 等。
为了便于理解,下面针对上述三个硬件结构做详细的说明。
一、数据集构建模块
其用于从历史数据库(设置在一存储介质中)中调用历史数据来构建带有标签的数 据集,具体步骤包括:
所述历史数据包括:乳腺细胞组织的切片样本,以及对应的分析结果;
对所述切片样本进行特征提取,每一切片样本均提取n个特征,然后对每一个特征均 计算其平均值、标准误差和三个最大值的平均值,则对于每一切片样本而言提取出3n个 特征;若用xij表示第j个切片样本的第i个特征的特征向量,则一个切片样本的特征向量 为一个3n维的向量,表示为:
Xj=(x1j,x2j,…x(3n)j)T;
如果收集了m个切片样本,则整个数据集用矩阵X表示:
X=(X1,X2,…Xm)=(xij)3n×m;
其中,矩阵X的每一列代表一个切片样本的数据;
再将对应的分析结果作为标签,对应到矩阵X的每一列,从而获得带有标签的数据 集。
二、乳腺癌细胞分析模型构建模块。
本发明实施例中,乳腺癌细胞分析模型构建模块中的归一化处理、构建卷积神经网 络模型、以及对模型进行训练的具体过程如下:
1、对所述数据集中所有数据进行归一化处理,其包括:
对数据集中每个元素按照如下公式进行归一化:
其中,表示第j个切片样本的第i个特征的特征向量xij的归一化结果;mean(xi*) 表示对数据集第i行所有元素求平均值;std(xi*)表示对数据集第i行所有元素求标准差。
2、建立卷积神经网络模型
如图2所示,主要包括:卷积层1、池化层1、卷积层2、池化层2、全连接层及 Logistic分类器;
第一层为卷基层1,其表达式为:
其中,X为数据集,表示第1层第i个特征向量的输入,表示第1层第i个卷积 核(最合适的卷积核长度需要通过交叉验证来确定),*表示卷积运算,表示第1层第 i个特征向量的激活值;ReLU为卷积层的激活函数,这种非饱和的激活函与传统的 sigmoid激活函数相比收敛速度更快。其解析式是:ReLU(x)=max(x,0);
第二层为池化层1,其表达式为:
其中,表示第2层第i个特征向量的输入,表示第2层第i个特征向量的激活值, Pooling为池化运算,本发明实施例中,采用平均池化;
第三层为卷基层2,其表达式为:
其中,表示第3层第j个特征向量的输入,表示第3层第j个卷积核,表示 第3层第j个特征向量的激活值;参数i对应的是卷积层1中的第i个特征向量,参数j对应的 是卷积层2的第j个特征向量(卷积层1和卷积层2中的特征向量个数不同,所以分别用i和j 来表示,加以区分);
第四层为池化层2,其表达式为:
其中,表示第4层第j个特征向量的激活值,表示第4层第j个特征向量的输入;
第五层为串联层,其将前述四层所有的特征向量串联起来:
其中,concatenate表示串联操作,z(5)表示第5层特征向量的输入,a(5)表示第5层特 征向量的激活值;
第六层为全连接层,其表达式为:
z(6)=Wa(5);
a(6)=ReLU(z(6));
其中,z(6)表示第6层特征向量的输入,a(6)表示第6层特征向量的激活值,W表示第 五层到第六层的权重矩阵;
全连接层输出的a(6)则为Logistic分类器的输入。
3、对模型进行训练。
1)对所述卷积层与全连接层进行无监督的预训练,其包括:
从数据集中选取一部分数据作为训练集;
对于卷积层1,每次选取训练集中相邻的ks1维特征向量(ks1为卷积层1的卷积核长 度),作为稀疏自编码器(如图3所示)的输入进行预训练,其中图3中的稀疏自编码器 的隐藏层节点个数是nf1(对应于卷积层1中特征向量的总个数);用预训练后的权重初始 化卷积层1的卷积核;训练样本通过卷积层1后得到之后通过池化层1做平均池化得 到
卷积层2是以为输入,每次选取训练集中相邻的ks2维特征向量(ks2为卷积层 2的卷积核长度)作为稀疏自编码器(如图3所示)的输入进行预训练,此时图3中的稀疏 自编码器的隐藏层节点个数是nf2(对应于卷积层2中特征向量的总个数),用预训练后的 权重初始化卷积层2的卷积核;训练样本通过卷积层2后得到之后通过池化层2做平 均池化得到
将所有的池化层2的输出串联成一个特征向量,并以此为输入对全连接层进行预 训练,全连接层节点个数由交叉验证最终确定;
其中,所述稀疏自编码器为一种无监督学习算法,所述稀疏自编码器使用了反向传 播算法,并让目标值等于输入值,同时对隐藏层加上了“稀疏性”限制。
若用aj(x)表示在输入为x情况下,稀疏自编码器的隐藏层神经元j的激活度,则:
表示隐藏层神经元j的平均活跃度,对其加入“稀疏性”限制:
其中ρ是稀疏性参数,通常是一个接近于0的较小的值(比如ρ=0.05)。
稀疏自编码器的代价函数可以表示为:
其中,
3)基于数据集的标签对Logistic分类器进行有监督的预训练,其包括:
以全连接层输出的特征向量,及特征向量对应的标签,构成带有标签的训练集;
对于给定的输入x=a(6),用一个假设函数针对切片分析结果进行估算;Logistic分类 器的假设函数为Sigmoid函数:
其代价函数为:
其中,m表示切片样本的个数,y(i)表示第i个切片样本的标签,x(i)表示第i个切片 样本,hθ(x(i))表示第i个切片样本的输出值,θ表示Logistic分类器的权重,λ表示权重衰 减参数。是权重衰减项,使代价函数成为严格的凸函数,能够保证其得到唯一解。
Logistic按如下公式计算代价函数J(θ)对于权重参数的梯度:
通过最小化代价函数J(θ),得到权重θ,将得到的θ代入Logistic分类器(整个模型 的最后一层),即实现了Logistic分类器的预训练。
优选的,所述乳腺癌细胞分析模型构建模块还用于,在获得训练后的乳腺癌细胞分 析模型之后对整个乳腺癌细胞分析模型的参数进行微调,以及利用交叉验证技术来选择 使得模型泛化性能最好的超参。具体过程如下:
1)对整个乳腺癌细胞分析模型的参数进行微调。
对整个乳腺癌细胞分析模型的参数进行微调,降低训练误差。在这个步骤中,除了 采用传统的BP方法进行微调,在最后一个全连接层还采用了Dropout方法进行微调。
本发明实施例中,通过BP与Dropout相结合的方法进行参数微调,其步骤为:将每N 个切片样本为一个批次做梯度下降,每次梯度下降的时候每个全连接层的隐藏节点以概 率s随机忽略,每个串联层节点以概率q随机忽略,每次的权重更新只更新保留下来的节 点所对应的权重,每次权重更新的过程都要从所有的节点中随机选择,更新也是在上次 更新后的基础之上进行更新,从而得到最终的微调后的参数。
在测试的时候,串联层与全连接层之间的权重乘以w,其他所有的权重乘以c。
本发明实施例中,所述的N、s、q、w、c的具体数值可根据实际情况来设定。示例 性的,可设置N=50,s=0.5,q=0.2,w=0.8,c=0.5。
2)利用交叉验证技术来选择使得模型泛化性能最好的超参。
其步骤如下:
在模型训练的过程中预先确定若干个参数,将这若干个参数作为超参;
再交叉验证技术选择使得模型泛化性能最好的超参,其步骤为:
首先,固定超参,再将训练集随机等分为P份,将第1份做为验证集,剩下的P-1份作 为训练集,对模型进行训练;将验证集数据输入到训练后的模型里,得到模型的诊断准 确率;
然后,将第2份最为验证集,剩下的P-1份作为训练集,对模型进行训练,将验证集 数据输入到训练后的模型里面,得到模型的诊断准确率;
重复上述步骤,直至获得P个诊断准确率,对这P个准确率进行平均,得到在这组超 参下所训练出来的模型的准确率;然后更换一组超参,重复上述步骤,选出使得准确率 最高的超参组合作为最终对于超参的设定。
本发明实施例中,所述P的具体数值可根据实际情况来设定。示例性的,可设置 P=10,则交叉验证技术为10折交叉验证技术。
三、分析模块
所述分析模块,用于基于所述训练后的乳腺癌细胞分析模型实现乳腺癌细胞的特征 分析,其步骤包括:
对待检测的数据进行特征提取,再进行归一化处理后;所述待检测的数据存储在一 存储介质中,特征提取与归一化处理的过程与前文一致,不在赘述。
将归一化处理后的结果作为训练后的乳腺癌细胞分析模型的输入,从而获得乳腺癌 细胞的特征分析结果。
本发明的上述方案以深度学习为基础,构建多层次的卷积神经网络,实现了多级特 征提取,这样可以达到更高分析准确度;本发明中模型的激活函数使用的是非饱和的 ReLU函数,其具有更快的收敛特性;本发明中的池化层采用了有重叠的池化操作,通过 交叉验证可以证明,与传统的非重叠的池化层相比,有重叠的池化可以进一步提高分析 准确度;本发明采用了稀疏自编码器预训练+Dropout微调的训练模式,有效降低了模型 的过拟合,增强了训练后所得模型的泛化能力,从而可以进一步提高分析准确度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替 换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的 保护范围为准。
机译: RNA-一种基于深度学习的系统,用于通过深度学习评估RNA引导的核酸酶活性
机译: RNA-一种基于深度学习的系统,用于通过深度学习评估RNA引导的核酸酶活性
机译: 一种用于移动轮椅的面部特征分析系统,具有摄像头,该摄像头从面部表情生成非侵入性控制信号,并且面部定位主模块基于整体面部模块计算用户的面部定位