首页> 中国专利> 一种基于WGAN对抗生成网络生成生物拉曼光谱数据的方法

一种基于WGAN对抗生成网络生成生物拉曼光谱数据的方法

摘要

本发明提供一种基于WGAN对抗生成网络生成生物拉曼光谱数据的方法,包括以下步骤:步骤a、从拉曼光谱数据库里抽取部分拉曼光谱数据作为真实样本;步骤b、创建正态分布函数,生成随机数据Z;步骤c、创建生成网络G,将随机数据Z输入生成网络G;步骤d、创建判别网络D,将拉曼光谱数据和生成样本输入判别网络D;步骤e、计算生成网络G和判别网络D的目标函数;步骤f、对目标函数进行优化,对生成网络G和判别网络D进行迭代训练。本发明的有益效果:对比现有的深度学习技术,损失函数利用了wassertein距离公式,而不是kl散度,可以不断的移动生成样本的数据分布,使生成样本的数据分布不断向真实样本的数据分布移动。

著录项

  • 公开/公告号CN112712857A

    专利类型发明专利

  • 公开/公告日2021-04-27

    原文格式PDF

  • 申请/专利权人 北京信息科技大学;

    申请/专利号CN202011442769.0

  • 申请日2020-12-08

  • 分类号G16B50/30(20190101);G16B40/00(20190101);G06N3/04(20060101);G06N3/08(20060101);G01N21/65(20060101);

  • 代理机构11416 北京律恒立业知识产权代理事务所(特殊普通合伙);

  • 代理人庞立岩;顾珊

  • 地址 100085 北京市海淀区清河小营东路12号北京信息科技大学光电学院

  • 入库时间 2023-06-19 10:44:55

说明书

技术领域

本发明属于计算机技术领域,特别涉及一种基于WGAN对抗生成网络生成生物拉曼光谱数据的方法。

背景技术

在生物医学领域,拉曼光谱技术在促进了解细胞大分子行为方面起着很重要的作用。过去的20年间,拉曼光谱技术在生物医学领域显示了很宽阔的应用前景。它能够应用于评估试样形态结构,鉴别组织成分和确定细胞,组织和器官内部的病理变化。

拉曼光谱在医学领域成功应用的基础是对基本生物分子振动特性的了解,和对这种非破坏性光谱方法的灵敏度,重现性和效率的适当评估。

在生物医学领域,与其他诊断技术相比,拉曼光谱技术在许多方面具有明显优势。生物医学式样一般是体液、软组织和矿物质的混合物,而拉曼光谱技术能应用于广泛种类的试样形态,所以这在生物医学检测中是非常吸引人的优点。拉曼光谱技术可以提供许多其他生物医学检测无法获得的资料,例如它能进行化学成分的鉴别,分子结构的分析等。拉曼光谱技术应用于生物医学应用中是一种非破坏性的方法。适当选择激光波长和功率能够避免试样遭受损伤。

通常将拉曼散射强度相对波长的函数图称为拉曼光谱图。拉曼光谱x轴的惯用单位是相对激发光波长便宜的波数,简称为拉曼频移。波数与能量E的关系如下式所示:

E=hν=hc/λ=hcω

式中,h为普朗克常数;ν为光的频率;c为光速;λ为光的波长;而ω为光的波数。如此,拉曼光谱的x轴正好是激光波长和拉曼光波长以波数计的差。

将深度学习应用于拉曼光谱中,大大简化了拉曼光谱分类系统的开发,可以从原始拉曼波数信息直接识别出生物医学检测中需要检测的东西。

拉曼光谱的数据特征是一维的,但是应用于生物医学检测的拉曼光谱数据不是很好获得,所以它的数量远远没有计算机视觉和自然语言领域的数据多。目前,应用于生物医学检测的拉曼光谱的数据不是很多,不足以去提高拉曼光谱对医学检测的准确率,所以需要一个技术手段来扩充拉曼光谱数据库,以便于提高对生物医学检测的准确率。

利用wessertein GAN神经网络方法生成拉曼光谱数据,以此来扩充拉曼光谱数据库。

发明内容

本发明的目的在于克服现有技术的缺点,提供一种基于WGAN对抗生成网络生成生物拉曼光谱数据的方法,生成网络G和判别网络D的构成采用了反卷积网络和卷积网络,与全连接网络相比,参数的数量大大减小且节省了很多代码运行的时间,增加装置的适用性。

为解决上述技术问题,本发明采用的技术方案是:一种基于WGAN对抗生成网络生成生物拉曼光谱数据的方法,所述方法包括以下步骤:步骤a、从拉曼光谱数据库里抽取部分拉曼光谱数据作为真实样本,对所述拉曼光谱数据进行预处理;步骤b、创建正态分布函数,生成随机数据Z;步骤c、创建生成网络G,将所述随机数据Z输入所述生成网络G,生成和所述拉曼光谱数据分布相似的数据即生成样本;步骤d、创建判别网络D,将所述拉曼光谱数据和所述生成样本输入所述判别网络D;步骤e、计算所述生成网络G和所述判别网络D的目标函数;步骤f、对所述目标函数进行优化,对所述生成网络G和所述判别网络D进行迭代训练,得到可以以假乱真的拉曼光谱的生成数据。

优选的,所述拉曼光谱数据为一维数据。

优选的,所述生成网络G利用反卷积操作创建;所述判别网络D通过卷积神经网络创建。

优选地,对所述拉曼光谱数据进行预处理,包括去躁、平滑和归一化。

优选的,对所述目标函数进行优化,结合了AdaGrad和RMSProp两种优化算法。

与现有技术相比,本发明的有益效果在于:

1、对比现有的深度学习技术,损失函数利用了wassertein距离公式,而不是kl散度,可以不断的移动生成样本的数据分布,使生成样本的数据分布不断向真实样本的数据分布移动;

2、生成网络G和判别网络D的构成采用了反卷积网络和卷积网络,与全连接网络相比,参数的数量大大减小且节省了很多代码运行的时间;

应当理解,前述大体的描述和后续详尽的描述均为示例性说明和解释,并不应当用作对本发明所要求保护内容的限制。

附图说明

参考随附的附图,本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明,其中:

图1示意性示出了本发明方法整体流程示意图。

具体实施方式

通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。

本发明的目的是为了解决数据库里拉曼光谱数据样本不足的问题。提出了一种基于wassertein GAN生成口腔癌拉曼光谱数据的方法,用于扩充口腔癌拉曼光谱数据库。

第一步:从数据库里读入我们的口腔癌拉曼光谱数据的正是样本X。

第二步:创建正态分布函数xavier_init(size),用于输出随机值来做我们的参数初始值。

第三步:对判别模型的输入和参数进行初始化,其中输入使用了tf.placeholder(dtype)函数,对参数的初始化利用了正态分布函数xavier_init(size)。

第四步:对生成模型的输入和参数进行初始化,方法同上。

第五步:创建随机噪声采样函数sample_Z(m,n)来生成生成模型的随机噪声输入Z。

第六步:创建生成模型,利用的是全连接神经网络的方式。

第七步:创建判别模型,利用的是全连接神经网络的方式,其中最后的激活函数用到了tf.nn.sigmoid(D(Y))函数,目的是为了将判别值D(Y)的大小控制在0-1之间。

第八步:给生成网络G喂入随机噪声输入Z,得到口腔癌拉曼光谱数据的生成样本G(Z)。给判别网络D喂入口腔癌拉曼光谱数据的真实样本,得到了判别网络D对真实样本的判别值D_real;给判别网络D喂入口腔癌拉曼光谱数据的生成样本,得到了判别网络D对生成样本的判别值D_fake。

第九步:计算生成网络G和判别网络D的目标函数也就是它们的损失函数。生成网络G的损失函数为wassertein距离公式。目标函数也就是损失函数,相比于原始GAN的kl散度,增强版的wassertein GAN的损失函数用到了wassertein距离公式。

第十步:采用亚当优化器对生成网络G的损失函数G_wassertein和判别网络D的损失函数D_wassertein进行优化。

第十一步:开始训练,固定生成网络G,对判别网络D进行优化;再固定判别网络D对生成网络G开始优化,循环迭代,直到得到它们的最优解。最后得到的生成网络G产生的生成样本可以达到以假乱真的效果,用于扩充我们的拉曼光谱数据库。

在每次的训练迭代中,学习判别网络D包括以下步骤:从口腔拉曼光谱数据库里抽取真实样本{x

学习判别网络D包括以下步骤:从先验噪声分布P

本发明的有益效果:本发明对比现有的深度学习技术,损失函数利用了wassertein距离公式,而不是kl散度,可以不断的移动生成样本的数据分布,使生成样本的数据分布不断向真实样本的数据分布移动;本发明生成网络G和判别网络D的构成采用了反卷积网络和卷积网络,与全连接网络相比,参数的数量大大减小且节省了很多代码运行的时间。

结合这里披露的本发明的说明和实践,本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的,本发明的真正范围和主旨均由权利要求所限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号