首页> 中国专利> 一种基于可变形卷积网络的深度学习图像分类方法及系统

一种基于可变形卷积网络的深度学习图像分类方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于可变形卷积网络的深度学习图像分类方法及系统，涉及计算机视觉图像识别领域，该方法包括以下步骤：步骤S1：将所有图像缩放至90*90大小，并分为训练集和测试集；步骤S2：设定可变形卷积网络结构；步骤S3：将可变形卷积网络结构第二层和第四层的卷积核按照一定规则丢弃部分卷积核参数；步骤S4：根据网络模型对训练集数据进行训练；步骤S5：将训练好的模型对测试集数据进行分类识别(假设要分N类图像)。本发明方法通过一定规则的处理，丢弃网络中部分卷积核参数，提高网络的关键信息提取能力，减少网络参数、运算量，提高网络分类准确率的同时，提高网络运行效率。

著录项

公开/公告号CN113139577A

专利类型发明专利
公开/公告日2021-07-20

原文格式PDF
申请/专利权人广东省科学院智能制造研究所;
展开▼

申请/专利号CN202110303551.5
发明设计人刘伟鑫;徐晨;周松斌;
展开▼

申请日2021-03-22
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06K9/00(20060101);
代理机构44326 广州容大知识产权代理事务所(普通合伙);
代理人潘素云
地址 510070 广东省广州市先烈中路100号大院15号楼
入库时间 2023-06-19 11:54:11

说明书

技术领域

本发明涉及计算机视觉图像识别领域，尤其是涉及一种基于可变形卷积网络的深度学习图像分类方法及系统。

背景技术

近年来深度学习在学术界、科技界应用广泛，尤其在图像领域，目前已经在图像分类领域取得较大进展，取得不错成效。人类在观察环境时，大脑往往只关注某几个特别重要的局部，获取关键信息，去除无关紧要的信息，但目前的主流的深度学习网络如VGG16、ALexNet、GoogleNet等对图像关键信息提取能力都较弱，在提取图像有用特征信息的同时包含了部分的无关信息，影响了网络模型的性能。

发明内容

有鉴于此，有必要针对上述问题，提供一种基于可变形卷积网络的深度学习图像分类方法及系统，其根据分类图像的特征信息自动设计卷积核，丢弃部分参数，实现提高网络关键特征信息提取能力的同时，减少网络运行算，提高网络运行效率。

为实现上述目的，本发明提供以下技术方案：

一方面，本发明提供一种基于可变形卷积网络的深度学习图像分类方法，包括以下步骤：

步骤S1：将所有图像缩放至90*90大小，并分为训练集和测试集；

步骤S2：设定可变形卷积网络结构；

步骤S3：将可变形卷积网络结构的第二层和第四层的卷积核按照一定规则丢弃部分卷积核参数：

步骤S4：根据网络模型对训练集数据进行训练；

步骤S5：将训练好的模型对测试集数据进行分类识别。

进一步地，步骤S2中，可变形卷积网络结构具体为：第1层为输入层，输入90*90的图片；第2层为卷积层，卷积核个数为16，卷积核大小为9*9；第3层为最大值池化层，核大小为2*2；第4层为卷积层，卷积核个数为16，卷积核大小为9*9；第5层为最大值池化层，核大小为2*2；第6、7层为全连接层，分别为120个和84个神经节点；第8层为输出层，输出节点为N。

进一步地，步骤S3中，可变形卷积网络结构的第二层和第四层的卷积核按照如下规则丢弃部分卷积核参数：

①将训练集每张图片转换为灰度图，再转换为二值图片，然后将90*90的二值图片压缩至9*9灰度图，再求二值图；

②然后将①中所有9*9的二值图片相加，二值图片的白色点值为1，黑色点值为0；具体为图片每个像素点对应位置像素值相加，再除以训练集图片数量，然后每个像素点乘以255，得到9*9的平均灰度图Gray；

③求平均灰度图Gray的图像灰度均值Mean，然后以Mean为阈值对平均灰度图Gray进行二值化操作，得到9*9的二值图C；

④第二层、第四层的9*9卷积核参数丢弃部分对应9*9二值图C中像素值为0的像素位置。

进一步地，所述二值化操作采用大津法二值化方法。

进一步地，所述图像缩放采用opencv的resize()函数，选择最近邻插值方式。

另一方面，本发明还提供一种基于可变形卷积网络的深度学习图像分类系统，包括：

图像缩放模块，用于将所有图像缩放至90*90大小，并分为训练集和测试集；

网络结构设定模块，用于设定可变形卷积网络结构；

参数丢弃模块，用于将可变形卷积网络结构的第二层和第四层的卷积核按照一定规则丢弃部分卷积核参数：

模型训练模块，用于根据网络模型对训练集数据进行训练；

分类识别模块，用于将训练好的模型对测试集数据进行分类识别。

进一步地，可变形卷积网络结构具体为：第1层为输入层，输入90*90的图片；第2层为卷积层，卷积核个数为16，卷积核大小为9*9；第3层为最大值池化层，核大小为2*2；第4层为卷积层，卷积核个数为16，卷积核大小为9*9；第5层为最大值池化层，核大小为2*2；第6、7层为全连接层，分别为120个和84个神经节点；第8层为输出层，输出节点为N。

进一步地，可变形卷积网络结构的第二层和第四层的卷积核按照如下规则丢弃部分卷积核参数：

①将训练集每张图片转换为灰度图，再转换为二值图片，然后将90*90的二值图片压缩至9*9灰度图，再求二值图；

③求平均灰度图Gray的图像灰度均值Mean，然后以Mean为阈值对平均灰度图Gray进行二值化操作，得到9*9的二值图C；

④第二层、第四层的9*9卷积核参数丢弃部分对应9*9二值图C中像素值为0的像素位置。

进一步地，所述二值化操作采用大津法二值化方法。

进一步地，所述图像缩放采用opencv的resize()函数，选择最近邻插值方式。

与现有技术相比，本发明的优点和积极效果至少包括：

(1)本发明根据分类图像的特征信息自动设计卷积核，丢弃部分参数，实现提高网络关键特征信息提取能力的同时，减少网络运行算，提高网络运行效率；

(2)本发明适用于其他图像分类任务，具有一定的通用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于可变形卷积网络的深度学习图像分类方法的流程示意图；

图2是本发明基于可变形卷积网络的深度学习图像分类方法采用的网络结构示意图；

图3是本发明基于可变形卷积网络的深度学习图像分类系统的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

为对本发明内容进行具体说明，本实施例以CIFAR-10数据集作一个10分类的问题作实例。

需要说明的是，本实施例中所使用的具体数字，仅仅是本实施例中所使用的一组可能的或较优的搭配，但并不能因此而理解为对本发明专利范围的限制；应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

如图1所示，本实施例提供一种基于可变形卷积网络的深度学习图像分类方法，包括以下步骤：

步骤S1：CIFAR-10数据集一共有10种图片，包括(飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车)，将所有图像缩放至90*90大小，并分为训练集和测试集；

步骤S2：设定网络结构：第1层为输入层，输入90*90的图片；第2层为卷积层，卷积核个数为16，卷积核大小为9*9；第3层为最大值池化层，核大小为2*2；第4层为卷积层，卷积核个数为16，卷积核大小为9*9；第5层为最大值池化层，核大小为2*2；第6、7层为全连接层，分别为120个和84个神经节点；第8层为输出层，输出节点为N，如图2所示。

步骤S3：步骤S2中第二层和第四层的卷积核按照如下规则丢弃部分卷积核参数：

①将训练集每张图片转换为灰度图，再转换为二值图片，然后将90*90的二值图片压缩至9*9灰度图，再求二值图；

②然后将①中所有9*9的二值图片(白色点值为1，黑色点值为0)相加，具体为图片每个像素点对应位置像素值相加，再除以训练集图片数量，然后每个像素点乘以255，得到9*9的平均灰度图Gray；

③求平均灰度图Gray的图像灰度均值Mean，然后以Mean为阈值对平均灰度图Gray进行二值化操作，得到9*9的二值图C；

④第二层、第四层的9*9卷积核参数丢弃部分对应9*9二值图C中像素值为0的像素位置。

步骤S4：根据网络模型对训练集数据进行训练；

步骤S5：将训练好的模型对测试集数据进行分类识别，得到分类识别结果。

本发明方法基于CIFAR-10数据集与AlexNet、VGG16、GoogleNet三种主流的深度学习算法进行对比测试。

表1四种方法测试结果对比

由上表1可以看出，本发明方法准确率高于目前主流深度学习网络AlexNet、VGG16、GoogleNet。

实施例2

为对本发明内容进行具体说明，本实施例以CIFAR-10数据集作一个10分类的问题作实例。

如图3所示，本实施例提供一种基于可变形卷积网络的深度学习图像分类系统，包括图像缩放模块、网络结构设定模块、参数丢弃模块、模型训练模块和分类识别模块；

图像缩放模块：CIFAR-10数据集一共有10种图片，包括(飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车)，将所有图像缩放至90*90大小，并分为训练集和测试集；

网络结构设定模块：设定网络结构，第1层为输入层，输入90*90的图片；第2层为卷积层，卷积核个数为16，卷积核大小为9*9；第3层为最大值池化层，核大小为2*2；第4层为卷积层，卷积核个数为16，卷积核大小为9*9；第5层为最大值池化层，核大小为2*2；第6、7层为全连接层，分别为120个和84个神经节点；第8层为输出层，输出节点为N，如图2所示。

参数丢弃模块：将网络结构的第二层和第四层的卷积核按照如下规则丢弃部分卷积核参数：

①将训练集每张图片转换为灰度图，再转换为二值图片，然后将90*90的二值图片压缩至9*9灰度图，再求二值图；

③求平均灰度图Gray的图像灰度均值Mean，然后以Mean为阈值对平均灰度图Gray进行二值化操作，得到9*9的二值图C；

④第二层、第四层的9*9卷积核参数丢弃部分对应9*9二值图C中像素值为0的像素位置。

模型训练模块：根据网络模型对训练集数据进行训练；

分类识别模块：将训练好的模型对测试集数据进行分类识别，得到分类识别结果。

本发明的优点和积极效果至少包括：

(2)本发明适用于其他图像分类任务，具有一定的通用性。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于可变形卷积网络的深度学习图像分类方法及系统 [P] . 中国专利： CN113139577A . 2021-07-20
2. 一种基于可变形卷积网络的图像立体匹配方法以及系统 [P] . 中国专利： CN112598722B . 2022.02.11
3. IMAGE CLASSIFICATION METHOD FOR EQUIVARIANT CONVOLUTIONAL NETWORK MODEL BASED ON PARTIAL DIFFERENTIAL OPERATOR [P] . WO2021184466A1 . 2021-09-23

机译：基于局部差分运算符的等级卷积网络模型图像分类方法
4. METHOD AND SYSTEM FOR CLASSIFYING DIABETIC RETINA IMAGES BASED ON DEEP LEARNING [P] . 美国专利： US2020234445A1 . 2020-07-23

机译：基于深度学习的糖尿病视网膜图像分类方法和系统
5. DIABETIC RETINA IMAGE CLASSIFICATION METHOD AND SYSTEM BASED ON DEEP LEARNING [P] . 世界知识产权组织专利： WO2019196268A1 . 2019-10-17

机译：基于深度学习的糖尿病视网膜图像分类方法及系统