技术领域
本发明涉及图像特征提取技术领域,尤其涉及一种基于金字塔模型的融合网络来提取基础特征的方法。
背景技术
典型的基于CNN的目标检测器使用一个主干网络来提取检测目标的基础特征,而这通常是为图像分类任务而设计的,若直接利用这种主干网提取图像的基本特征用于目标检测,会导致检测的准确率不佳,且必须在ImageNet数据集上进行预训练后,才能提取图像的基本特征,影响目标检测效率。
发明内容
本发明提供基于金字塔模型的融合网络来提取基础特征的方法,以克服上述技术问题。
本发明基于金字塔模型的融合网络来提取基础特征的方法,包括:
S1、将第一特征图分别输入基础特征提取网络的三个主干网络的第i层中;所述三个主干网络,包括:领导主干网络、第一协助主干网络及第二协助主干网络;所述基础特征提取网络分为i层,网络所属层数自上到下依次为i,i-1,i-2,…1;
S2、所所述第一特征图分别经过所述第一协助主干网络、第二协助主干网络的第i层,经卷积和下采样,分别得到所述第一协助主干网络、第二协助主干网络各自的第二特征图;
S3、所述第一协助主干网络、第二协助主干网络的第i-1层分别对各自所述第二特征图进行卷积和下采样,得到所述第一协助主干网络、第二协助主干网络的第三特征图;
S4、将所述第一协助主干网络、第二协助主干网络的第二特征图融合、反卷积、上采样后,与所述领导主干网络中的第一特征图融合,经过所述领导主干网络后生成所述领导主干网络的优化特征图;将所述优化特征图输入到所述领导主干网络的第i-1层;
S5、第i-1层及以下的各层均执行S2、S3和S4的操作,将所述领导主干网络的最后一层输出的所述优化特征图作为最终的特征图。
进一步地,i的取值范围为4至6。
进一步地,将所述第一协助主干网络、第二协助主干网络的第二特征图融合、反卷积、上采样后,得到式(1);
式中,
进一步地,通过式(1)与所述领导主干网络中的第一特征图进行融合、反卷积、上采样,把式(1)代入式(2)中,通过式(3)生成所述领导主干网络的优化特征图;
式中,X
进一步地,所述第一协助主干网络和第二协助主干网络采用相同网络模型,为VGG、ResNet、CSPDarkNet等中的任意一种。
本发明由一个head backbone和两个assistant backbone组成基础特征提取网络,assistant backbone1和assistant backbone2每经过一次卷积下采样得到的特征图都流向两个方向,一个是各自网络模型的下一层,另一个是assistant backbone1和assistant backbone2相同位置层输出的特征图通过融合形成一个通道,然后通过反卷积、上采样操作后,与head backbone在assistant backbone1和assistant backbone2相同位置层的输入特征层进行融合,然后输入到head backbone此时的这一层,经过多层卷积网络操作,最终输出了具有更多特征细节的特征图,为后续的检测准确率的提升起到了很好的促进作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
图2为本发明中第一协助主干网络及第二协助主干网络的结构示意图;
图3为本发明中基础特征提取网络的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供了基于金字塔模型的融合网络来提取基础特征的方法,包括:
S1、将第一特征图分别输入基础特征提取网络的三个主干网络的第i层中;三个主干网络,包括:领导主干网络、第一协助主干网络及第一协助主干网络;基础特征提取网络分为i层,网络所属层数自上到下依次为i,i-1,i-2,…1;
具体而言,如图3所示,融合网络结构参考金字塔网络模型,采取三主干网络的形式进行组合,形成一个完整的基础特征提取网络,称之为TBNet,TBNet由一个headbackbone(领导主干网络)和两个assistant backbone(协助主干网络)组成。三个主干网络需要三个输入量,即将同一个input值同时输入到三个主干网络的输入层。两个assistantbackbone采用相同网络模型,例如VGG、ResNet、CSPDarkNet等,head backbone可以采用与assistant backbone相同的网络模型,也可以采用不同的网络模型,采用三主干融合主要是为了平衡更多的提取基础特征与主干太多消耗的时间太长,在两个因素间取了折中,若采用一个head backbone和一个assistant backbone的结构,对于特征提取的补充略少,若采用一个head backbone和三个或更多assistant backbone的结构,则消耗的时间将会更长,对检测的实时性上将难以实现,所以TBNet的结构是权衡之下最优的,网络的层深通常选择4到6层为宜,如果特征提取网络的层数太少,提取到的有效特征层的语义表达能力较弱,如果特征提取网络的层数太多,一是消耗的时间过长,对检测的实时性有影响,二是提取到的有效特征层所携带的位置信息将被削弱,在head backbone和assistant backbone的连接上,充分利用了特征金字塔的结构,head backbone的第i层称为X
S2、所述第一特征图分别经过所述第一协助主干网络、第二协助主干网络的第i层,经卷积和下采样,分别得到所述第一协助主干网络、第二协助主干网络各自的第二特征图;
S3、所述第一协助主干网络、第二协助主干网络的第i-1层分别对各自所述第二特征图进行卷积和下采样,得到所述第一协助主干网络、第二协助主干网络的第三特征图;
具体而言,如图2所示,assistant backbone1和assistant backbone2每经过一层网络,执行卷积下采样得到的特征图都流向两个方向,一个是各自网络模型的下一层,另一个是assistant backbone1和assistant backbone2相同位置层(第i层)输出后融合,形成新的特征图。
S4、将所述第一协助主干网络、第二协助主干网络的第二特征图融合、反卷积、上采样后,与所述领导主干网络中的第一特征图融合,经过所述领导主干网络后生成所述领导主干网络的优化特征图;将所述优化特征图输入到所述领导主干网络的第i-1层;
具体而言,如图3所示,assistant backbone1和assistant backbone2相同位置层输出的特征图通过融合形成一个通道,然后通过反卷积、上采样操作得到式(1);
式中,
通过式(1)与所述领导主干网络中的第一特征图进行融合、反卷积、上采用,把式(1)代入式(2)中,通过式(3)生成head backbone的具有更强语义表达能力的特征图;
式中,X
S5、第i-1层及以下的各层均执行S2、S3和S4的操作,将领导主干网络的最后一层输出的优化特征图作为最终的特征图。
具体而言,assistant backbone1和assistant backbone2与head backbone之间形成了一个特征金字塔模型,随着预设特征通道数的增加,head backbone经过不断的卷积、下采样,最后可以获得一个多尺度超高特征通道数的高语义特征,整个TBNet网络经过卷积、下采样、融合、反卷积、上采样、融合,最终输出了一个具有更多特征细节的特征图,为后续的检测准确率的提升起到了关键作用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
机译: 基于正交非负矩阵分解建立基础矩阵的用户方法的特征识别装置及基于正交半监督非负矩阵分解建立基础矩阵的用户方法的特征识别装置
机译: 基于多尺度特征融合网络与定位模型相结合的害虫自动计数方法
机译: 图像特征提取设备,图像特征提取方法,图像特征提取程序,记录介质存储图像特征提取程序,配有图像特征提取设备的图像相似性计算设备,图像相似性计算和方法,图像相似性计算和方法计算程序