首页> 中国专利> 基于注意力机制和多尺度融合的水墨画分类方法及装置

基于注意力机制和多尺度融合的水墨画分类方法及装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供了一种基于注意力机制和多尺度融合的水墨画分类方法及装置，其中，水墨画分类方法中包括：获取待分类的水墨画；将水墨画输入预训练的深度卷积神经元网络模型，并根据预设规则分别提取低级别特征、中间级别特征和高级别特征；分别将低级别特征和中间级别特征输入预训练的空间注意力处理模块，提取其中具备分辨率的特征信息；将高级别特征输入预训练的用于防止其出现过拟合的多尺度特征处理模块；将处理后的低级别特征、中间级别特征和高级别特征输入预训练的条件随机场模型进行特征融合；将融合后的特征输入预训练的通道注意力处理模块为各特征通道赋值；将处理后的特征输入预训练的分类器进行分类，实现对水墨画高准确率的分类。

著录项

公开/公告号CN112364909A

专利类型发明专利
公开/公告日2021-02-12

原文格式PDF
申请/专利权人常州工学院;
展开▼

申请/专利号CN202011225221.0
发明设计人蒋巍;
展开▼

申请日2020-11-05
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构32231 常州佰业腾飞专利代理事务所(普通合伙);
代理人王巍巍
地址 213032 江苏省常州市新北区东海路202号
入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明涉及数据处理技术领域，尤其涉及一种水墨画分类方法及装置。

背景技术

近些年来，一些研究工作表明从深度神经网络不同层提取出来的低级别特征信息和高级别特征信息具有互补的特性，以此可以通过对这两种类型的特征进行融合来执行图像分类任务。

在对水墨画图像进行分类中，低级别特征可以表示具体的笔触、纹理等信息，高级别特征可以获取水墨画的全局结构特征，虽然结合这两类特征可以一定程度上提高分类的准确度，但是这种分类方法中并没有很好的利用同样具有互补作用并对最终性能产生影响的中间级别特征；且在分类中，并没有充分考虑两类特征的贡献程度，致使分类效果不佳。

发明内容

针对上述问题，本发明提供了一种基于注意力机制和多尺度融合的水墨画分类方法及装置，解决现有水墨画图像分类准确度不高的技术问题。

本发明提供的技术方案如下：

一种基于注意力机制和多尺度融合的水墨画分类方法，包括：

获取待分类的水墨画；

将所述水墨画输入预训练的深度卷积神经元网络模型，并根据预设规则分别提取低级别特征、中间级别特征和高级别特征；

分别将所述低级别特征和中间级别特征输入预训练的空间注意力处理模块，提取其中具备分辨率的特征信息；

将所述高级别特征输入预训练的用于防止其出现过拟合的多尺度特征处理模块；

将处理后的低级别特征、中间级别特征和高级别特征输入预训练的条件随机场模型进行特征融合；

将融合后的特征输入预训练的通道注意力处理模块为各特征通道赋值；

将处理后的特征输入预训练的分类器进行分类，实现对水墨画的分类。

本发明还提供了一种基于注意力机制和多尺度融合的水墨画分类装置，包括：

水墨画获取模块，用于获取待分类的水墨画；

特征提取模块，用于将所述水墨画获取模块获取的水墨画输入预训练的深度卷积神经元网络模型，并根据预设规则分别提取低级别特征、中间级别特征和高级别特征；

第一特征处理模块，用于将所述特征提取模块提取的低级别特征和中间级别特征分别输入预训练的空间注意力处理模块，用于提取其中具备分辨率的特征信息；

第二特征处理模块，用于将所述特征提取模块提取的高级别特征输入预训练的用于防止其出现过拟合的多尺度特征处理模块；

特征融合模块，用于将所述第一特征处理模块和第二特征处理模块处理后的低级别特征、中间级别特征和高级别特征输入预训练的条件随机场模型进行特征融合；

第三特征处理模块，用于将所述特征融合模块融合后的特征输入预训练的通道注意力处理模块为各特征通道赋值；

分类模块，用于将第三特征处理模块处理后的特征输入预训练的分类器进行分类，实现对水墨画的分类。

本发明提供的基于注意力机制和多尺度融合的水墨画分类方法及装置至少能够带来以下有益效果：

1)从创建的水墨画分类神经元网络的不同网络层提取低级别特征(low-level特征)、中间级别特征(middle-level特征)和高级别特征(high-level特征)，并将其应用于水墨画的分类中，相比于现有水墨画分类方法来说，除了考虑到了低级别特征和高级别特征之外，同时考虑了中间级别特征，进而提高了分类效果。

2)对提取到的低级别特征和中间级别特征分别进行了空间注意力机制处理，以提取其中更具分辨率的特征信息用于后续的分类任务，提升分类效果；对高级别特征进行了多尺度的特征处理，解决高级语义特征可能会产生的过拟合问题。

3)基于条件随机场模型对多级别特征信息进行融合来实现特征的表示学习，用以获得更加丰富的表征信息；且在特征融合之后进一步使用通道注意力处理模块为不同的特征通道赋值不同的权重，凸显出不同级别特征在分类任务中的不同重要程度，以更加精确的筛选出贡献率最高的特征通道，助于进一步提高分类效果。

4)引入了多层次深度监督机制，设计联合损失函数，在训练过程中充分利用提取的三类特征信息，以提高分类效果。大量的实验表明，本发明提供的水墨画分类方法及装置能够取得优异的分类性能，相比其它中国水墨画分类主流方法更具新颖性和优越性。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明中基于注意力机制和多尺度融合的水墨画分类方法流程示意图；

图2为本发明一实例中VGG-16网络参数图；

图3为本发明一实例中水墨画分类神经元网络图；

图4为本发明中多尺度特征处理模块网络图；

图5为本发明中基于注意力机制和多尺度融合的水墨画分类装置结构示意图；

图6为本发明中终端设备结构图。

附图标记：

100-水墨画分类装置，110-水墨画获取模块，120-特征提取模块，130-第一特征处理模块，140-第二特征处理模块，150-特征融合模块，160-第三特征处理模块，170-分类模块。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

如图1所示为本发明提供的基于注意力机制和多尺度融合的水墨画分类方法流程示意图，从图中可以看出，该水墨画分类方法中包括：

S10获取待分类的水墨画；

S20将水墨画输入预训练的深度卷积神经元网络模型，并根据预设规则分别提取低级别特征、中间级别特征和高级别特征；

S30分别将低级别特征和中间级别特征输入预训练的空间注意力处理模块，提取其中具备分辨率的特征信息；

S40将高级别特征输入预训练的用于防止其出现过拟合的多尺度特征处理模块；

S50将处理后的低级别特征、中间级别特征和高级别特征输入预训练的条件随机场模型进行特征融合；

S60将融合后的特征输入预训练的通道注意力处理模块为各特征通道赋值；

S70将处理后的特征输入预训练的分类器进行分类，实现对水墨画的分类。

我们知道，深度神经网络模型能够提供高级别的特征表示，该特征表示包含有图像丰富的的语义信息。利用深度网络模型从图像中提取的低级别特征表示通常包含有详细的空间结构信息，这些信息对于视觉识别任务而言至关重要，例如目标定位和检测等。与此同时，高级别特征包含具备大的感受野，可以表征高级别的语义内容。在水墨画分类这一领域中，低级别特征可以表示具体的笔触、纹理等信息，而这些信息对于水墨画最终分类发挥着重要作用；相对高级别的特征可以获取水墨画的全局结构特征，可以进一步被用于准确分类。而在以往的研究工作，仅仅提取低级别和高级别的图像特征用于识别任务。在本发明提供的水墨画分类方法中，获取了待分类的水墨画之后，随即将水墨画输入预训练的深度卷积神经元网络模型，并根据预设规则分别提取低级别特征、中间级别特征和高级别特征。这里，低级别特征、中间级别特征和高级别特征的提取可以根据创建的深度卷积神经元网络模型自行选定。在一实例中，深度卷积神经元网络模型为VGG-16(选用如图2所示网络配置中的D配置，输入为224×224的RGB图像)，且将网络中conv1-2层的特征作为低级别特征，以conv2-2层的特征作为中间级别特征，以conv5-3层的特征作为高级别特征，如图3所示。

由于不同级别的特征信息在分类任务中的贡献作用不同，以此，使用深度卷积神经元网络模型对各级别的特征进行提取之后，将低级别特征和中间级别特征送入空间注意力处理模块进一步进行特征的处理，对低级别特征和中间级别特征中的不相关信息进行过滤，例如底层更具体的特征信息中包括的一些纹理信息、笔触等信息可能对分类有促进作用，而包含的背景噪声可能会扰乱分类，因此需要像素级地对低级别特征图和中间级别特征图进行过滤，保留最有价值的像素区域。以此本发明中采用空间注意力机制处理从中国水墨画中提取的低级别特征和中间级别特征表示，并将提取更具分辨力的特征信息用于分类任务，以提高后续的分类效果。在实例中，从VGG-16网络中获取了低级别特征和中间级别特征之后，进一步对其经过max pooling和1×1卷积操作处理，作为空间注意力处理模块的输入。网路结构中包括2个空间注意力处理模块形成2路网络，低级别特征经过一路maxpooling和1×1卷积操作处理之后作为一个空间注意力处理模块的输入，中间级别特征经过其中另一路max pooling和1×1卷积操作处理之后作为另一个空间注意力处理模块的输入。

空间注意力处理模块在对低级别特征和中间级别特征进行处理时，假定低级别特征表示为f

加权处理后得到的中间别特征

其中，S表示空间注意力图，且S＝F(f

也就是说，在对低级别特征/中间级别特征进行空间注意力处理时，包括：分别使用1×k和k×1的卷积操作对输入的低级别特征/中间级别特征进行处理得到第一处理矩阵s

在该过程中，包括：将高级别特征分别输入预训练的第一尺度特征处理单元和第二尺度特征处理单元得到第一特征信息和第二特征信息，将第一特征信息和第二特征信息拼接得到第三特征信息；将第三特征信息进行1×1的卷积操作得到最终的特征信息。具体，如图4所示，初始的高级别特征f

为了获得更加丰富的表征信息，在使用空间注意力处理模块对低级别特征和中间级别特征进行处理、多尺度特征处理模块对高级别特征进行处理之后，将处理后的低级别特征、中间级别特征和高级别特征输入条件随机场模型执行特征信息的融合实现特征表示学习。相比于通过加权平均或级联等处理等常用的特征融合方法，条件随机场模型能够更好的实现多级别特征的信息融合，对提取的不同级别特征进行相互细化，以提高识别性能。

具体来说，条件随机场模型动态的从不同级别(低级别特征、中间级别特征和高级别特征)特征信息中传递互补信息进行融合操作，用以增强特定级别特征的表征能力。假设实例给定从VGG-16网络中提取的多级别特征图表示为：F＝{f

虽然多级别特征信息经过了条件随机场模块的处理，但由于不同级别的特征表示含有不同的信息表示，本发明将经过基于条件随机场模型融合细化过的多级别特征信息输入通道注意力处理模块，利用通道注意力机制处理以学习更加高效的特征信息，为不同的特征通道赋值不同的权重，凸显出不同级别特征在分类任务中所具有的不同的重要性，以更加精确的筛选出贡献率最高的特征通道。具体：

假设给定多级别特征表示为f

C'＝F(x

其中，F(·)表示函数符号；通道注意力参数W”＝{W

g＝δ(fc

其中，δ表示Relu函数，位于第一全连接层和第二全连接层之间；fc

在经过以上通道注意力机制处理之后，输出得到重加权后的多级别特征f

最后，将处理后的特征输入预训练的分类器进行分类，完成对水墨画的分类。

此外，在使用预训练的深度卷积神经元网络模型、空间注意力处理模块、多尺度特征处理模块、条件随机场模型、通道注意力处理模块及分类器对水墨画进行分类之前包括：创建包含深度卷积神经元网络模型、空间注意力处理模块、多尺度特征处理模块、条件随机场模型、通道注意力处理模块及分类器的水墨画分类神经元网络；使用由水墨画形成的训练集对创建的水墨画分类神经元网络进行训练；根据各级特征计算如式(6)的联合损失l

其中，l

如图5所示为本发明提供的基于注意力机制和多尺度融合的水墨画分类装置100的结构示意图，包括：水墨画获取模块110，用于获取待分类的水墨画；特征提取模块120，用于将水墨画获取模块获取的水墨画输入预训练的深度卷积神经元网络模型，并根据预设规则分别提取低级别特征、中间级别特征和高级别特征；第一特征处理模块130，用于将特征提取模块提取的低级别特征和中间级别特征分别输入预训练的空间注意力处理模块，用于提取其中具备分辨率的特征信息；第二特征处理模块140，用于将特征提取模块提取的高级别特征输入预训练的用于防止其出现过拟合的多尺度特征处理模块；特征融合模块150，用于将第一特征处理模块和第二特征处理模块处理后的低级别特征、中间级别特征和高级别特征输入预训练的条件随机场模型进行特征融合；第三特征处理模块160，用于将特征融合模块融合后的特征输入预训练的通道注意力处理模块为各特征通道赋值；分类模块170，用于将第三特征处理模块处理后的特征输入预训练的分类器进行分类，实现对水墨画的分类。

在该水墨画分类装置中，获取了待分类的水墨画之后，随即将水墨画输入预训练的深度卷积神经元网络模型，并根据预设规则分别提取低级别特征、中间级别特征和高级别特征。这里，低级别特征、中间级别特征和高级别特征的提取可以根据创建的深度卷积神经元网络模型自行选定。在一实例中，深度卷积神经元网络模型为VGG-16(选用如图2所示网络配置中的D配置，输入为224×224的RGB图像)，且将网络中conv1-2层的特征作为低级别特征，以conv2-2层的特征作为中间级别特征，以conv5-3层的特征作为高级别特征。

空间注意力处理模块在对低级别特征和中间级别特征进行处理时，假定低级别特征表示为f

与低级别特征和中间级别特征不同的是，提取得到高级别特征之后，没有对其直接进行注意力机制的处理，而是将其送入多尺度特征处理模块进行操作，解决深度神经网络模型在训练过程中由于发生过拟合的情况而导致模型泛化能力较差的问题，解决高级语义特征可能会产生的过拟合问题。

假设给定多级别特征表示为f

此外，水墨画分类装置中还包括联合损失计算模块，用于根据各级特征计算如式(6)的联合损失l

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序单元或模块，以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中，也可是各个单元单独物理存在，也可以两个或两个以上单元集成在一个处理单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序单元的形式实现。另外，各程序模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图6是本发明一个实施例中提供的终端设备的结构示意图，如所示，该终端设备200包括：处理器220、存储器210以及存储在存储器210中并可在处理器220上运行的计算机程序211，例如：水墨画分类程序。处理器220执行计算机程序211时实现上述各水墨画分类方法实施例中的步骤，或者，处理器220执行计算机程序211时实现上述各水墨画分类装置实施例中各模块的功能。

终端设备200可以为笔记本、掌上电脑、平板型计算机、手机等设备。终端设备200可包括，但不仅限于处理器220、存储器210。本领域技术人员可以理解，图6仅仅是终端设备200的示例，并不构成对终端设备200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如：终端设备200还可以包括输入输出设备、显示设备、网络接入设备、总线等。

处理器220可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器210可以是终端设备200的内部存储单元，例如：终端设备200的硬盘或内存。存储器210也可以是终端设备200的外部存储设备，例如：终端设备200上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器210还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序211以及终端设备200所需要的其他程序和数据。存储器210还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露终端设备和方法，可以通过其他的方式实现。例如，以上所描述的终端设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序211发送指令给相关的硬件完成，计算机程序211可存储于一计算机可读存储介质中，该计算机程序211在被处理器220执行时，可实现上述各个方法实施例的步骤。其中，计算机程序211包括：计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如：在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施例，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于注意力机制和多尺度融合的水墨画分类方法及装置 [P] . 中国专利： CN112364909A . 2021-02-12
2. 基于多尺度融合的高分辨率芯片图像的分类方法和装置 [P] . 中国专利： CN114140671A . 2022-03-04
3. SUPERPIXEL CLASSIFICATION METHOD BASED ON SEMI-SUPERVISED K-SVD AND MULTISCALE SPARSE REPRESENTATION [P] . 美国专利： US2020019817A1 . 2020-01-16

机译：基于半监督K-SVD和多尺度稀疏表示的超像素分类方法
4. Superpixel classification method based on semi-supervised K-SVD and multiscale sparse representation [P] . 美国专利： US10691974B2 . 2020-06-23

机译：基于半监督K-SVD和多尺度稀疏表示的超像素分类方法
5. METHOD AND SYSTEM FOR FLOOR IMPACT SOUND CLASSIFICATION BASED ON SUBJECTIVE EVALUATION AND SENTENCE SCALE [P] . 韩国专利： KR101634899B1 . 2016-07-01

机译：基于主观评价和句子尺度的地板冲击声分类方法和系统