首页> 中国专利> 基于树型结构的多尺度残差网络的新闻画面属性识别方法

基于树型结构的多尺度残差网络的新闻画面属性识别方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于树型结构的多尺度残差网络的新闻画面属性识别方法，包括步骤：S1，标注新闻画面属性类别、层级定义及数据；S2，标注后，构建新闻画面属性通用的多尺度残差网络模型；S3，根据步骤S1标注的数据，使用步骤S2构建的模型训练更新其参数；S4，根据步骤S1定义的层级关系，构造预测树，用于新闻画面属性识别等；本发明高效，可实现自动化、高精度识别新闻画面属性，同时具备可扩展性，实现了满足实际工程应用场景的需要。

著录项

公开/公告号CN112288044A

专利类型发明专利
公开/公告日2021-01-29

原文格式PDF
申请/专利权人成都索贝数码科技股份有限公司;
展开▼

申请/专利号CN202011543555.2
发明设计人温序铭;袁琦;袁霞;
展开▼

申请日2020-12-24
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构51214 成都九鼎天元知识产权代理有限公司;
代理人贾年龙
地址 610041 四川省成都市高新区新园南二路2号
入库时间 2023-06-19 09:44:49

说明书

技术领域

本发明涉及新闻画面属性分类领域，更为具体的，涉及一种基于树型结构的多尺度残差网络的新闻画面属性识别方法。

背景技术

新闻视频作为一种重要的新闻资讯传播手段，相比起通过报纸、电台、广播等作为传播载体的新闻资讯传播方式，往往具有对新闻事件描述更加直观和具现化的特性。其中，新闻视频包含的视觉信息，更是能够提供诸多的有用属性、标签，帮助各电视台、自媒体从业者根据各种属性、标签对新闻素材进行分门别类，构建自有的新闻素材库，方便重用。随着近几年，互联网的高速发展，各种自媒体的蓬勃发展，新闻资讯数量呈现几何式增长，传统的人工标注素材建库入库流程就显得非常繁琐且效率尤为低下，一种自动化、高精度、高效率以及具备可扩展性的新闻素材属性、标签提取技术就显得十分必要。

卷积神经网络由多层感知机（MLP）演变而来，由于其具有局部区域连接、权值共享、降采样等结构特点，使得卷积神经网络在图像处理领域表现出色。而残差网络通过引入捷径链接，将输入跨层传递与卷积结果相加，使得训练一个深度很深的卷积神经网络成为可能。虽然其在各个学术领域诸如图像分类、目标检测、语意分割等都取得了相较于传统计算机视觉算法更加优越的性能，但在实际工程应用中，依然存在着诸多问题：

（1）针对实际的工程应用场景，往往需要对现有的网络模型结构进行微调甚至重新设计。

（2）神经网络由于其自身的特性，天然有利于解决闭集问题，且性能表现优异。但实际工程应用场景，往往需要解决的是开集问题。当将此类模型直接应用在工程应用中而不对输入做额外判别筛选时，得到的模型输出结果往往不可知和令人无法接受。比如一个能够分辨苹果和香蕉的二分类模型，当输入图像实际为西瓜时，模型可能会认为其依然为苹果或者香蕉，甚至模型输出的置信度还并不低。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于树型结构的多尺度残差网络的新闻画面属性识别方法，高效，可实现自动化、高精度识别新闻画面属性，同时具备可扩展性，实现了满足实际工程应用场景的需要。

本发明的目的是通过以下方案实现的：

一种基于树型结构的多尺度残差网络的新闻画面属性识别方法，包括步骤：

S1，标注新闻画面属性类别、层级定义及数据；

S2，标注后，构建新闻画面属性通用的多尺度残差网络模型；

S3，根据步骤S1标注的数据，使用步骤S2构建的模型训练更新其参数；

S4，根据步骤S1定义的层级关系，构造预测树，用于新闻画面属性识别。

进一步地，步骤S1包括：

S101，确定新闻画面属性的分类体系，所述分类体系采用多层级类别表示，包括每一层级的详细类别和不同层级的类别之间的隶属关系；

S102，根据已经确定的分类体系，获取每个类别的新闻画面图像样本。

进一步地，步骤S2包括：

S201，以深度残差网络为基础，在每个阶段引入侧向连接，分别记作

各阶段融合特征如下：

其中，x为输入图像，

S202，根据步骤S1确定的类别层级关系确定每个分类器的类别个数，调整网络的全连接层。

进一步地，步骤S3包括：

S301，初始化网络参数，所有卷积层初始参数满足kaiming正态分布，所有全连接层初始参数满足0均值的正态分布，偏执项均初始化为0；

S302，根据分类器类别数目，定义二元交叉熵损失

其中y目标标签，取值0或1，x为输入图像；

开集损失函数如下：

其中，x表示输入图像，

S303，按批输入色彩空间为RGB的3通道图像，宽高均缩放到设定个像素並将数值归一化到

进一步地，步骤S201中，以原始50层的深度残差网络为基础。

进一步地，步骤S303中，宽高均缩放到224个像素。

本发明的有益效果是：

（1）本发明提供了一种高效，可实现自动化、高精度识别新闻画面属性的方法，同时具备可扩展性；具体的，提出一种新闻画面属性的类别和层级划分处理操作，构建一种对于新闻画面属性不同层级分类通用的模型结构，能够充分融合图像低级别特征和高级别特征，增加了属性划分的精度；并且，提出一种适用于工程应用中的开集分类问题的损失函数应用处理步骤，使得模型在利用数据预测时对于不属于训练集中任意KKC类别的样本，能有拒绝识别的能力，从而实现了真正满足实际工程应用场景的需要。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法步骤流程图；

图2为本发明实施例中树形结构的新闻画面属性类别层级示意图；

图3为本发明实施例中使用多层相关吉布斯采样方法训练模型的流程图。

具体实施方式

本说明书中所有实施例公开的所有特征（包括任何附加权利要求、摘要和附图），或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1~3所示，一种基于树型结构的多尺度残差网络的新闻画面属性识别方法，包括步骤：

S1，标注新闻画面属性类别、层级定义及数据；

S2，标注后，构建新闻画面属性通用的多尺度残差网络模型；

S3，根据步骤S1标注的数据，使用步骤S2构建的模型训练更新其参数；

S4，根据步骤S1定义的层级关系，构造预测树，用于新闻画面属性识别。

进一步地，步骤S1包括：

S101，确定新闻画面属性的分类体系，所述分类体系采用多层级类别表示，包括每一层级的详细类别和不同层级的类别之间的隶属关系；

S102，根据已经确定的分类体系，获取每个类别的新闻画面图像样本。

进一步地，步骤S2包括：

S201，以深度残差网络为基础，在每个阶段引入侧向连接，分别记作

各阶段融合特征如下：

其中，x为输入图像，

S202，根据步骤S1确定的类别层级关系确定每个分类器的类别个数，调整网络的全连接层。

进一步地，步骤S3包括：

S301，初始化网络参数，所有卷积层初始参数满足kaiming正态分布，所有全连接层初始参数满足0均值的正态分布，偏执项均初始化为0；

S302，根据分类器类别数目，定义二元交叉熵损失

其中y目标标签，取值0或1，x为输入图像；

开集损失函数如下：

其中，x表示输入图像，

S303，按批输入色彩空间为RGB的3通道图像，宽高均缩放到设定个像素並将数值归一化到

进一步地，步骤S201中，以原始50层的深度残差网络为基础。

进一步地，步骤S303中，宽高均缩放到224个像素。

在本发明的其他实施例中，如图1所示，本实施例提供一种基于树形结构的多尺度残差网络的新闻画面属性的识别方法，包括构建模型的构建过程：

步骤一：新闻画面属性类别、层级定义及数据标注；

该步骤一中，可以经由专业新闻相关从业者讨论，所有属性类别及隶属层级关系根据其需求和建议得出。其中，步骤一包括如下子步骤：

步骤101：确定新闻画面属性的分类体系，这里的分类体系采用多层级类别表示，包括每一层级的详细类别和不同层级的类别之间的隶属关系；本实施例中，可以如图2所示的分类体系为例。

步骤102：根据已经确定的分类体系，获取每个类别的新闻画面图像样本；在本实施例中，通过使用爬虫技术在互联网爬取北京、山西、青海等各省市电视台的新闻栏目取得原始视频素材共38个，然后使用镜头切分算法将每个视频切分成若干镜头，通过人工标注每个镜头的首帧和结束帧，组成最终的训练数据集。

步骤二：新闻画面属性通用模型构建；

本实施例中，所有模型均可采用50层的多尺度残差网络构建。具体地，步骤二中包括如下子步骤：

步骤201：新闻画面属性通用的多尺度残差网络模型构建，各阶段的融合特征

其中，

对各阶段融合特征

将

步骤202：根据步骤一确定的类别层级关系，确定每个分类器的类别个数，调整网络的全连接层；具体的，根据在本实施例确定的如图2所示的层级分类体系中，共拟定构建4 个分类器

步骤三：根据步骤一标注的数据，使用步骤二构建的模型训练更新其参数；本实施例中，一共需要训练4个模型，包括如下步骤：

步骤301:分别初始化

步骤302:对于使用开集损失函数的

步骤303:使用步骤一中构建的新闻画面属性数据集和步骤二中构建的模型分别训练

步骤四：基于步骤一划分的层级关系、步骤二构建的模型结构、步骤三训练得到的分类器

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备（可以是个人计算机，服务器，或者网络设备等）以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器（Random Access Memory，RAM）、随机存取存储器（Random Access Memory，RAM）等。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于树型结构的多尺度残差网络的新闻画面属性识别方法 [P] . 中国专利： CN112288044B . 2021.07.27
2. 基于树型结构的多尺度残差网络的新闻画面属性识别方法 [P] . 中国专利： CN112288044A . 2021-01-29
3. DEEP RESIDUAL NETWORK-BASED GENDER RECOGNITION METHOD AND APPARATUS, MEDIUM, AND DEVICE [P] . 世界知识产权组织专利： WO2020151300A1 . 2020-07-30

机译：基于深度残差网络的性别识别方法及装置，介质和装置
4. Image recognition method and apparatus utilizing edge detection based on magnitudes of color vectors expressing color attributes of respective pixels of color image [P] . 美国专利： US6885771B2 . 2005-04-26

机译：基于边缘向量的图像识别方法和装置，所述边缘检测基于表示彩色图像的各个像素的颜色属性的颜色向量的大小
5. Image recognition method and apparatus utilizing edge detection based on magnitudes of color vectors expressing color attributes of respective pixels of color image [P] . 美国专利： US2004081355A1 . 2004-04-29

机译：基于边缘向量的图像识别方法和装置，所述边缘检测基于表示彩色图像的各个像素的颜色属性的颜色向量的大小