公开/公告号CN114898280A
专利类型发明专利
公开/公告日2022-08-12
原文格式PDF
申请/专利权人 大连民族大学;
申请/专利号CN202210675177.6
申请日2022-06-15
分类号G06V20/40(2022.01);G06V10/80(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06V10/82(2022.01);
代理机构大连智高专利事务所(特殊普通合伙) 21235;
代理人盖小静
地址 116600 辽宁省大连市经济技术开发区辽河西路18号
入库时间 2023-06-19 16:22:17
法律状态公告日
法律状态信息
法律状态
2022-08-30
实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022106751776 申请日:20220615
实质审查的生效
技术领域
本发明涉及深度学习视频理解技术领域,具体涉及少数民族舞蹈视频描述中视觉互参考语义检测方法。
背景技术
近年来,我国在经济、技术等领域全面发展,少数民族地区的生活水平极大改善,少数民族文化宣传也成为重点工作之一,利用深度学习技术对少数民族舞蹈视频进行自动理解,有利于少数民族文化传播,同时伴随短视频平台的大量涌现,监控和自动审查短视频的内容也成为研究的热点问题。当前对于少数民族舞蹈视频的自动描述技术并不常见,对视频的自动审查也主要依靠人工手段,现有算法并不能实现对视频内容的充分认识和理解。
当前视频描述算法中越来越多地涉及到视频的语义特征,将语义特征作为编码特征,利用长短时记忆等网络对语义特征进行解析进而生成视频的文本描述结果。专利《一种提高视频文本描述准确性的编码器网络模型设计方法》(公开号: CN111985612A)公开了一种视频文本描述的编解码方法,利用视频特征获取语义特征,并且采用S-LSTM网络解码得到视频的文本描述,在编码阶段通过增大单词之间的差异得到更准确的语义特征。专利《基于目标空间语义对齐的视频描述方法》(公开号:CN114154016A)公开了一种视频描述方法,其利用时序高斯空洞卷积获取视频长期时序关系,通过语义重构网络得到句子级概率分布差异,增强视频内容和生成语句的内在关联,输出更准确的文本句子。
语义特征在其它视频理解任务中也应用广泛,专利《一种基于视频序列深度学习的人物行为语义识别方法》(公开号:CN107038419A)公开了一种视频中人物动作识别方法,该方法对视频提取关键帧后,充分利用人体轮廓信息,以轮廓信息作为RBF神经网络的输入特征,得到代表人物行为的语义特征。专利《双通道语义定位多粒度注意互增强的视频问答方法与系统》(公开号: CN114020891A)提出一种视频问答方法,采用多模块设计将不同粒度的特征信息定义为视觉和文本两个通道,并分别设计辅助定位机制,利用增强共享表征得到与问题最相关的特征信息。
上述利用语义特征获取视频文本描述的方法中,语义特征是一种多分类标签形式的特征表示,语义特征不准确会直接影响视频描述效果,不利于少数民族舞蹈视频的描述;不利于安防监控和短视频内容审查的实际应用。因此如何提升语义特征的表达能力,进而生成准确的文本描述成为一个热点问题。
发明内容
本发明的目的在于,提供一种少数民族舞蹈视频描述中视觉互参考语义检测方法,其通过3D和2D信息的互参考增强语义有效性,并采用多阶段迭代操作提升特征表达能力。
为实现上述目的,本申请提出一种少数民族舞蹈视频描述中视觉互参考语义检测方法,其将输入视觉特征经过视觉互参考语义检测结构进行处理,输出表达能力较强的视频语义信息。所述视觉互参考语义检测结构以3D卷积神经网络和 2D卷积神经网络处理得到的视频3D视觉特征和2D视觉特征为输入,分别经 3D语义检测支路和2D语义检测支路提取语义特征,在语义提取过程中将3D视觉特征引入2D语义检测支路,将2D视觉特征引入3D语义检测支路,实现3D 和2D信息的交互作用,同时采用多阶段迭代操作进一步提升语义特征表达能力,将两支路最终输出的3D语义特征和2D语义特征拼接融合来表达视频语义。将该语义特征输入至长短时记忆网络进行解码,可以得到较准确的视频文本描述。
所述视觉互参考语义检测结构包括3D语义检测支路和2D语义检测支路,其用于提取语义特征的基本单元均为语义检测单元。
所述视觉互参考语义检测结构输入3D视觉特征V
(1)输入的3D视觉特征V
(2)输入的2D视觉特征V
(3)在3D语义检测支路中,对3D视觉特征采用语义检测单元A1处理,获取3D语义特征S
(4)在2D语义检测支路中,对2D视觉特征采用语义检测单元B1处理,获取2D语义特征S
(5)在3D语义检测支路中,将语义检测单元A1处理和特征拼接融合进行多阶段迭代操作,迭代m次后输出3D语义特征S
(6)在3D语义检测支路中,对3D语义特征S
(7)将3D语义特征S
具体的,视觉互参考语义检测结构有两个支路,在两个支路中均多次迭代使用语义检测单元生成语义特征,最终将两种语义特征拼接融合,提升语义特征的有效性。此外,在此过程中分别将3D视觉特征与2D语义特征拼接融合,2D视觉特征与3D语义特征拼接融合,实现3D和2D两支路信息的互参考,有效提升特征的表达能力。
具体的,所述语义检测单元是视觉互参考语义检测结构中,3D语义检测支路和2D语义检测支路的基本语义提取单元,除多层感知机的层数及相应层神经元个数可以不同外,两支路中语义检测单元结构均相同。以语义检测单元A1为例,输入3D视觉特征V
(1)输入的3D视觉特征V
(2)将3D视觉特征V
(3)将中间特征M
(4)对中间特征N
(5)对中间特征W
(6)上述全连接计算、偏置相加、非线性激活和随机删除神经元处理,属于语义检测单元的第1层,对以上操作进行多次迭代得到语义检测单元的第n 层特征X
(7)对特征X
语义检测单元是3D语义检测支路和2D语义检测支路的基本单元,也是视觉互参考语义检测结构的最基本单元,该单元由多个特征提取层构成,可以生成表达多分类信息的语义特征。
本发明采用的以上技术方案,与现有技术相比,具有的优点是:
(1)适用于少数民族舞蹈视频描述
本发明中可以通过提升语义特征的表达能力,提升视频描述性能,可以对少数民族舞蹈视频进行自动文本描述,有利于少数民族舞蹈文化的推广传播。
(2)适用于利用视觉特征获取语义特征的情况
本发明中以视频视觉特征作为输入,分为两个支路提取语义信息,通过3D 和2D信息的互参考增强语义有效性,并采用多阶段迭代操作提升特征表达能力;适用于通过视觉特征获取语义特征的情况。
(3)适用于视频描述任务
本发明中以视频经过卷积神经网络输出的视觉特征为输入,通过本发明提出的方法生成语义特征,将语义特征和视觉特征作为长短时记忆网络的输入,输出准确的视频文本描述。
(4)适用于图像描述任务
本发明可以提升视频描述性能,相对于视频序列,静态图像所包含的目标、动作、属性等视觉因素更为简单,所以也可以更好地应用于图像描述任务。
(5)适用于安防监控系统
本发明中可以通过视觉互参考语义检测方法生成较为有效的语义特征,将该特征输入至视频描述模型,可提升视频描述性能,自动生成准确的视频文本描述,其中目标、行为、属性等文本信息可以作为安防监控系统的提示信息,提升安防监控系统工作效率。
(6)适用于短视频内容审查系统
本发明中可以通过视觉互参考语义检测方法生成较为有效的语义特征,将该特征输入至视频描述模型,可提升视频描述性能,自动生成准确的视频文本描述,其中目标、行为、属性等文本信息可以作为短视频内容审查系统的提示信息,高效降低短视频中违法、违规、不具正能量的因素,构造良好网络环境。
附图说明
图1是视觉互参考语义检测结构的示意图;
图2是语义检测单元示意图;
图3是3D语义检测支路示意图;
图4是2D语义检测支路示意图;
图5是实施例1中少数民族舞蹈视频描述场景情况示意图;
图6是实施例2中安防监控场景情况示意图;
图7是实施例3中短视频内容审查情况示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请,即所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
本发明方法是在视觉互参考语义检测结构中实现的,如图1所示,该结构分为3D语义检测支路和2D语义检测支路,其均包括多层感知机形式的语义检测单元。两个支路分别对两种视觉特征初步提取语义信息,进一步与另一条支路的视觉信息融合,实现3D和2D信息的互参考,并通过多阶段迭代方式提升语义特征的有效性。互参考语义检测方法具体实施步骤如下:
第1步:将视频分别经过3D卷积神经网络和2D卷积神经网络处理后得到 3D视觉特征V
第2步:所述3D视觉特征V
具体的,以3D视觉特征V
首先利用语义检测单元A1提取语义特征,输出3D语义特征S
如式(1)所示为语义检测单元A1的第1层全连接计算,其中U
将得到的中间特征M
其中,D
所述中间特征N
其中,N
在以上操作基础上,进行随机删除神经元操作,如式(4)所示:
其中,函数
对第1层输出特征X
对语义检测单元A1第n层特征进行Softmax多标签分类操作:
其中,X
以上操作由3D视觉特征V
第3步:将所述3D语义特征S
其中,S
将所述2D语义特征S
其中,S
上述操作将3D语义特征和2D视觉特征拼接融合,2D语义特征和3D视觉特征拼接融合,实现两条支路信息,即3D和2D信息的交互作用,提升特征的表达能力。
第4步:在3D语义检测支路中,对第2步语义特征提取操作、第3步特征拼接融合操作进行多阶段迭代,迭代次数为m,则该支路逐次输出如下3D语义特征:
在2D语义检测支路中,对第2步语义特征提取操作、第3步特征拼接融合操作进行多阶段迭代,迭代次数为m,则该支路逐次输出如下2D语义特征:
对上述语义提取和特征拼接融合操作进行多阶段迭代,可以逐步提升语义特征的表达能力。
第5步:在3D语义检测支路中,对3D语义特征S
第6步:将3D语义特征S
对本发明中技术名词进行解释:(1)3D视觉特征:对少数民族舞蹈等视频进行3D卷积处理,并且即将输入到视觉互参考语义检测结构中的3D语义检测支路的特征向量。(2)2D视觉特征:对少数民族舞蹈等视频进行2D卷积处理,并且即将输入到视觉互参考语义检测结构中的2D语义检测支路的特征向量。(3) 语义特征:可以表示视频中所涉及词汇的多分类标签向量,本发明中语义特征也特指,视觉互参考语义检测结构的最终输出特征。(4)3D语义检测支路:视觉互参考语义检测结构中,以3D视觉特征为输入,在中间过程引入2D视觉特征,并且输出3D语义特征的通道。(5)2D语义检测支路:视觉互参考语义检测结构中,以2D视觉特征为输入,在中间过程引入3D视觉特征,并且输出2D语义特征的通道。(6)语义检测单元:单元的结构为多层感知机,用于在两个支路中提取3D语义特征或2D语义特征。(7)3D语义特征:3D语义检测支路中,每一个语义检测单元输出的特征。(8)2D语义特征:2D语义检测支路中,每一个语义检测单元输出的特征。
本实施例中迭代次数和单元层数约束条件可以为:(1)两个支路的语义检测单元均一一对应,特征拼接融合操作同样对应,即两个支路中语义检测单元的个数相同,均为m+1个。(2)为保证在输入视觉特征不同的情况下,均能得到较好的互参考语义检测结构,本发明采用4种迭代次数,即上述m∈{1,2,3,4}。 (3)为保证在输入特征不同的情况下,均能得到性能较好的语义检测单元,本发明采用5种特征提取层数,即层数n∈{2,3,4,5,6}。语义检测单元A1、语义检测单元A2、…、语义检测单元Am、语义检测单元End-A、语义检测单元B1、语义检测单元B2、…、语义检测单元Bm、语义检测单元End-B均可以选择5 种特征提取层数中的1种。
本实施例中特征尺寸约束条件可以为:(1)3D语义检测支路输入的3D视觉特征V
实施例1:
少数民族舞蹈视频描述场景情况
如图5所示,将本实例应用于少数民族舞蹈视频描述场景,采用本专利方法获取表达能力较强的语义特征,将其作为视频编码,在解码网络中解码得到舞蹈视频的文本描述,该文本信息可以让大众更熟悉少数民族舞蹈文化,有利于少数民族舞蹈文化的传播。
实施例2:
安防监控场景情况
如图6所示,将本实例应用于安防监控的场景,采用本专利方法获取表达能力较强的语义特征,将其作为视频编码,在解码网络中解码得到安防监控视频对应的文本描述,该文本信息可以有效防止危险和违法等情况的发生,并提高排查监控视频的效率。
实施例3:
短视频内容审查情况
如图7所示,将本实例应用于短视频内容审查,采用本专利方法获取表达能力较强的语义特征,将其作为视频编码,在解码网络中解码得到与短视频内容对应的文本描述,该文本信息可以有效防止短视频中违法、违规等负能量内容,有利于构造良好的网络环境。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
机译: 通过计算特定图像点的描述符,提出了一种在视频文件和视频流中查找全帧插件视觉污染物的方法
机译: 描述视频图像中各向同性区域的递归方法;图像序列中的运动检测装置和噪声检测器
机译: 使用上下文感知语义计算机视觉技术检测民用基础设施中异常的系统和方法